Tecnología

¿Qué significaría un GPT-4 “multimodal” para las empresas?

Jesús Parada

14 marzo, 2023

¿Qué significaría un GPT-4 “multimodal” para las empresas?

Es posible que el próximo gran modelo de IA lingüística GPT-4 de OpenAI pueda utilizar una serie de entradas. Esto aumentaría enormemente sus usos en la empresa

Es posible que el próximo gran modelo de IA lingüística de OpenAI pueda utilizar una serie de entradas. Esto aumentaría enormemente sus usos potenciales en la empresa.

Los rumores han rodeado el tamaño, el rendimiento y las capacidades de GPT-4, el modelo de gran lenguaje de próxima generación de OpenAI, desde que la empresa lanzó GPT-3 en junio de 2020. Esto no ha hecho más que intensificarse desde el inesperado éxito de ChatGPT, y el último rumor procede de Microsoft en Alemania, que sugiere que la herramienta podrá analizar y producir algo más que texto. Esto podría permitir a los usuarios convertir un organigrama en un informe de texto, o crear un mood board a partir de un vídeo.

Microsoft es un socio importante de OpenAI, ha invertido miles de millones en la empresa desde 2019 y utiliza sus modelos en una serie de productos. En un acto celebrado en Alemania, Andreas Braun, Director Técnico de Microsoft Alemania, dijo que la GPT-4 llegará la semana que viene y “tendrá modelos multimodales que ofrecerán posibilidades completamente diferentes, por ejemplo, vídeos”.

También se rumorea que el modelo tendrá un tamaño similar o menor que el GPT-3, de 175.000 millones de parámetros, debido a la mejora de los esfuerzos de optimización y eficiencia. De ser cierto, OpenAI seguirá la tendencia marcada por Meta con su modelo LLaMA y por AI21 Labs con Jurassic-2. El fundador de OpenAI, Sam Altman, ha desmentido el rumor de que tendrá más de 100 billones de parámetros.

Si, como sugiere Braun, la próxima generación del gran modelo lingüístico insignia de OpenAI es multimodal, podría resultar una tecnología revolucionaria, ya que sería capaz de analizar y generar vídeo, imágenes y posiblemente también audio. Podría utilizarse para producir resultados multimedia y recibir entradas de una serie de medios diferentes.

Los modelos multimodales no son nada nuevo. El propio DALL-E de OpenAI es una forma de IA multimodal, entrenada tanto en texto como en imágenes para permitir la generación de texto a imagen o de imagen a imagen. CLIP es otro modelo de OpenAI desarrollado para asociar conceptos visuales con el lenguaje. Está entrenado para distinguir entre entradas similares y disímiles maximizando la concordancia entre ellas.

Puede utilizarse para la clasificación de imágenes, la detección de objetos y la recuperación de imágenes. CLIP también se puede utilizar para el aprendizaje de disparo cero, que es la capacidad de realizar una tarea sin ningún entrenamiento o ejemplo previo. La propia Microsoft ya ha estado experimentando con modelos de IA multimodal, y a principios de este mes dio a conocer detalles de Kosmos-1, un modelo que puede basarse en datos de texto e imágenes.

IA multimodal: entrada y salida multimedia

Se ha revelado muy poca información específica sobre GPT-4, aparte del hecho de que probablemente superará al enormemente exitoso GPT-3 y a su sucesor provisional GPT-3.5, que es una versión perfeccionada del modelo original. Los comentarios de Microsoft Alemania sugieren la multimodalidad, que podría ser desde aceptar entradas de imagen o vídeo, hasta ser capaz de producir una película.

James Poulter, director general de la empresa de inteligencia artificial por voz Vixen Labs, dice que lo más probable es lo primero. “Si la GPT-4 se convierte en multimodal de este modo, se abrirá un montón de nuevos casos de uso. Por ejemplo, poder resumir audio y vídeo de larga duración, como podcasts y documentales, o poder extraer significados y patrones de grandes bases de datos de fotos y dar respuestas sobre lo que contienen.”

Muchos de los grandes proveedores de LLM están buscando formas de integrar sus modelos con otras herramientas, como los grafos de conocimiento, los modelos generativos de IA y los resultados multimodales, pero Poulter afirma que “la velocidad a la que OpenAI ha escalado la adopción de ChatGPT y GPT3.5 la sitúa muy por delante en términos de confianza de empresas y consumidores”.

Uno de los casos de uso más probables para la entrada multimedia es el reconocimiento de voz o la transcripción automática de audio o vídeo, predice el desarrollador de IA Michal Stanislawek. Esto se basará en la API Whisper lanzada recientemente, que puede transcribir rápidamente el habla en texto y en la generación de voz sintética. “Espero que esto signifique también poder enviar imágenes y posiblemente vídeos y continuar la conversación basándose en su contenido”, afirma.

“La multimodalidad supondrá un cambio enorme en la forma en que la gente utiliza la IA y en los nuevos casos de uso que puede soportar. Se crearán empresas enteras basadas en ella”, añade Stanislawek, poniendo el ejemplo de comentaristas sintéticos para partidos deportivos en varios idiomas, resumiendo reuniones y eventos en tiempo real y analizando gráficos para extraer más significado.

¿Será la GPT-4 verdaderamente multimodal?

El experto en IA conversacional Kane Simms está de acuerdo, y añade que lo más probable es que sea multimodal de entrada y no de salida, pero que si se basa en la salida entonces “estás en territorio interesante”, sugiriendo que podría utilizarse para generar un vídeo a partir de un archivo de imagen y audio o crear un “tablón de estados de ánimo” a partir de un vídeo.

Sin embargo, Mark L’Estrange, profesor titular de deportes electrónicos en la Academia de Juegos de la Universidad de Falmouth, dijo a Tech Monitor que es poco probable que sea verdaderamente multimodal en el verdadero sentido de la palabra, ya que eso requiere mucho más desarrollo y potencia de cálculo. “Multimodal significa que puedes darle indicaciones verbales, puedes subir fotos, puedes darle cualquier entrada y que la entienda y, en contexto, produzca lo que quieras”, dice, y añade: “ahora mismo tenemos un marco muy fracturado”.

Dijo que eso llegará, describiéndolo como “universal-modal”, en el que podrías, mediante una serie de entradas e indicaciones, generar algo parecido a un prototipo de juego que luego puede convertirse en un juego completo utilizando la entrada y el talento humanos. “La aportación humana es lo que se necesita para hacer estos juegos únicos que tienen estas visiones únicas y para elegir las salidas adecuadas de la IA. Así que puede que un equipo que antes era de 40 o 50 personas ahora sea de 20”.

Aunque sólo sea parcialmente multimodal, capaz de tomar una simple entrada de imagen y generar un informe de texto, esto podría ser significativo para la empresa. Permitiría a un directivo enviar un gráfico de métricas de rendimiento de distintas opciones de software y que la IA generara un informe completo, o a un director general enviar un organigrama y que la IA sugiriera optimizaciones y cambios para obtener el mejor rendimiento.