OpenAI GPT-4 Llegará a mediados de marzo de 2023

El CTO de Microsoft Germany, Andreas Braun, confirmó que GPT-4 llegará dentro de la semana del 9 de marzo de 2023 y que será multimodal. La IA multimodal significa que podrá operar con diferentes tipos de entradas, como video, imágenes y sonido.

Actualización: GPT-4 lanzado el 14 de marzo de 2023

OpenAI lanzó GPT-4 el 14 de marzo de 2023. Es un modelo multimodal que acepta indicaciones de imágenes y texto.

Modal es una frase utilizada en aprendizaje automático para denotar formas de entrada como texto pero también sentidos como sonido, visual, olfato, etc.

El anuncio de OpenAI describía la magnitud de los avances de GPT-4:

“...aunque sea menos capaz que los humanos en muchos escenarios del mundo real, muestra un rendimiento a nivel humano en diversas pruebas profesionales y académicas.

Por ejemplo, aprueba un examen de barra simulado con una puntuación que se encuentra alrededor del 10% más alto de los participantes; en contraste, la puntuación de GPT-3.5 se encontraba en el 10% más bajo.

Hemos pasado 6 meses alineando iterativamente GPT-4 utilizando lecciones de nuestro programa de pruebas adversariales, así como ChatGPT, lo que ha dado como resultado nuestros mejores resultados hasta ahora (aunque lejos de ser perfectos) en cuanto a factualidad, dirección y negativa a salirse de los límites establecidos.”

Modelos de Lenguaje Multimodales de Gran Tamaño

La gran conclusión del anuncio es que GPT-4 es multimodal (SEJ predijo que GPT-4 es multimodal en enero de 2023).

La modalidad es una referencia al tipo de entrada con el que (en este caso) un gran modelo de lenguaje trabaja.

Multimodal puede abarcar texto, voz, imágenes y video.

GPT-3 y GPT-3.5 solo operaron en una modalidad, texto.

Según el informe de noticias alemán, GPT-4 podría ser capaz de operar en al menos cuatro modalidades: imágenes, sonido (auditivo), texto y video.

El Dr. Andreas Braun, CTO de Microsoft Germany ha afirmado:

"Introduciremos GPT-4 la próxima semana, allí tendremos modelos multimodales que ofrecerán posibilidades completamente diferentes, por ejemplo, videos..."

La información presentada carecía de detalles sobre GPT-4, por lo que no está claro si lo que se compartió sobre la multimodalidad era específico de GPT-4 o solo en general.

El Director de Estrategia Empresarial de Microsoft, Holger Kenn, explicó las multimodalidades, pero el informe no estaba claro si se refería a la multimodalidad de GPT-4 o a la multimodalidad en general.

Creo que sus referencias a la multimodalidad eran específicas de GPT-4.

La noticia compartida:

"Kenn explicó en qué consiste la IA multimodal, que puede traducir el texto no solo en imágenes correspondientes, sino también en música y video."

Otro dato interesante es que Microsoft está trabajando en "métricas de confianza" para fundamentar su IA con hechos y hacerla más confiable.

Microsoft Kosmos-1

Algo que aparentemente pasó desapercibido en Estados Unidos es que Microsoft lanzó un modelo de lenguaje multimodal llamado Kosmos-1 a principios de marzo de 2023.

Según el informe del sitio de noticias alemán, Heise.de:

"...el equipo sometió el modelo pre-entrenado a diversas pruebas, con buenos resultados en la clasificación de imágenes, respuesta a preguntas sobre el contenido de las imágenes, etiquetado automático de imágenes, reconocimiento óptico de texto y generación de voz."

...La razón visual, es decir, sacar conclusiones sobre imágenes sin utilizar el lenguaje como paso intermedio, parece ser clave aquí...

Kosmos-1 es un modal multimodal que integra las modalidades de texto e imágenes.

GPT-4 va más allá de Kosmos-1 porque añade una tercera modalidad, el vídeo, y también parece incluir la modalidad del sonido.

Funciona en múltiples idiomas

GPT-4 parece funcionar en todos los idiomas. Se describe como capaz de recibir una pregunta en alemán y responder en italiano.

Ese es un ejemplo bastante extraño, ¿quién haría una pregunta en alemán y esperaría recibir una respuesta en italiano?

Esto es lo que ha sido confirmado:

"...la tecnología ha avanzado tanto que básicamente 'funciona en todos los idiomas': puedes hacer una pregunta en alemán y obtener una respuesta en italiano.

Con la multimodalidad, Microsoft(-OpenAI) 'hará que los modelos sean completos'".

Creo que el punto clave del avance es que el modelo trasciende el lenguaje con su capacidad para extraer conocimiento de diferentes idiomas. Entonces, si la respuesta está en italiano, lo sabrá y podrá proporcionar la respuesta en el idioma en el que se hizo la pregunta.

Eso lo haría similar al objetivo del AI multimodal de Google llamado MUM. Se dice que MUM puede proporcionar respuestas en inglés para las cuales los datos solo existen en otro idioma, como el japonés.

Aplicaciones de GPT-4

No hay ningún anuncio actual sobre dónde aparecerá GPT-4. Pero se mencionó específicamente Azure-OpenAI.

Google está luchando por alcanzar a Microsoft integrando una tecnología competidora en su propio motor de búsqueda. Este desarrollo agrava aún más la percepción de que Google se está quedando atrás y carece de liderazgo en la IA orientada al consumidor.

Google ya integra IA en múltiples productos como Google Lens, Google Maps y otras áreas en las que los consumidores interactúan con Google. Este enfoque consiste en utilizar la IA como una tecnología de asistencia, para ayudar a las personas en pequeñas tareas.

La forma en que Microsoft lo está implementando es más visible y, en consecuencia, está capturando toda la atención y reforzando la imagen de Google como una empresa que se tambalea y lucha por ponerse al día.

Lee el anuncio oficial de lanzamiento de OpenAI GPT-4 aquí.

Lee el reportaje original en alemán aquí:

GPT-4 llegará la próxima semana y será multimodal, afirma Microsoft Alemania