El gigantesco GPT-3 de OpenAI insinúa los límites de los modelos de lenguaje para la IA

Hace un poco más de un año, OpenAI, una empresa de inteligencia artificial con sede en San Francisco, sorprendió al mundo al mostrar un impresionante avance en lo que parecía ser la capacidad de las computadoras para formar oraciones en lenguaje natural e incluso para resolver preguntas, como completar una oración y formular largos pasajes de texto que las personas encontraban bastante humanos.

El último trabajo de ese equipo muestra cómo el pensamiento de OpenAI ha madurado en algunos aspectos. GPT-3, como se llama la nueva creación, apareció la semana pasada, con más funciones adicionales, creadas por algunos de los mismos autores que la última versión, incluyendo a Alec Radford e Ilya Sutskever, junto con varios colaboradores adicionales, incluidos científicos de la Universidad Johns Hopkins.

Ahora es un verdadero modelo de lenguaje monstruoso, como se le llama, devorando dos órdenes de magnitud más texto que su predecesor.

Pero dentro de esa hazaña de "más grande es mejor", el equipo de OpenAI parece estar aproximándose a algunas verdades más profundas, de la misma manera que el Dr. David Bowman se acercó a los límites de lo conocido al final de la película 2001.

Enterrado en la sección final del documento de 72 páginas, Los Modelos de Lenguaje son Aprendices de Pocas Muestras, publicado la semana pasada en el servidor de pre-impresión arXiv, se encuentra un reconocimiento bastante sorprendente.

"Una limitación más fundamental del enfoque general descrito en este documento - escalar cualquier modelo similar al Modelo de Lenguaje (LM), ya sea autoregresivo o bidireccional - es que eventualmente puede chocar (o ya podría estar chocando) con los límites del objetivo de preentrenamiento", escriben los autores.

Lo que los autores están diciendo es que construir una red neuronal que solo predice las probabilidades de la próxima palabra en cualquier frase o frase puede tener sus límites. Simplemente hacerla más poderosa y llenarla de más texto puede no dar mejores resultados. Eso es un reconocimiento significativo dentro de un artículo que en su mayoría celebra el logro de lanzar más potencia informática a un problema.

Para comprender por qué la conclusión de los autores es tan significativa, considera cómo llegamos hasta aquí. La historia del trabajo de OpenAI en lenguaje ha sido parte de la historia de una progresión constante de un tipo de enfoque, con cada vez más éxito a medida que la tecnología se volvía más y más grande.

El GPT original y el GPT-2 son ambas adaptaciones de lo que se conoce como Transformer, una invención pionera en Google en 2017. El Transformer utiliza una función llamada atención para calcular la probabilidad de que aparezca una palabra dadas las palabras circundantes. OpenAI causó controversia hace un año cuando afirmó que no publicaría el código fuente de la versión más grande de GPT-2 porque ese código, según dijo, podría caer en malas manos y ser utilizado de manera abusiva para engañar a las personas con cosas como noticias falsas.

El nuevo documento lleva a GPT al siguiente nivel al hacerlo aún más grande. La versión más grande de GPT-2, aquella que no se publicó en forma de código fuente, tenía 1,5 mil millones de parámetros. GPT-3 tiene 175 mil millones de parámetros. Un parámetro es un cálculo en una red neuronal que aplica un mayor o menor peso a algún aspecto de los datos, para darle mayor o menor importancia en el cálculo general de los datos. Son estos pesos los que dan forma a los datos y dan a la red neuronal una perspectiva aprendida sobre los datos.

A lo largo del tiempo, aumentar los pesos ha dado lugar a resultados sorprendentes en las pruebas de referencia realizadas por la familia de programas GPT y por otros derivados del modelo Transformer de gran tamaño, como BERT de Google, resultados que han sido consistentemente impresionantes.

No importa que muchas personas hayan señalado que ninguno de estos modelos de lenguaje parecía comprender el lenguaje de manera significativa. Están superando pruebas y eso cuenta para algo.

La última versión muestra nuevamente un progreso cuantitativo. Al igual que GPT-2 y otros programas basados en Transformer, GPT-3 se entrena con el conjunto de datos Common Crawl, un corpus de casi un billón de palabras de textos extraídos de la web. "El conjunto de datos y el tamaño del modelo son aproximadamente dos órdenes de magnitud más grandes que los utilizados para GPT-2", escriben los autores.

GPT-3 con 175 mil millones de parámetros es capaz de lograr lo que los autores describen como "aprendizaje meta". El aprendizaje meta implica que la red neuronal de GPT no se vuelve a entrenar para realizar una tarea como completar frases. Dado un ejemplo de una tarea, como una frase incompleta, y luego la frase completada, GPT-3 procederá a completar cualquier frase incompleta que se le presente.

GPT-3 es capaz de aprender cómo hacer una tarea con una sola indicación, mejor, en algunos casos, que las versiones de Transformer que han sido ajustadas, por así decirlo, para realizar específicamente esa tarea. Por tanto, GPT-3 es el triunfo de una generalidad global. Solo hay que alimentarlo con una enorme cantidad de texto hasta que sus pesos sean ideales, y puede continuar realizando bastante bien una serie de tareas específicas sin más desarrollo.

Aquí es donde la historia llega a un impactante desenlace en el nuevo artículo. Después de enumerar los impresionantes resultados de GPT-3 en tareas de lenguaje que van desde completar frases hasta inferir la implicación lógica de afirmaciones y traducir entre idiomas, los autores señalan las limitaciones.

"A pesar de las fuertes mejoras cuantitativas y cualitativas de GPT-3, especialmente en comparación con su predecesor directo GPT-2, aún presenta debilidades notables."

Esas debilidades incluyen la incapacidad de lograr una precisión significativa en lo que se llama Inferencia de Lenguaje Natural Adversarial (NLI, por sus siglas en inglés). NLI es una prueba en la que el programa debe determinar la relación entre dos frases. Investigadores de Facebook y la Universidad de Carolina del Norte han introducido una versión adversarial, donde los humanos crean pares de frases que son difíciles de resolver para la computadora.

GPT-3 hace "poco mejor que al azar" en cosas como NLI Adversarial, escriben los autores. Peor aún, habiendo aumentado la potencia de procesamiento de su sistema a 175 mil millones de pesos, los autores no están exactamente seguros de por qué no han tenido éxito en algunas tareas.

Eso es cuando llegan a la conclusión, citada antes, de que quizás simplemente alimentar un enorme corpus de texto a una máquina gigante no es la respuesta definitiva.

Incluso más sorprendente es la siguiente observación. La práctica de tratar de predecir lo que va a suceder con el lenguaje puede ser un enfoque equivocado, escriben los autores. Puede que estén apuntando en el lugar equivocado.

"Con objetivos de autoaprendizaje, la especificación de la tarea se basa en convertir la tarea deseada en un problema de predicción", escriben, "mientras que en última instancia, los sistemas de lenguaje útiles (por ejemplo, asistentes virtuales) podrían ser mejor considerados como acciones dirigidas por objetivos en lugar de hacer solo predicciones".

Los autores lo dejan para otro momento para especificar cómo abordarán esta nueva y fascinante dirección potencial.

Pese a la realización de que más grande no siempre es mejor, los resultados mejorados de GPT-3 en muchas tareas probablemente alimenten, en lugar de reducir, el deseo de redes neuronales cada vez más grandes. Con 175 mil millones de parámetros, GPT-3 es el rey de las grandes redes neuronales, por el momento. Una presentación en abril de la empresa de chips de IA Tenstorrent describió futuras redes neuronales con más de un billón de parámetros.

Para una buena parte de la comunidad de aprendizaje automático, el modelado del lenguaje cada vez más grande va a seguir siendo el estado del arte.

El gigantesco GPT-3 de OpenAI apunta a los límites de los modelos de lenguaje para la IA

Artículos relacionados