¿Qué es GPT-3? Todo lo que tu negocio necesita saber sobre el revolucionario programa de lenguaje de inteligencia artificial de OpenAI

GPT-3 es un programa informático creado por la startup con sede en San Francisco, OpenAI. Es una red neuronal gigantesca y, como tal, forma parte del segmento de aprendizaje profundo del aprendizaje automático, que a su vez es una rama del campo de la informática conocida como inteligencia artificial o IA. El programa es mejor que cualquier otro programa anterior en la generación de líneas de texto que suenan como si hubieran sido escritas por un humano.

La razón por la que este avance podría ser útil para las empresas es que tiene un gran potencial para automatizar tareas. GPT-3 puede responder a cualquier texto que una persona escriba en la computadora con un nuevo texto que sea apropiado para el contexto. Por ejemplo, si escribes una oración completa en inglés en un cuadro de búsqueda, es más probable que obtengas una respuesta en oraciones completas que sea relevante. Esto significa que GPT-3 puede concebiblemente amplificar el esfuerzo humano en una amplia variedad de situaciones, desde preguntas y respuestas para el servicio al cliente hasta la búsqueda de documentos de diligencia debida y la generación de informes.

Observe el siguiente breve ejemplo de lo que una persona escribe en la computadora y cómo GPT-3 envía una respuesta:

Entrada proporcionada por el usuario: P: ¿Quién interpretó a Tess en Touched by an Angel?

GPT-3-generated completion : A: Delloreese Patricia Early (6 de julio de 1931 { 19 de noviembre de 2017), conocida profesionalmente como Della Reese

El programa está actualmente en una versión beta privada para la cual las personas pueden inscribirse en una lista de espera. Está siendo ofrecido por OpenAI como una API accesible a través de la nube, y las empresas que han obtenido acceso han desarrollado algunas aplicaciones intrigantes que utilizan la generación de texto para mejorar todo tipo de programas, desde responder preguntas simples hasta producir código de programación.

Junto con el potencial de automatización, vienen grandes inconvenientes. GPT-3 requiere una gran cantidad de recursos computacionales, lo cual limita su uso para la mayoría de las empresas en cualquier implementación interna concebible. El texto que genera puede ser impresionante a simple vista, pero las composiciones largas tienden a carecer de sentido. Además, tiene un gran potencial para amplificar los sesgos, incluyendo el racismo y el sexismo.

¿CÓMO FUNCIONA GPT-3?

GPT-3 es un ejemplo de lo que se conoce como un modelo de lenguaje, que es un tipo particular de programa estadístico. En este caso, fue creado como una red neuronal.

El nombre GPT-3 es un acrónimo que significa "entrenamiento previo generativo", del cual esta es la tercera versión hasta ahora. Es generativo porque, a diferencia de otras redes neuronales que arrojan una puntuación numérica o una respuesta de sí o no, GPT-3 puede generar largas secuencias de texto original como resultado. Está pre-entrenado en el sentido de que no ha sido construido con ningún conocimiento específico, aunque puede completar tareas específicas de dominio, como la traducción de idiomas extranjeros.

Un modelo de lenguaje, en el caso de GPT-3, es un programa que calcula qué tan probable es que una palabra aparezca en un texto dadas las otras palabras en el texto. Eso es lo que se conoce como la probabilidad condicional de las palabras.

Por ejemplo, en la frase, Quería hacer una tortilla, así que fui a la nevera y saqué algunos ____, el espacio en blanco puede ser llenado con cualquier palabra, incluso sin sentido, dada la infinita composibilidad del lenguaje. Pero la palabra "huevos" probablemente tenga una puntuación bastante alta para llenar ese espacio en la mayoría de los textos normales, más alta que, digamos, "elefantes". Decimos que la probabilidad de huevos en función del texto promovido es mayor que la probabilidad de elefantes.

Cuando se está desarrollando la red neuronal, en la fase de entrenamiento, GPT-3 se alimenta con millones y millones de ejemplos de texto y convierte las palabras en lo que se llaman vectores, representaciones numéricas. Esta es una forma de compresión de datos. Luego, el programa intenta descomprimir este texto comprimido y convertirlo en una oración válida. La tarea de comprimir y descomprimir desarrolla la precisión del programa al calcular la probabilidad condicional de las palabras.

Una vez que el modelo ha sido entrenado, es decir, que se han realizado los cálculos de probabilidad condicional en miles de millones de palabras para que sean lo más precisos posible, entonces puede predecir qué palabras vendrán a continuación cuando una persona escriba una palabra o palabras iniciales. Esa acción de predicción se conoce en el aprendizaje automático como inferencia.

Eso da lugar a un efecto de espejo llamativo. No solo aparecen palabras probables, sino que también se reproduce la textura y el ritmo de un género o la forma de una tarea escrita, como conjuntos de preguntas y respuestas. Así, por ejemplo, GPT-3 puede recibir algunos nombres de poetas famosos y muestras de su trabajo, luego el nombre de otro poeta y solo el título de un poema imaginario, y GPT-3 producirá un nuevo poema de una manera coherente con el ritmo y la sintaxis del poeta cuyo nombre ha sido sugerido.

Ten en cuenta la siguiente instancia de GPT-3 creando un poema desde cero que es parecido al trabajo de Wallace Stevens, después de que se le proporcionen títulos, nombres y ejemplos de otros poetas y su trabajo:

Entrada suministrada por un humano: La Ciudad  POR C. P. CAVAFY  TRADUCIDO POR EDMUND KEELEY [Texto del poema omitido]

Entrada proporcionada por un ser humano: ALGUNOS ÁRBOLES John Ashbery [Texto del poema omitido]

Entrada suministrada por un humano: Sombras en el camino Wallace Stevens

GPT-3-generated completion : -------- Poema Generado 1 --------   Debo tener sombras en el camino  Si he de caminar debo tener  Cada paso tomado lentamente y solo  Para tenerlo listo   Y debo pensar en líneas grises  Para tener pensamientos tenues que sean mi guía  Debo observar el azul y el verde  Y nunca dejar que mi ojo olvide  Que el color es mi amigo  Y el púrpura también debe rodearme  El amarillo del sol ya no es  Intrusivo como la nieve azulada  Que cae sobre todos nosotros. Debo tener  Pensamientos grises y pensamientos azules caminando conmigo  Si he de irme en absoluto.

Generar una respuesta significa que GPT-3 puede ir mucho más allá de simplemente producir escritura. Puede rendir en todo tipo de pruebas, incluyendo pruebas de razonamiento que involucran una respuesta en lenguaje natural. Si, por ejemplo, se le proporciona a GPT-3 un ensayo sobre las tarifas de alquiler de propiedades en Manhattan, y una afirmación que resume el texto, como "Manhattan es barato", y la pregunta "verdadero o falso?", GPT-3 responderá a todo el estímulo devolviendo la palabra "falso", ya que la afirmación no concuerda con el argumento del ensayo.

Entrada proporcionada por los humanos: La tendencia hacia alquileres más bajos puede parecer sorprendente dado que algunas comunidades en Nueva York lamentan la pérdida de sus negocios locales favoritos debido a alquileres altos. Sin embargo, a pesar de la reciente reducción, para muchos de estos minoristas todavía ha habido un salto demasiado grande desde las tasas de alquiler de finales de la década de 1970, cuando firmaron sus contratos de arrendamiento. Ciertamente, la reciente caída de los precios no significa que Manhattan sea barato.

Entrada de usuario: pregunta: Manhattan es barato. verdadero, falso, o ninguno?

Entrada proporcionada por el humano: respuesta:

GPT-3-generación de completado: falso

La capacidad de GPT-3 para responder de manera coherente a una tarea de ejemplo, incluyendo formularios a los que nunca antes fue expuesto, lo convierte en lo que se llama un modelo de lenguaje "few-shot". En lugar de ser ampliamente ajustado o "entrenado", como se le llama, en una tarea específica, GPT-3 ya tiene tanta información sobre las muchas formas en que las palabras se combinan que solo se le pueden dar un puñado de ejemplos de una tarea, lo que se llama un paso de ajuste fino, y adquiere la capacidad de realizar también esa nueva tarea.

La capacidad de reflejar estilos de lenguaje natural y obtener puntajes relativamente altos en pruebas basadas en el lenguaje puede dar la impresión de que GPT-3 está acercándose a una especie de habilidad similar a la humana con el lenguaje. Como veremos, eso no es cierto.

Más detalles técnicos se pueden encontrar en el documento formal de GPT-3 publicado por los científicos de OpenAI.

¿QUÉ PUEDE HACER GPT-3?

OpenAI ahora es tan famosa - o infame - por las prácticas de lanzamiento de su código como por el propio código. Cuando la compañía presentó GPT-2, el predecesor, en el Día de San Valentín de 2019, inicialmente no lo lanzaría al público en su versión más capaz, diciendo que era demasiado peligroso lanzarlo al público debido al riesgo de producción masiva de texto falsa y engañosa. OpenAI posteriormente lo ha puesto disponible para su descarga.

Esta vez, OpenAI no está proporcionando descargas. En su lugar, ha activado un punto final de API basado en la nube, convirtiendo a GPT-3 en una oferta como servicio. (Piensa en ello como LMaaS, modelo de lenguaje como servicio). La razón, según OpenAI, es tanto limitar el uso de GPT-3 por actores maliciosos como también para ganar dinero.

"No hay un 'botón deshacer' con el código abierto", informó OpenAI a ZDNet a través de un portavoz.

"Lanzar GPT-3 a través de una API nos permite controlar de forma segura su uso y revocar el acceso si es necesario."

Actualmente, el servicio de la API de OpenAI está limitado a las partes aprobadas; hay una lista de espera a la que uno puede unirse para obtener acceso.

"En este momento, la API se encuentra en una beta controlada con un pequeño número de desarrolladores que presentan una idea para algo que les gustaría llevar a producción utilizando la API", dijo OpenAI a ZDNet.

También: El generador de texto de IA 'peligrosa' de OpenAI está disponible: Las personas encuentran las palabras 'convincentes'

Hay ejemplos intrigantes de lo que se puede hacer a partir de empresas en el programa beta. Sapling, una empresa respaldada por el fondo de inversión Y Combinator, ofrece un programa que se sitúa encima del software de CRM. Cuando un representante de atención al cliente está gestionando una solicitud de ayuda entrante, por ejemplo, a través de correo electrónico, el programa utiliza GPT-3 para sugerir una frase completa como respuesta entre las respuestas más probables.

El creador de juegos Latitude está utilizando GPT-3 para mejorar su juego de aventuras basado en texto, AI Dungeon. Normalmente, un juego de aventuras requeriría un árbol de decisiones complejo para escribir muchas posibles rutas a través del juego. En cambio, GPT-3 puede generar dinámicamente un estado cambiante del juego en respuesta a las acciones escritas por los usuarios.

Ya es posible automatizar tareas que involucran la generación de código informático, más allá del lenguaje natural. El código es un lenguaje y GPT-3 puede inferir la sintaxis más probable de los operadores y operandos en diferentes lenguajes de programación, y puede producir secuencias que pueden compilarse y ejecutarse exitosamente.

Un ejemplo temprano causó furor en Twitter, por parte de la startup de desarrollo de aplicaciones Debuild. El director de la compañía, Sharif Shameem, logró crear un programa en el que puedes escribir la descripción de una interfaz de usuario de software en inglés simple, y GPT-3 responde con código de computadora utilizando la extensión de sintaxis JSX de JavaScript. Ese código produce una interfaz de usuario que coincide con lo que has descrito.

Esto es alucinante. Con GPT-3, he creado un generador de diseños en el que solo tienes que describir el diseño que deseas y genera el código JSX por ti. Q U É pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) 13 de julio de 2020

Shameem demostró que al describir una interfaz de usuario con múltiples botones, con una sola frase podría describir un programa completo, aunque sea uno sencillo como el cálculo de operaciones aritméticas básicas y mostrar el resultado, y GPT-3 generaría todo el código para ello y mostraría la aplicación en ejecución.

Acabo de construir una aplicación React *funcionando* describiendo lo que quería a GPT-3. Todavía estoy impresionado. pic.twitter.com/UUKSYz2NJO

— Sharif Shameem (@sharifshameem) 17 de julio de 2020

OpenAI ha "recibido decenas de miles de solicitudes para acceder a la API hasta la fecha y está siendo prudente en cuanto al acceso, mientras aprendemos qué es lo que estos modelos pueden hacer en el mundo real", declaró la compañía a ZDNet. "Por lo tanto, la lista de espera puede ser larga".

El precio de un eventual servicio comercial aún está por determinar. Cuando se le preguntó a OpenAI cuándo saldrá el programa de beta, ZDNet informó que "no será en el corto plazo".

"El lanzamiento de un modelo tan poderoso significa que debemos proceder con cautela y considerar cuidadosamente su impacto en empresas, industrias y personas", dijo la empresa. "El formato de una API nos permite estudiar y moderar su uso de manera apropiada, pero no tenemos prisa por ponerlo a disposición en general, dadas sus limitaciones".

Si tienes poca paciencia con la lista de espera para la versión beta, mientras tanto puedes descargar la versión anterior, GPT-2, que se puede ejecutar en un portátil mediante una instalación de Docker. El código fuente está publicado en el mismo repositorio de Github, en formato Python para el marco de trabajo TensorFlow. Por supuesto, no obtendrás los mismos resultados que GPT-3, pero es una forma de empezar a familiarizarte.

Recuerda también que constantemente aparecen nuevos modelos de lenguaje con capacidades similares, y algunos de ellos pueden ser suficientes para tus propósitos. Por ejemplo, Google recientemente lanzó una versión de su modelo de lenguaje BERT, llamada LaBSE, que demuestra una notable mejora en la traducción de lenguaje. Está disponible para su descarga desde el TensorFlow Hub.

También:El gigantesco GPT-3 de OpenAI insinúa los límites de los modelos de lenguaje para la IA

¿CUAL ES LA HISTORIA DE GPT-3?

GPT-3, presentado en mayo, es la tercera versión de un programa introducido por primera vez en 2018 por OpenAI y seguido el año pasado por GPT-2. Los tres programas son un ejemplo de innovación rápida en el campo de los modelos de lenguaje, gracias a dos grandes avances que ocurrieron en 2015.

El primer avance fue el uso de lo que se conoce como atención. El científico de IA Yoshua Bengio y sus colegas del instituto Mila de IA de Montreal observaron que los modelos de lenguaje, cuando comprimían una frase en inglés y luego la descomprimían, todos utilizaban un vector de longitud fija. Cada frase era empaquetada en un vector del mismo tamaño, sin importar cuánto tiempo fuera la frase.

Bengio y su equipo concluyeron que este enfoque rígido era un cuello de botella. Un modelo de lenguaje debe poder buscar en muchos vectores de diferentes longitudes para encontrar las palabras que optimicen la probabilidad condicional. Y así idearon una forma de permitir que la red neuronal comprimiera flexiblemente las palabras en vectores de diferentes tamaños, y también permitir que el programa buscara flexiblemente en esos vectores el contexto relevante. A esto lo llamaron atención.

La atención se convirtió en un elemento crucial en los modelos de lenguaje. Fue utilizada por científicos de Google dos años después para crear un programa de modelos de lenguaje llamado el Transformer. El Transformer obtuvo puntuaciones increíbles en pruebas de manipulación del lenguaje. Se convirtió en el modelo de lenguaje de facto y fue utilizado por Google para crear lo que se conoce como BERT, otro modelo de lenguaje muy exitoso. El Transformer también se convirtió en la base de GPT-1.

Liberado de la necesidad de manipular rígidamente un vector de tamaño fijo, el Transformer y sus descendientes podrían recorrer libremente diferentes partes de un texto dado y encontrar dependencias condicionales que abarcarían un contexto mucho más amplio.

Esa libertad preparó el terreno para otra innovación que llegó en 2015 y que fue aún más central para el trabajo de OpenAI, conocida como aprendizaje no supervisado.

El enfoque hasta ese momento para la mayoría de los modelos de lenguaje se había centrado en el aprendizaje supervisado con lo que se conoce como datos etiquetados. Dado un input, una red neuronal también recibe un ejemplo de salida como la versión objetivo de la respuesta. Entonces, si la tarea es la traducción, una oración en inglés podría ser el input, y una traducción al francés creada por un humano se proporcionaría como el objetivo deseado, y el par de oraciones constituye un ejemplo etiquetado.

El intento de la red neuronal de generar una traducción al francés se comparará con la frase oficial en francés, y la diferencia entre ambas es la cantidad de error en las predicciones de la red neuronal, lo que se conoce como función de pérdida o función objetivo.

La fase de entrenamiento tiene como objetivo cerrar la brecha de error entre la salida sugerida de la red neural y la salida objetivo. Cuando la brecha es lo más pequeña posible, la función objetivo ha sido optimizada y se considera que la red neural del modelo de lenguaje está entrenada.

Pero etiquetar cuidadosamente la salida deseada puede ser un problema porque requiere mucha curación de datos, como la recopilación de pares de frases de ejemplo mediante el juicio humano, lo cual lleva mucho tiempo y recursos. Andrew Dai y Quoc Le de Google plantearon la hipótesis de que era posible reducir la cantidad de datos etiquetados necesarios si primero se entrenaba el modelo de lenguaje de manera no supervisada.

En lugar de recibir un par de frases, a la red se le proporcionó solo frases individuales y tuvo que comprimir cada una en un vector y luego descomprimir cada una de vuelta a la frase original. La función de pérdida utilizada fue la de espejado, con el objetivo de optimizar. Descubrieron que cuanto más ejemplos no etiquetados se comprimían y descomprimían de esta forma, más podían sustituir a grandes cantidades de datos etiquetados en tareas como la traducción.

En 2018, el equipo de OpenAI combinó estos dos elementos, el mecanismo de atención desarrollado por Bengio y sus colegas, que se desplazaría por muchos vectores de palabras, y el enfoque de pre-entrenamiento no supervisado de Dai y Le, que devoraría grandes cantidades de texto, lo comprimiría y descomprimiría para reproducir el texto original.

Tomaron un Transformer estándar y le alimentaron con el contenido del BookCorpus, una base de datos compilada por la Universidad de Toronto y el MIT que consta de más de 7.000 textos de libros publicados que suman casi un millón de palabras, en total 5GB. GPT-1 fue entrenado para comprimir y descomprimir esos libros.

Así comenzó una historia de tres años de conjuntos de datos cada vez más grandes. Los investigadores de OpenAI, hipotetizando que más datos hacían que el modelo fuera más preciso, ampliaron los límites de lo que el programa podía asimilar. Con GPT-2, dejaron de lado el BookCorpus a favor de un conjunto de datos propio, que consta de ocho millones de páginas web extraídas de enlaces salientes de Reddit, con un total de 40GB de datos.

El entrenamiento de GPT-3 es aún más colosal, ya que incluye el popular conjunto de datos CommonCrawl de páginas web desde 2016 hasta 2019. Tiene un tamaño nominal de 45 TB de datos de texto comprimidos, aunque OpenAI lo ha depurado para eliminar duplicados y mejorar su calidad. La versión final consta de 570 GB de datos. OpenAI lo complementó con varios conjuntos de datos adicionales de diferentes tipos, incluyendo datos de libros.

¿CÓMO DEPENDE GPT-3 DE LA POTENCIA DE CÁLCULO?

Con la llegada de GPT-1, 2 y 3, la escala de la computación se ha convertido en un ingrediente esencial para el progreso. Los modelos utilizan cada vez más potencia informática cuando se están entrenando para lograr mejores resultados.

Lo que optimiza una red neuronal durante el entrenamiento es el ajuste de sus pesos. Los pesos, que también se conocen como parámetros, son matrices, arreglos de filas y columnas por los cuales se multiplica cada vector. A través de la multiplicación, los muchos vectores de palabras, o fragmentos de palabras, son ponderados más o menos en la salida final a medida que la red neuronal se ajusta para cerrar la brecha de error.

OpenAI descubrió que para obtener buenos resultados en conjuntos de datos cada vez más grandes, tuvieron que agregar más y más pesos.

El Transformer original de Google tenía 110 millones de pesos. GPT-1 siguió este diseño. Con GPT-2, el número se incrementó a 1.5 mil millones de pesos. Con GPT-3, el número de parámetros ha aumentado a 175 mil millones, convirtiendo a GPT-3 en la red neuronal más grande que el mundo haya visto nunca.

La multiplicación es algo simple, pero cuando se tiene que multiplicar 175 mil millones de pesos por cada bit de datos de entrada, a través de miles de millones de bytes de datos, se convierte en un increíble ejercicio de procesamiento paralelo de computadoras.

openai-compute-used-in-training-gpt-3-versus-others.jpg

Ya con GPT-1, en 2018, OpenAI estaba empujando los límites de la computación práctica. Aumentar la cantidad de datos significaba aumentar la cantidad de GPUs. Los modelos de lenguaje anteriores se ajustaban en una sola GPU porque los modelos en sí eran pequeños. GPT-1 tardó un mes en entrenarse en ocho GPUs que operaban en paralelo.

Con GPT-3, OpenAI ha sido un poco evasivo. No ha descrito la configuración exacta de la computadora utilizada para el entrenamiento, aparte de decir que fue en un grupo de chips Nvidia V100 que se ejecutan en Microsoft Azure. La compañía describió el total de ciclos de cómputo requeridos, indicando que es equivalente a ejecutar un billón de operaciones de punto flotante por segundo por día durante 3.640 días.

El fabricante de computadoras y operador de nube Lambda Computing ha estimado que a una sola GPU le tomaría 355 años ejecutar ese cálculo, lo cual, al precio estándar de una instancia de GPU en la nube, costaría 4,6 millones de dólares. Y luego está la memoria. Para almacenar todos los valores de peso se requiere cada vez más memoria a medida que el número de parámetros aumenta. Los 175 mil millones de parámetros de GPT-3 requieren 700GB, 10 veces más que la memoria de una sola GPU.

Es ese tipo de enorme demanda de energía lo que impulsa el campo de los chips de ordenador. Ha impulsado el precio de las acciones de Nvidia, el proveedor dominante de GPU para el entrenamiento de IA, en casi un 5.000% en los últimos diez años. Ha dado lugar a una serie de startups respaldadas por cientos de millones de dólares en financiación de capital de riesgo, incluyendo Cerebras Systems, Graphcore y Tachyum. La competencia continuará floreciendo siempre y cuando la construcción de modelos cada vez más grandes siga siendo la trayectoria del campo.

OpenAI ha producido su propia investigación sobre la creciente potencia informática necesaria. La empresa señaló en 2018 que los ciclos de cómputo consumidos por los modelos de entrenamiento de IA más grandes se duplicaban cada 3,4 meses desde 2012, una tasa de expansión más rápida que en el caso de la famosa Ley de Moore del crecimiento de transistores en los chips. (Cabe destacar que la compañía también ha producido investigaciones que muestran que, en términos unitarios, los modelos cada vez más grandes resultan ser más eficientes que las redes neuronales anteriores que realizaban el mismo trabajo.)

Ya se están desarrollando modelos que utilizan más de un billón de parámetros, según las empresas informadas sobre proyectos de inteligencia artificial clasificados como top-secret. Probablemente ese no sea el límite, siempre y cuando las compañías hiper-escalabilidad como Google estén dispuestas a destinar sus inmensos centros de datos a modelos cada vez más grandes. La mayoría de los académicos de inteligencia artificial están de acuerdo en que el tamaño cada vez mayor será la norma para los modelos de aprendizaje automático durante algún tiempo.

"En cuanto al impacto en la inteligencia artificial como campo, la parte más emocionante de GPT-3 es que muestra que aún no hemos llegado ni cerca de los límites de la expansión de la Inteligencia Artificial", dijo Kenny Daniel, CTO del proveedor de herramientas de gestión de IA Algorithmia, a ZDNet.

Además de aumentar el uso de la computación, el otro gran impacto de GPT-3 será claramente cómo acelera la programación y el desarrollo de aplicaciones en general. La demostración de Shameem de un programa JSX construido simplemente escribiendo una frase es solo la punta del iceberg.

¿CUÁLES SON LAS LIMITACIONES DE GPT-3?

A pesar de la gran mejora respecto a la versión anterior, GPT-3 tiene muchas limitaciones, como señalan los propios autores "Aunque en general la calidad es alta, las muestras de GPT-3 a veces repiten su semántica a nivel de documento y comienzan a perder coherencia en pasajes lo suficientemente largos", señalan en el artículo publicado.

El programa también falla en rendir bien en varias pruebas individuales. "Específicamente, GPT-3 tiene dificultades con preguntas del tipo 'Si pongo queso en la nevera, ¿se derretirá?' escriben los autores, describiendo el tipo de cosas de sentido común que escapan a GPT-3."

Había tanta emoción poco después de que GPT-3 saliera al mercado que el CEO de la empresa, Sam Altman, públicamente pidió a la gente que moderara su entusiasmo.

"La exageración de GPT-3 es demasiada", tuiteó Altman el 19 de julio. "Es impresionante (¡gracias por los amables cumplidos!) pero aún tiene serias debilidades y a veces comete errores muy tontos", escribió. "La IA va a cambiar el mundo, pero GPT-3 solo es un vistazo muy temprano. Todavía tenemos mucho por descubrir."

La hipérbole de GPT-3 es demasiado exagerada. Es impresionante (¡gracias por los bonitos cumplidos!), pero todavía tiene debilidades serias y a veces comete errores muy tontos. La IA va a cambiar el mundo, pero GPT-3 es solo una vislumbre muy temprana. Todavía tenemos mucho por descubrir.

— Sam Altman (@sama) 19 de julio de 2020

Otros fuera de OpenAI han ofrecido su propia realidad. Un usuario experimentado de múltiples generaciones de GPT, Max Woolf, ha escrito en su blog personal que GPT-3 es mejor que lo que vino antes, pero solo en promedio. Existe un espectro de calidad en el texto generado, por lo que algunos ejemplos que encontrarás parecerán notables, y otros no muy buenos en absoluto. Woolf compara GPT-3 con Siri de Apple, que tiene el inquietante hábito de producir basura en muchas ocasiones. (El ensayo de Woolf merece ser leído en su totalidad para una disección reflexiva de GPT-3.)

De hecho, a medida que uno lee más ejemplos de GPT-3, especialmente pasajes largos de texto, es probable que se desvanezca cierto entusiasmo inicial. GPT-3 tiende a perder el hilo en tramos largos, como dicen. Sin importar el género o la tarea, su salida textual comienza a volverse ininterrumpida y tediosa, con inconsistencias internas en la narrativa que surgen.

Algunos programadores, a pesar de su entusiasmo, han catalogado las numerosas deficiencias, como los intentos fallidos de GPT-3 de hacer chistes de papá. Dado el planteamiento del chiste de papá como entrada, "¿Qué le dijo un plato al otro?", el punchline adecuado del chiste de papá es, "¡La cena corre de mi cuenta!" Pero GPT-3 podría responder en cambio con la respuesta no humorística, "¡Sumérgeme!"

Pregunta: ¿Qué le dijo un plato al otro plato?

GPT-3 generó la siguiente conclusión: ¡A. Sumérgeme!

Aunque GPT-3 puede responder preguntas supuestamente de sentido común, como cuántos ojos tiene una jirafa, no puede desviar una pregunta sin sentido y se deja llevar para ofrecer una respuesta sin sentido. Si se le pregunta: "¿Cuántos ojos tiene mi pie?", responderá diligentemente: "Mi pie tiene dos ojos".

Una forma de pensar en toda esa mediocridad es que obtener resultados buenos de GPT-3 requiere en cierta medida invertir en crear indicaciones efectivas. Algunas indicaciones creadas por humanos persuadirán al programa a obtener mejores resultados que otras indicaciones. Es una nueva versión del dicho "basura entra, basura sale". Las indicaciones parecen convertirse en un nuevo dominio de la programación en sí mismas, requiriendo habilidad y arte.

El sesgo es un gran factor a considerar, no solo con GPT-3 sino con todos los programas que se basan en distribución condicional. El enfoque subyacente del programa es devolver exactamente lo que se le proporciona, como un espejo. Esto tiene el potencial de replicar sesgos en los datos. Ya ha habido una discusión académica sobre sesgos extensos en GPT-2.

Con GPT-3, la científica de IA de Nvidia, Anima Anandkumar, alertó que la tendencia a producir resultados sesgados, incluyendo resultados racistas y sexistas, continúa.

Me molesta ver esto publicado sin ninguna responsabilidad por el sesgo. Entrené esto en un corpus de @reddit con enormes niveles de #racismo y #sexismo. He trabajado con estos modelos y el texto que producen está sorprendentemente sesgado. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof. Anima Anandkumar (@AnimaAnandkumar) 11 de junio de 2020

Preguntada sobre la crítica de Anandkumar, OpenAI le dijo a ZDNet: "Como ocurre con todos los modelos generativos cada vez más potentes, la equidad y el uso indebido son preocupaciones nuestras".

"Esta es una de las razones por las que compartimos esta tecnología a través de una API y la lanzamos en beta privada al principio", dijo OpenAI a ZDNet. La compañía señala que "no apoyará casos de uso que consideremos que causan daño físico o mental a las personas, incluyendo, entre otros, el acoso, la decepción intencional, la radicalización, el astroturfing o el spam."

OpenAI le dijo a ZDNet que está utilizando una forma conocida de wargaming de gorro blanco y gorro negro para detectar peligros en el programa:

Hemos desplegado lo que llamamos un 'equipo rojo' que tiene la tarea de romper constantemente el sistema de filtración de contenido para poder aprender más sobre cómo y por qué el modelo devuelve resultados incorrectos. Su contraparte es el "equipo azul" que tiene la tarea de medir y reducir el sesgo.

Otro gran problema es la naturaleza muy amplia y de menor denominador común de GPT-3, el hecho de que refuerza solo la parte más gruesa de una curva de probabilidad condicional. Existe lo que se conoce como la cola larga, y a veces una cola gruesa, de una distribución de probabilidad. Estos son casos menos comunes que pueden constituir los ejemplos más innovadores del uso del lenguaje. Centrarse en reflejar el texto más prevalente en una sociedad corre el riesgo de reprimir la creatividad y la exploración.

Por el momento, la solución de OpenAI para ese problema es un ajuste que se puede modificar en GPT-3 llamado "valor de temperatura". Al manejar este botón, se puede ajustar GPT-3 para seleccionar combinaciones de palabras menos probables y así producir un texto tal vez más inusual.

Una preocupación más apremiante para un negocio es que no se puede ajustar GPT-3 con datos específicos de la empresa. Sin poder ajustar nada, es difícil especializar GPT-3 para un dominio industrial, por ejemplo. Podría ser que cualquier empresa que use el servicio de API termine con texto que deba ser trabajado más para que sea aplicable a un dominio. Quizás las startups como Sapling lleguen a formar un ecosistema, el equivalente a revendedores, que solucionen ese problema. Quizás, pero aún está por verse.

Si eso no fuera lo suficientemente preocupante, hay otro problema, que es que como servicio en la nube, GPT-3 es una caja negra. Lo que eso significa es que las empresas que utilizan el servicio no tienen idea de cómo llega a sus resultados, especialmente problemático cuando se consideran cuestiones de sesgo. Un ecosistema de partes como Sapling, que mejoran GPT-3, podrían añadir capas adicionales de confusión al mismo tiempo que mejoran el servicio.

Como subsección del problema de la caja negra, GPT-3 puede en algunos casos simplemente memorizar lo que ha absorbido de la web. Eso plantea problemas de derechos de autor. Si una empresa toma la salida del servicio API que es material con derechos de autor, esa empresa podría estar infringiendo los derechos de autor de otra entidad. Cuando se le preguntó acerca de los derechos de autor, OpenAI le dijo a ZDNet que los derechos de autor del texto generado por GPT-3 "pertenecen al usuario, no a OpenAI". Lo que eso significa en la práctica aún está por verse.

De momento, la mayor limitación práctica es la escala requerida para entrenar y utilizar GPT-3. OpenAI reconoce esto en su artículo formal. Los autores escriben que se necesita hacer un trabajo para calcular cómo se amortiza el costo de los modelos grandes a lo largo del tiempo en base al valor de la producción generada.

También: No, este IA no puede terminar tu frase

¿ESTÁ GPT-3 REALMENTE APRENDIENDO?

En el sentido estricto de la palabra, GPT-3 está aprendiendo en el sentido de que sus pesos de parámetros se están ajustando automáticamente mediante la ingestión de los datos de entrenamiento, de manera que el modelo de lenguaje acabe siendo mejor de lo que su programación explícita por sí sola permitiría. En ese sentido, GPT-3 representa un avance en la búsqueda de décadas de una computadora capaz de aprender una función para transformar datos sin que un ser humano codifique explícitamente esa función.

Eso dicho, uno se preguntará si la máquina es verdaderamente inteligente o está realmente aprendiendo. Hay muchas maneras de debatir ese asunto, pero una reflexión casual sugiere que gran parte de lo que podríamos llamar pensamiento humano no ocurre aquí.

Considera si pudieses sostener en tu mente una puntuación numérica de cuántas palabras es probable que aparezcan juntas. ¿Dirías que tu habilidad para formar frases, oraciones, párrafos y textos completos era reflexiva? Probablemente dirías que es solo estadística y que falta algo más.

Se han hecho comparaciones entre el aprendizaje profundo y el famoso Clever Hans, un caballo alemán cuyo dueño lo exhibía en público como un animal capaz de hacer aritmética con sus cascos. Posteriormente se descubrió que Hans respondía a señales corporales de su dueño para golpear su casco y que sin esas señales no era capaz de realizar el truco.

Del mismo modo, la calidad humana de GPT-3 se desvanece al examinarla detenidamente. Cuando GPT-3 responde correctamente a una pregunta de verdadero o falso sobre un ensayo de bienes raíces de Nueva York, no es porque el programa sepa sobre bienes raíces o Nueva York. El programa ha almacenado la distribución de probabilidad que captura afirmaciones en textos y el formato de un par de declaración-pregunta, y puede replicarlos en la salida.

Hans no sabía nada de aritmética, aunque, en defensa de Hans, tenía inteligencia a pesar de todo. En el caso de las redes neuronales, los críticos dirán que solo están los trucos, sin ningún sentido común.

Aún así, inteligencia y aprendizaje pueden significar muchas cosas, y las metas han cambiado a lo largo de los años en cuanto a lo que se supone que debe ser la inteligencia artificial, como ha señalado Pamela McCorduck, historiadora en este campo. Algunos podrían argumentar que un programa capaz de calcular probabilidades a través de vastos conjuntos de texto puede ser un tipo diferente de inteligencia, tal vez una inteligencia alienígena distinta a la nuestra. Descartarlo podría parecer prematuro.

Además, las redes neuronales encargadas de estas probabilidades condicionadas son más que simples programas estadísticos. Sus cálculos son el resultado emergente de múltiples operaciones matemáticas simultáneas que ocurren en paralelo, la ajuste de los pesos de los parámetros. Si es posible considerar otras formas de inteligencia, entonces una propiedad emergente como las representaciones distribuidas que se forman dentro de las redes neuronales puede ser un lugar para buscarla.

¿CUÁL ES EL FUTURO DE GPT-3?

Algo parece claro: GPT-3 ha abierto un nuevo capítulo en el aprendizaje automático. Su característica más llamativa es su generalidad. Hace solo unos años, las redes neuronales se construían con funciones ajustadas a una tarea específica, como la traducción o la respuesta a preguntas. Los conjuntos de datos se seleccionaban cuidadosamente para reflejar esa tarea. En cambio, GPT-3 no tiene funciones específicas para una tarea y no necesita conjuntos de datos especiales. Simplemente absorbe la mayor cantidad de texto posible de cualquier lugar y lo refleja en su salida.

De alguna manera, en el cálculo de la distribución de probabilidad condicional a través de todos esos gigabytes de texto, surge una función que puede producir respuestas que compiten en cualquier cantidad de tareas. Es un triunfo impresionante de la simplicidad que probablemente tenga muchos años de logros por delante.

Incluso esa generalidad, sin embargo, puede alcanzar su límite. Ya los autores de GPT-3 señalan al final de su artículo que la dirección de pre-entrenamiento podría eventualmente quedarse sin fuelle. "Una limitación más fundamental del enfoque general descrito en este artículo [...] es que podría eventualmente enfrentar (o ya estar enfrentando) los límites del objetivo de pre-entrenamiento."

Los autores sugieren nuevas direcciones prometedoras podrían incluir "aprender la función objetivo de los humanos" y combinar otros tipos de aprendizaje profundo, como el enfoque de "aprendizaje por refuerzo" utilizado en AlphaZero de DeepMind para ganar en ajedrez y go. (Ya han comenzado a implementar tales enfoques. A principios de septiembre, los autores de OpenAI mostraron que podían utilizar el aprendizaje por refuerzo para entrenar a GPT-3 y producir mejores resúmenes de artículos, al darle al modelo de lenguaje algunos comentarios humanos sobre qué resúmenes suenan mejor.)

Otra cosa que sugieren es agregar otros tipos de datos, como imágenes, para completar el "modelo del mundo" del programa.

De hecho, es probable que en los próximos años esta aproximación general se extienda a otras modalidades más allá del texto, como imágenes y vídeos. Imagina un programa como GPT-3 que pueda traducir imágenes a palabras y viceversa sin necesidad de un algoritmo específico para modelar la relación entre ambas. Por ejemplo, podría "aprender" descripciones de escenas de fotos o predecir secuencias físicas de eventos a partir de descripciones en texto.

El director de inteligencia artificial de Facebook, Yann LeCun, ha argumentado que el entrenamiento no supervisado en diversas formas es el futuro del aprendizaje profundo. Si eso es cierto, el enfoque de pre-entrenamiento aplicado a múltiples modalidades de datos, desde voz hasta texto, imágenes y video, puede considerarse como una dirección futura muy prometedora de la ola no supervisada.

¿Qué es GPT-3? Todo lo que tu negocio necesita saber sobre el revolucionario programa de inteligencia artificial en lenguaje de OpenAI