Esta nueva tecnología podría superar a GPT-4 y todo lo similar

Para todo el fervor sobre el programa de IA de chatbot conocido como ChatGPT, de OpenAI, y su tecnología sucesora, GPT-4, los programas son, al final del día, solo aplicaciones de software. Y al igual que todas las aplicaciones, tienen limitaciones técnicas que pueden hacer que su rendimiento sea subóptimo.

En un artículo publicado en marzo, científicos de inteligencia artificial (IA) de la Universidad de Stanford y del Instituto MILA de Canadá propusieron una tecnología que podría ser mucho más eficiente que GPT-4, o cualquier otra similar, para procesar grandes cantidades de datos y convertirlos en una respuesta.

También: Estos ex empleados de Apple quieren reemplazar los teléfonos inteligentes con este dispositivo.

Conocida como Hyena, esta tecnología es capaz de lograr una precisión equivalente en pruebas de referencia, como los sistemas de respuesta a preguntas, utilizando solo una fracción de la potencia informática. En algunos casos, el código de Hyena puede manejar cantidades de texto que hacen que la tecnología similar a GPT se quede sin memoria y falle.

"Nuestros prometedores resultados a una escala de sub-mil millones de parámetros sugieren que la atención puede no ser todo lo que necesitamos", escriben los autores. Esa observación se refiere al título de un informe emblemático de IA de 2017, 'La atención es todo lo que necesitas'. En ese artículo, el científico de Google Ashish Vaswani y sus colegas presentaron al mundo el programa de IA Transformer de Google. El Transformer se convirtió en la base de todos los modelos de lenguaje grandes recientes.

Pero el Transformer tiene una gran falla. Utiliza algo llamado "atención", donde el programa informático toma la información de un grupo de símbolos, como las palabras, y traslada esa información a un nuevo grupo de símbolos, como la respuesta que ves de ChatGPT, que es el resultado.

También: ¿Qué es GPT-4? Aquí tienes todo lo que necesitas saber

Esa operación de atención - la herramienta esencial de todos los programas de lenguaje grandes, incluyendo ChatGPT y GPT-4 - tiene una complejidad computacional "cuadrática" (Wiki "complejidad temporal" de la computación). Esa complejidad significa que el tiempo que tarda ChatGPT en producir una respuesta aumenta al cuadrado de la cantidad de datos que se le proporciona como entrada.

En algún momento, si hay demasiados datos -- demasiadas palabras en la instrucción, o demasiadas cadenas de conversaciones durante horas y horas de charla con el programa -- entonces o bien el programa se vuelve lento al proporcionar una respuesta, o se le deben proporcionar más y más chips de GPU para que funcione más rápido, lo que resulta en un aumento de los requisitos de computación.

En el nuevo artículo, 'Jerarquía de Hienas: Hacia Modelos de Lenguaje Convolucionales más Grandes', publicado en el servidor arXiv de pre-impresiones, el autor principal Michael Poli de Stanford y sus colaboradores proponen reemplazar la función de atención de Transformer por algo subcuadrático, concretamente Hyena.

También:¿Qué es Auto-GPT? Todo lo que necesitas saber sobre la próxima herramienta de IA poderosa

Los autores no explican el nombre, pero uno puede imaginar varias razones para un programa "Hyena". Las hienas son animales que viven en África y pueden cazar durante millas y millas. En cierto sentido, un modelo de lenguaje muy potente podría ser como una hiena, cazando durante millas y millas para encontrar alimento.

Pero los autores están realmente preocupados por la "jerarquía", como sugiere el título, y las familias de hienas tienen una jerarquía estricta en la cual los miembros de un clan local de hienas tienen diferentes niveles de rango que establecen la dominancia. De alguna manera análoga, el programa Hyena aplica una serie de operaciones muy simples, como verás, una y otra vez, de modo que se combinan para formar una especie de jerarquía de procesamiento de datos. Es ese elemento combinatorio el que da al programa su nombre de Hyena.

También:Las futuras versiones de ChatGPT podrían reemplazar la mayoría del trabajo que las personas hacen hoy, según Ben Goertzel

Los autores contribuyentes del artículo incluyen figuras destacadas del mundo de la Inteligencia Artificial (IA), como Yoshua Bengio, el director científico de MILA, quien recibió el Premio Turing en 2019, equivalente al Premio Nobel de la computación. Se atribuye ampliamente a Bengio el desarrollo del mecanismo de atención mucho antes de que Vaswani y su equipo lo adaptaran para el Transformer.

También entre los autores se encuentra Christopher Ré, profesor asociado de informática de la Universidad de Stanford, quien en los últimos años ha contribuido a avanzar en la idea de la AI como "software 2.0".

Para encontrar una alternativa subcuadrática a la atención, Poli y su equipo se pusieron a estudiar cómo la atención realiza lo que hace, para ver si ese trabajo podría hacerse de manera más eficiente.

Una práctica reciente en la ciencia de la IA, conocida como interpretabilidad mecanística, está ofreciendo conocimientos sobre lo que está sucediendo en lo más profundo de una red neuronal, dentro de los "circuitos" computacionales de atención. Puedes pensar en ello como desmontar un software de la misma manera que desmontarías un reloj o un PC para ver sus partes y descubrir cómo opera.

También:Usé ChatGPT para escribir la misma rutina en 12 lenguajes de programación principales. Esto es cómo lo hizo

Uno de los trabajos citados por Poli y su equipo es un conjunto de experimentos del investigador Nelson Elhage de la startup de IA Anthropic. Esos experimentos desmontan los programas Transformer para ver qué hace la atención.

En esencia, lo que encontró Elhage y su equipo es que la atención funciona en su nivel más básico mediante operaciones informáticas muy simples, como copiar una palabra de la entrada reciente y pegarla en la salida.

Por ejemplo, si uno comienza a escribir en un programa de modelo de lenguaje grande como ChatGPT una frase de Harry Potter y la Piedra Filosofal, como "El señor Dursley era el director de una empresa llamada Grunnings...", simplemente escribir "D-u-r-s", el comienzo del nombre, podría ser suficiente para que el programa complete el nombre "Dursley" porque ha visto el nombre en una oración previa de Piedra Filosofal. El sistema es capaz de copiar de la memoria el registro de los caracteres "l-e-y" para autocompletar la frase.

También:ChatGPT es más como una 'inteligencia alienígena' que un cerebro humano, según el futurista

Sin embargo, la operación de atención se enfrenta al problema de la complejidad cuadrática a medida que la cantidad de palabras crece y crece. Más palabras requieren más de lo que se conoce como "pesos" o parámetros, para ejecutar la operación de atención.

Como escriben los autores: "El bloque Transformer es una herramienta poderosa para el modelado de secuencias, pero no está exento de limitaciones. Uno de los más destacables es el costo computacional, que aumenta rápidamente a medida que la longitud de la secuencia de entrada aumenta."

Aunque los detalles técnicos de ChatGPT y GPT-4 no han sido revelados por OpenAI, se cree que podrían tener billones o más de esos parámetros. Ejecutar esos parámetros requiere más chips de GPU de Nvidia, lo que hace que el costo de computación aumente.

Para reducir ese coste computacional cuadrático, Poli y su equipo reemplazan la operación de atención por lo que se llama una "convolución", que es una de las operaciones más antiguas en los programas de IA, refinada en la década de 1980. Una convolución es simplemente un filtro que puede seleccionar elementos en los datos, ya sean los píxeles en una foto digital o las palabras en una oración.

También:El éxito de ChatGPT podría desencadenar un peligroso giro hacia el secretismo en la IA, según el pionero de la IA, Bengio

Poli y su equipo hacen una especie de mezcla: toman el trabajo realizado por el investigador Daniel Y. Fu y su equipo de Stanford para aplicar filtros convolucionales a secuencias de palabras, y lo combinan con el trabajo del académico David Romero y sus colegas en la Universidad Libre de Ámsterdam, que permite al programa cambiar el tamaño del filtro sobre la marcha. Esa capacidad de adaptación flexible reduce la cantidad de parámetros costosos, o pesos, que el programa necesita tener.

El resultado del mash-up es que se puede aplicar una convolución a una cantidad ilimitada de texto sin necesitar cada vez más parámetros para copiar más y más datos. Es un enfoque "libre de atención", como lo describen los autores.

"Los operadores de hienas son capaces de reducir significativamente la brecha de calidad con la atención a gran escala", escriben Poli y su equipo, "alcanzando una perplejidad similar y un rendimiento descendente con un presupuesto computacional menor". La perplejidad es un término técnico que se refiere a la sofisticación de la respuesta generada por un programa como ChatGPT.

Para demostrar la capacidad de Hyena, los autores prueban el programa con una serie de pruebas que determinan qué tan bueno es un programa de lenguaje en una variedad de tareas de inteligencia artificial.

También: 'Cosas extrañas están sucediendo en el mundo del software', dice el profesor de IA de Stanford, Chris Ré

Una prueba es The Pile, una colección de 825 gigabytes de textos compilados en 2020 por Eleuther.ai, una organización de investigación en inteligencia artificial sin fines de lucro. Los textos se recopilan de fuentes "de alta calidad" como PubMed, arXiv, GitHub, la Oficina de Patentes de los Estados Unidos y otros, para que las fuentes tengan una forma más rigurosa que simplemente discusiones en Reddit, por ejemplo.

El principal desafío del programa fue producir la siguiente palabra cuando se le brindaban varias oraciones nuevas como entrada. El programa Hyena logró obtener una puntuación equivalente al programa GPT original de OpenAI de 2018, con un 20% menos de operaciones de cómputo. "La primera arquitectura de convolución sin atención que iguala la calidad de GPT con menos operaciones", escriben los investigadores.

A continuación, los autores probaron el programa en tareas de razonamiento conocidas como SuperGLUE, introducidas en 2019 por académicos de la Universidad de Nueva York, la investigación de IA de Facebook, la unidad DeepMind de Google y la Universidad de Washington.

Por ejemplo, cuando se le da la frase "Mi cuerpo proyectó una sombra sobre la hierba" y dos alternativas para la causa, "el sol estaba saliendo" o "la hierba estaba cortada", y se le pide elegir una u otra, el programa debería generar "el sol estaba saliendo" como resultado apropiado.

En múltiples tareas, el programa Hyena obtuvo puntuaciones similares o cercanas a las de una versión de GPT, incluso con un entrenamiento con menos de la mitad de los datos de entrenamiento.

También: Cómo usar el nuevo Bing (y cómo es diferente de ChatGPT)

Aún más interesante es lo que ocurrió cuando los autores aumentaron la longitud de las frases utilizadas como entrada: más palabras significaron una mejora en el rendimiento. Con 2.048 "tokens", que puedes considerar como palabras, Hyena necesita menos tiempo para completar una tarea de lenguaje que el enfoque de atención.

En 64.000 tokens, los autores afirman: "Las aceleraciones de hienas alcanzan 100 veces más velocidad" - una mejora de rendimiento cien veces mayor.

Poli y su equipo argumentan que no se han limitado a probar un enfoque diferente con Hyena, han "roto la barrera cuadrática", lo que provoca un cambio cualitativo en la dificultad que tiene un programa para calcular resultados.

Sugieren que también hay cambios potencialmente significativos en la calidad más adelante: "Romper la barrera cuadrática es un paso clave hacia nuevas posibilidades para el aprendizaje profundo, como utilizar libros enteros como contexto, generar música de largo formato o procesar imágenes a escala de gigapíxeles", escriben.

La capacidad de la Hiena para utilizar un filtro que se estira de manera más eficiente sobre miles y miles de palabras, según escriben los autores, significa que prácticamente no puede haber límites para el "contexto" de una consulta a un programa de lenguaje. En efecto, podría recordar elementos de textos o de conversaciones anteriores muy alejados del hilo actual de conversación, al igual que las hienas cazan durante millas.

También: Los mejores chatbots de IA: ChatGPT y otras alternativas divertidas para probar

"Los operadores de Hiena tienen un contexto ilimitado", escriben. "Es decir, no están artificialmente restringidos, por ejemplo, por la localidad, y pueden aprender dependencias de largo alcance entre cualquier elemento de [input]."

Además, además de palabras, el programa se puede aplicar a datos de diferentes modalidades, como imágenes y tal vez video y sonido.

Es importante tener en cuenta que el programa Hyena mostrado en el artículo es pequeño en tamaño en comparación con GPT-4 o incluso GPT-3. Mientras que GPT-3 tiene 175 mil millones de parámetros, o pesos, la versión más grande de Hyena tiene solo 1.3 mil millones de parámetros. Por lo tanto, aún está por verse qué tan bien se desempeñará Hyena en una comparación directa con GPT-3 o 4.

Pero, si la eficiencia alcanzada se mantiene en versiones más grandes del programa Hyena, podría ser un nuevo paradigma tan relevante como ha sido la atención durante la última década.

Como concluye Poli y su equipo: "Diseños más simples y subcuadráticos como Hiena, basados en un conjunto de principios simples y evaluación en referencias de interpretabilidad mecanística, pueden formar la base para modelos grandes y eficientes."

Esta nueva tecnología podría sorprender a GPT-4 y a todo lo similar a él

Artículos relacionados