Nuevo Clon de ChatGPT de Código Abierto

Chat de GPT de código abierto dio otro paso adelante con el lanzamiento del Dolly Large Language Model (DLL) creado por la empresa de software empresarial Databricks.

El nuevo clon de ChatGPT se llama Dolly, en honor a la famosa oveja del mismo nombre, el primer mamífero clonado.

Modelos de lenguaje de código abierto a gran escala

El Dolly LLM es la última manifestación del creciente movimiento de inteligencia artificial de código abierto que busca ofrecer un mayor acceso a la tecnología para que no sea monopolizada y controlada por grandes corporaciones.

Una de las preocupaciones que impulsa el movimiento de inteligencia artificial de código abierto es que las empresas pueden ser reacias a entregar datos sensibles a un tercero que controle la tecnología de IA.

Basado en código abierto

Dolly fue creada a partir de un modelo de código abierto creado por el instituto de investigación sin ánimo de lucro EleutherAI y el modelo Alpaca de la Universidad de Stanford, el cual a su vez fue creado a partir del modelo LLaMA de código abierto con 65 mil millones de parámetros creado por Meta.

LLaMA, que significa Large Language Model Meta AI, es un modelo de lenguaje que se entrena con datos disponibles públicamente.

Según un artículo de Weights & Biases, LLaMA puede superar a muchos de los principales modelos de lenguaje (OpenAI GPT-3, Gopher de Deep Mind y Chinchilla de DeepMind) a pesar de ser más pequeño.

Creando un Mejor Conjunto de Datos

Otra inspiración provino de un artículo de investigación académica (SELF-INSTRUCT: Alineando el modelo de lenguaje con instrucciones auto-generadas en PDF) que estableció una forma de crear datos de entrenamiento de preguntas y respuestas generadas automáticamente de alta calidad, que es mejor que los datos limitados disponibles públicamente.

El artículo de investigación de Autoinstrucción explica:

“...curamos un conjunto de instrucciones escritas por expertos para tareas novedosas y demostramos a través de una evaluación humana que ajustar GPT3 con SELF-INSTRUCT supera por mucho el uso de conjuntos de instrucciones públicos existentes, dejando solo una diferencia absoluta del 5% detrás de InstructGPT...

...Aplicando nuestro método al GPT3 original, demostramos una mejora absoluta del 33% en SUPERNATURALINSTRUCTIONS, al mismo nivel de rendimiento que InstructGPT... que se entrena con datos privados de usuarios y anotaciones humanas.”

La importancia de Dolly es que demuestra que se puede crear un modelo de lenguaje amplio y útil con un conjunto de datos más pequeño pero de alta calidad.

Databricks observa:

"Dolly funciona tomando un modelo existente de código abierto de 6 mil millones de parámetros de EleutherAI y modificándolo ligeramente para obtener capacidades de seguimiento de instrucciones, como la lluvia de ideas y la generación de texto, que no están presentes en el modelo original, utilizando datos de Alpaca.

…Demostramos que cualquier persona puede tomar un modelo de lenguaje grande (LLM) de código abierto y ya antiguo, y dotarlo de la capacidad mágica de seguir instrucciones como ChatGPT, entrenándolo en 30 minutos en una máquina, usando datos de entrenamiento de alta calidad.

Sorprendentemente, el seguimiento de instrucciones no parece requerir los modelos más recientes o más grandes: nuestro modelo tiene solo 6 mil millones de parámetros, en comparación con los 175 mil millones de GPT-3.

Databricks Inteligencia Artificial de Código Abierto

Se dice que Dolly democratiza la IA. Es parte de un movimiento creciente al que recientemente se unió la organización sin fines de lucro Mozilla con la fundación de Mozilla.ai. Mozilla es el editor del navegador Firefox y otro software de código abierto.

Nuevo clon de ChatGPT de código abierto - Llamado Dolly

Modelos de lenguaje de código abierto a gran escala

Basado en código abierto

Creando un Mejor Conjunto de Datos

Databricks Inteligencia Artificial de Código Abierto

Artículos relacionados