Siete modelos de GPT de código abierto gratuitos lanzados

La empresa de inteligencia artificial Cerebras, con sede en Silicon Valley, ha lanzado siete modelos GPT de código abierto para ofrecer una alternativa a los sistemas controlados y propietarios disponibles en la actualidad.

Los modelos GPT de código abierto y sin royalties, incluyendo los pesos y la receta de entrenamiento, han sido publicados bajo la licencia Apache 2.0 altamente permisiva por Cerebras, una empresa de Silicon Valley especializada en infraestructuras de inteligencia artificial para aplicaciones de IA.

Hasta cierto punto, los siete modelos GPT son una prueba de concepto para el supercomputador de IA Cerebras Andromeda.

La infraestructura de Cerebras permite a sus clientes, como Jasper AI Copywriter, entrenar rápidamente sus propios modelos de lenguaje personalizados.

Una publicación del blog de Cerebras sobre la tecnología de hardware señaló:

"Hemos entrenado todos los modelos Cerebras-GPT en un clúster Andromeda Cerebras Wafer-Scale CS-2 de 16x."

"El clúster permitió que todos los experimentos se completaran rápidamente, sin la necesidad de ingeniería de sistemas distribuidos y ajuste paralelo del modelo requerido en clústeres de GPU."

"Lo más importante, permitió que nuestros investigadores se enfocaran en el diseño del ML en lugar del sistema distribuido. Creemos que la capacidad para entrenar fácilmente modelos grandes es un habilitador clave para la comunidad en general, por lo que hemos puesto el clúster Cerebras Wafer-Scale disponible en la nube a través de Cerebras AI Model Studio."

Modelos de Cerebras GPT y Transparencia

Cerebras menciona la concentración de la propiedad de la tecnología de IA en solo unas pocas empresas como motivo para crear siete modelos GPT de código abierto.

OpenAI, Meta y Deepmind mantienen una gran cantidad de información sobre sus sistemas de forma privada y controlada, lo cual limita la innovación a lo que las tres corporaciones decidan que otros pueden hacer con sus datos.

¿Es un sistema de código cerrado lo mejor para la innovación en Inteligencia Artificial? ¿O es el código abierto el futuro?

Cerebras escribe:

“Para que las LLM sean una tecnología abierta y accesible, creemos que es importante tener acceso a modelos de última generación que sean abiertos, reproducibles y libres de regalías tanto para aplicaciones de investigación como comerciales.

Con ese fin, hemos entrenado una familia de modelos transformadores utilizando las técnicas más recientes y conjuntos de datos abiertos que llamamos Cerebras-GPT.

Estos modelos son la primera familia de modelos GPT entrenados utilizando la fórmula Chinchilla y liberados bajo la licencia Apache 2.0.”

Por lo tanto, estos siete modelos se han lanzado en Hugging Face y GitHub para fomentar más investigación a través del acceso abierto a la tecnología de inteligencia artificial.

Estos modelos fueron entrenados con el supercomputador de IA Andromeda de Cerebras, un proceso que solo tomó semanas para realizar.

Cerebras-GPT es completamente abierto y transparente, a diferencia de los últimos modelos de GPT de OpenAI (GPT-4), Deepmind y Meta OPT.

OpenAI y Deepmind Chinchilla no ofrecen licencias para usar los modelos. Meta OPT solo ofrece una licencia no comercial.

El GPT-4 de OpenAI no tiene absolutamente ninguna transparencia sobre sus datos de entrenamiento. ¿Utilizó datos de Common Crawl? ¿Rasparon Internet y crearon su propio conjunto de datos?

OpenAI está manteniendo esta información (y más) en secreto, lo cual contrasta con el enfoque de Cerebras-GPT que es totalmente transparente.

Todo lo siguiente es abierto y transparente:

Arquitectura del modelo
Datos de entrenamiento
Pesos del modelo
Puntos de control
Estado de entrenamiento óptimo para cálculos (sí)
Licencia de uso: Licencia Apache 2.0

Las siete versiones vienen en modelos de 111M, 256M, 590M, 1.3B, 2.7B, 6.7B y 13B.

Se anunció:

"Por primera vez entre empresas de hardware de IA, los investigadores de Cerebras entrenaron, en la supercomputadora de IA Andromeda, una serie de siete modelos GPT con 111M, 256M, 590M, 1.3B, 2.7B, 6.7B y 13B parámetros.

Típicamente, esta tarea lleva varios meses, pero este trabajo se completó en pocas semanas gracias a la increíble velocidad de los sistemas Cerebras CS-2 que componen Andromeda, y la capacidad de la arquitectura de transmisión de peso de Cerebras para eliminar la dificultad de la computación distribuida.

Estos resultados demuestran que los sistemas de Cerebras pueden entrenar las cargas de trabajo de IA más grandes y complejas de la actualidad.

Esta es la primera vez que se hacen públicos un conjunto de modelos GPT entrenados utilizando técnicas de eficiencia de entrenamiento de última generación.

Estos modelos se entrenan para obtener la máxima precisión dentro de un presupuesto de cómputo dado (es decir, entrenamiento eficiente utilizando la receta Chinchilla), lo que significa que tienen un menor tiempo de entrenamiento, menor costo de entrenamiento y un menor consumo de energía que cualquier otro modelo público existente."

Inteligencia Artificial de código abierto

La fundación Mozilla, creadores del software de código abierto Firefox, ha creado una empresa llamada Mozilla.ai para construir sistemas de GPT y recomendación de código abierto que sean confiables y respeten la privacidad.

Databricks también ha lanzado recientemente un GPT Clone de código abierto llamado Dolly que tiene como objetivo democratizar "la magia de ChatGPT".

Además de esos siete modelos de Cerebras GPT, otra empresa llamada Nomic AI lanzó GPT4All, un GPT de código abierto que se puede ejecutar en un portátil.

El movimiento de inteligencia artificial de código abierto está en una etapa incipiente pero está ganando impulso.

La tecnología GPT está dando lugar a cambios masivos en diversas industrias y es posible, tal vez inevitable, que las contribuciones de código abierto cambien el rostro de las industrias que impulsan ese cambio.

Si el movimiento de código abierto sigue avanzando a este ritmo, podríamos estar al borde de presenciar un cambio en la innovación de la IA que impide que se concentre en manos de unas pocas corporaciones.

Lee el anuncio oficial:

Cerebras Systems lanza siete nuevos modelos GPT entrenados en sistemas a escala de wafer CS-2

Siete Modelos de GPT de Código Abierto Gratuitos Publicados

Modelos de Cerebras GPT y Transparencia

Inteligencia Artificial de código abierto

Artículos relacionados