El cambio de rumbo de OpenAI: No entrenar GPT-4 con datos de clientes de la API

cambios-de-privacidad-openai-6457d3fd3d25f-sej-760x400.png

En un cambio significativo con respecto a sus prácticas anteriores, OpenAI ha anunciado que ya no utilizará datos de clientes enviados a través de sus APIs para entrenar a sus amplios modelos de lenguaje, como GPT-4.

La confirmación del cambio fue realizada por Sam Altman, el CEO de OpenAI, en una reciente entrevista con CNBC.

El nuevo enfoque de OpenAI hacia los datos de usuario

La modificación de la política de OpenAI se implementó el 1 de marzo de 2023, cuando la empresa actualizó discretamente sus términos de servicio para reflejar este nuevo compromiso con la privacidad del usuario.

Altman aclaró: "Los clientes claramente no quieren que entrenemos con sus datos, así que hemos cambiado nuestros planes: no lo haremos".

Las APIs, o interfaces de programación de aplicaciones, son frameworks tecnológicos que permiten a los clientes conectarse directamente al software de OpenAI.

Altman afirmó que OpenAI no ha estado utilizando datos de la API para el entrenamiento del modelo "desde hace un tiempo", lo que sugiere que este anuncio oficial formaliza una práctica existente.

Implicaciones para los clientes empresariales

La decisión de OpenAI tiene implicaciones de gran alcance, especialmente para sus clientes empresariales, que incluyen gigantes como Microsoft, Salesforce y Snapchat.

Estas empresas son más propensas a utilizar las capacidades de la API de OpenAI para sus operaciones, por lo que el cambio de privacidad y protección de datos es especialmente relevante para ellas.

Sin embargo, las nuevas medidas de protección de datos se aplican únicamente a los clientes que utilizan los servicios de API de la empresa. Los términos de servicio actualizados de OpenAI indican: "Podemos utilizar contenidos de servicios distintos a nuestro API".

Como tal, otras formas de entrada de datos, como texto ingresado en el popular chatbot ChatGPT, aún pueden ser utilizadas por OpenAI a menos que los datos se compartan a través de la API.

Impacto en la Industria en General

El cambio de política de OpenAI llega en un momento en que las industrias luchan con los posibles impactos de los modelos de lenguaje grandes, como ChatGPT de OpenAI, reemplazando el material creado tradicionalmente por humanos.

Por ejemplo, recientemente el Writers Guild of America comenzó una huelga después de que fracasaran las negociaciones entre el Gremio y los estudios de cine. El Gremio había estado abogando por restricciones en el uso de ChatGPT de OpenAI para la generación o reescritura de guiones.

La decisión de OpenAI de no utilizar los datos de los clientes para el entrenamiento marca un momento crucial en la conversación en curso sobre la privacidad de los datos y la IA. A medida que las empresas siguen explorando y ampliando los límites de la tecnología de IA, asegurar la privacidad del usuario y mantener la confianza probablemente seguirá siendo central en estas discusiones.

La evolución de ChatGPT: de GPT-3 a GPT-4

Es importante tener en cuenta que el compromiso de OpenAI de no utilizar los datos de los clientes para el entrenamiento se aplica a su último modelo de lenguaje, GPT-4, lanzado el 14 de marzo de 2023.

GPT-4 introdujo varias mejoras respecto a su predecesor, GPT-3, incluyendo un aumento significativo en el límite de palabras (25.000 en comparación con el límite de 3.000 palabras de ChatGPT), un mayor tamaño de ventana de contexto y mejoras en las capacidades de razonamiento y comprensión.

Otra característica destacada de GPT-4 es su capacidad de multimodalidad, es decir, la capacidad de comprender e inferir información de imágenes además de texto. Este último modelo genera textos más parecidos a los humanos, utilizando características como emojis para una sensación más personalizada.

Sin embargo, el tamaño y la arquitectura exacta de GPT-4 se mantienen sin revelar, lo que ha llevado a especulaciones sobre los detalles del modelo.

A pesar de estos rumores, el CEO de OpenAI ha negado afirmaciones específicas sobre el tamaño del modelo.

En cuanto al rendimiento, GPT-4 ha demostrado fortalezas en generación de texto pero también algunas limitaciones. Por ejemplo, obtuvo un puntaje en el percentil 54 en el examen de redacción del Graduate Record Examination (GRE) y se desempeñó en el percentil 43 - 59 en el examen de Cálculo BC del Programa de Nivel Avanzado (AP).

Además, se desempeñó bien en tareas de codificación fáciles de Leetcode, pero su rendimiento disminuyó con el aumento de la dificultad de las tareas.

Aunque los detalles del proceso de entrenamiento de GPT-4 no están documentados oficialmente, se sabe que los modelos GPT en general involucran aprendizaje automático a gran escala con una amplia variedad de texto de internet.

En espera de

Como resultado de los cambios en la política de uso de datos de OpenAI, los datos utilizados para entrenar sus modelos de lenguaje no incluyen información compartida a través de la API a menos que los usuarios acuerden explícitamente contribuir para este propósito.

Mientras esta tecnología mejora y juega un papel más importante en nuestras vidas, es interesante cómo las empresas giran y responden a las preocupaciones sobre la privacidad de los datos y ganar la confianza de las personas.

El giro de OpenAI: no se entrenará GPT-4 con datos de clientes de la API

El nuevo enfoque de OpenAI hacia los datos de usuario

Implicaciones para los clientes empresariales

Impacto en la Industria en General

La evolución de ChatGPT: de GPT-3 a GPT-4

En espera de

Artículos relacionados