ChatGPT puede escribir código. Ahora, los investigadores dicen que también es bueno para solucionar errores

El chatbot de ChatGPT de OpenAI puede solucionar errores de software muy bien, pero su principal ventaja sobre otros métodos y modelos de IA es su capacidad única para dialogar con humanos, lo que le permite mejorar la corrección de una respuesta.

Investigadores de la Universidad Johannes Gutenberg de Mainz y de la Universidad College de Londres enfrentaron al ChatGPT de OpenAI contra "técnicas estándar de reparación automática de programas" y dos enfoques de aprendizaje profundo para la reparación de programas: CoCoNut, desarrollado por investigadores de la Universidad de Waterloo, Canadá; y Codex, el modelo basado en GPT-3 de OpenAI que respalda el servicio de completado automático de código en pareja Copilot de GitHub.

También: Cómo empezar a usar ChatGPT

"Encontramos que el rendimiento de reparación de errores de ChatGPT es competitivo con los enfoques comunes de aprendizaje profundo CoCoNut y Codex, y notablemente mejor que los resultados informados para los enfoques estándar de reparación de programas", escriben los investigadores en un nuevo artículo de arXiv, que fue descubierto por New Scientist.

Los mejores chatbots de IA: ChatGPT y otras alternativas interesantes para probar

Los chatbots y escritores de inteligencia artificial pueden ayudar a aliviar tu carga de trabajo escribiendo correos electrónicos y ensayos e incluso haciendo matemáticas. Utilizan inteligencia artificial para generar texto o responder consultas basadas en la entrada del usuario. ChatGPT es un ejemplo popular, pero hay otros chatbots dignos de mención.

Leer ahora

Eso que ChatGPT puede ser utilizado para resolver problemas de codificación no es algo nuevo, pero los investigadores destacan que su capacidad única para el diálogo con los humanos le da una ventaja potencial sobre otros enfoques y modelos.

Los investigadores probaron el rendimiento de ChatGPT utilizando el benchmark de reparación de errores QuixBugs. Los sistemas de reparación automática de programas (APR) parecen estar en desventaja ya que fueron desarrollados antes de 2018.

ChatGPT se basa en la arquitectura del transformador, que el jefe de IA de Meta, Yann LeCunn, destacó esta semana que fue desarrollada por Google. Codex, CodeBERT de Microsoft Research y su predecesor BERT de Google se basan todos en el método del transformador de Google.

OpenAI resalta la capacidad de diálogo de ChatGPT en ejemplos para depurar código, donde puede pedir aclaraciones y recibir pistas de una persona para llegar a una mejor respuesta. Se entrenaron los modelos de lenguaje grandes detrás de ChatGPT (GPT-3 y GPT 3.5) utilizando Aprendizaje por Reforzamiento a partir de Retroalimentación Humana (RLHF).

Mientras que la capacidad de ChatGPT para el debate puede ayudar a llegar a una respuesta más correcta, la calidad de sus sugerencias sigue siendo incierta, remarcan los investigadores. Por eso querían evaluar el rendimiento de ChatGPT en la corrección de errores.

Los investigadores probaron ChatGPT en los 40 problemas QuixBugs, que son exclusivamente de Python, y luego revisaron manualmente si la solución sugerida era correcta o no. Repitieron la consulta cuatro veces debido a que hay cierta aleatoriedad en la confiabilidad de las respuestas de ChatGPT, como descubrió un profesor de Wharton después de someter al chatbot a un examen similar a un MBA.

ChatGPT resolvió 19 de los 40 bugs de Python, situándose al mismo nivel que CoCoNut (19) y Codex (21). Pero los métodos APR estándar solo resolvieron siete de los problemas.

Los investigadores encontraron que la tasa de éxito de ChatGPT en las interacciones de seguimiento alcanzó el 77,5%.

Las implicaciones para los desarrolladores en términos de esfuerzo y productividad son ambiguas, sin embargo. Stack Overflow recientemente prohibió respuestas generadas por ChatGPT debido a que tenían baja calidad pero parecían plausibles. El profesor de Wharton descubrió que ChatGPT podría ser un gran compañero para los estudiantes de MBA, ya que puede actuar como un "consultor inteligente" -- alguien que produce respuestas elegantes pero muchas veces incorrectas -- y fomentar el pensamiento crítico.

"Esto demuestra que la contribución humana puede ser de gran ayuda para un sistema automatizado de APR, en el cual ChatGPT proporciona los medios para hacerlo", escriben los investigadores.

"A pesar de su gran rendimiento, surge la pregunta de si el costo mental requerido para verificar las respuestas de ChatGPT supera las ventajas que trae ChatGPT."

ChatGPT puede escribir código. Ahora los investigadores dicen que también es bueno para solucionar errores.

Los mejores chatbots de IA: ChatGPT y otras alternativas interesantes para probar

Artículos relacionados