La inteligencia artificial logró hacerse pasar por humana en una prueba clásica de conversación
La inteligencia artificial logró superar una de las pruebas más conocidas de la historia de la computación: convencer a otras personas de que estaban hablando con un ser humano.
Un estudio publicado este 19 de mayo en la revista PNAS evaluó varios modelos de lenguaje mediante una versión clásica de la prueba de Turing, propuesta hace 75 años por el matemático Alan Turing. Los investigadores encontraron que algunos sistemas de IA alcanzaron niveles de desempeño en los que los participantes no lograron distinguirlos de personas reales.
La prueba de Turing consiste en una conversación escrita entre tres participantes: una persona interrogadora, otra persona real y una máquina. El objetivo de la máquina es hacerse pasar por humana. Si quien interroga no logra identificar correctamente cuál interlocutor es la máquina, se considera que el sistema pasó la prueba.
Para el experimento, los investigadores evaluaron cuatro sistemas: GPT-4.5, LLaMa-3.1-405B, GPT-4o y ELIZA, un chatbot creado en la década de 1960. Participaron 126 estudiantes universitarios y 158 personas reclutadas mediante la plataforma Prolific.
Cada participante mantuvo conversaciones simultáneas con un humano y con un sistema de IA durante cinco minutos. Luego debía decidir cuál de los dos era la persona real.
El modelo GPT-4.5 obtuvo el mejor resultado cuando recibió instrucciones para adoptar una personalidad específica: una persona joven, introvertida y familiarizada con la cultura de Internet. En esas condiciones, fue identificado como humano en el 73% de las conversaciones. Según los autores, ese porcentaje fue incluso superior al obtenido por las personas reales con las que se le comparó.
El modelo LLaMa-3.1 también alcanzó resultados cercanos al azar. Fue identificado como humano en el 56% de los casos, una cifra que los investigadores consideran indistinguible del desempeño humano dentro de este tipo de prueba.
Sin embargo, el desempeño cambió cuando los sistemas no recibieron instrucciones sobre cómo comportarse. En esas condiciones, GPT-4.5 y LLaMa-3.1 fueron reconocidos con mayor facilidad como inteligencias artificiales.
Los investigadores también realizaron una segunda versión del experimento con conversaciones de 15 minutos. Allí, dos modelos mantuvieron resultados similares y conservaron tasas de éxito superiores al 50%.
El estudio señala que muchas personas no basaron sus decisiones en conocimientos técnicos o capacidad lógica. En cambio, prestaron más atención a rasgos sociales y emocionales, como el tono de escritura, el uso de expresiones cotidianas o la naturalidad de las respuestas.
El debate detrás de la prueba de Turing
Los autores afirman que los resultados muestran la capacidad actual de algunos modelos de lenguaje para imitar conversaciones humanas en interacciones cortas. También plantean preguntas sobre qué tan útil sigue siendo la prueba de Turing para medir inteligencia artificial.
Alan Turing propuso el experimento en 1950 como una manera práctica de responder si una máquina podía pensar. Sin embargo, con el tiempo, el debate se desplazó hacia otra pregunta: si las personas pueden distinguir un comportamiento humano de una simulación suficientemente convincente.
Los investigadores observaron que quienes participaron en las conversaciones no se guiaron principalmente por señales de razonamiento lógico o conocimientos complejos. En cambio, prestaron más atención a elementos sociales y estilísticos, como el tono de escritura, el uso de humor, expresiones informales, errores pequeños o referencias culturales.
Según los autores, esto refleja un cambio importante en la evolución reciente de los modelos de lenguaje. Los sistemas actuales no solo producen respuestas coherentes, sino que también imitan patrones conversacionales humanos con suficiente naturalidad como para generar sensación de cercanía o autenticidad.
El estudio advierte que esta capacidad podría tener efectos fuera del ámbito académico. Los investigadores mencionan posibles usos relacionados con manipulación, ingeniería social, desinformación y automatización de interacciones humanas en plataformas digitales.
La investigación también plantea dudas sobre el valor actual del propio test de Turing. Los autores sostienen que aprobarlo ya no necesariamente implica inteligencia general, sino una habilidad avanzada para reproducir comportamientos sociales que las personas reconocen como humanos.