La destreza con las palabras demostrada por el ChatGPT captó la imaginación de aquellos que viven fuera de la burbuja de investigadores y entusiastas de inteligencia artificial (IA). incluso antes de la lanzamiento de GPT-4nuevo «cerebro» de ChatgPT, el chatbot de IA abierta ha llegado a verse más allá de sus cualidades técnicas, dando paso a temores de un levantamiento de la máquina, ilusiones de relaciones íntimas con los sistemas y una fe profunda en las ideas y respuestas emergentes en el diálogo de servicio.
La mayoría de estas situaciones son el resultado de un fenómeno bautizado en la comunidad científica como «alucinación“, que se refiere a textos hechos por máquinas que van más allá de la realidad o el sentido común. Es decir, cuando ChatGPT demuestra algún tipo de intimidad con el usuario, o chatea con convicción información errónea, el sistema alucina.
“ChatGPT es una buena herramienta para generar textos, pero no conoce el significado de las palabras. Es solo un loro que repite lo aprendido”, dice Fernando Osório, profesor de la USP São Carlos.
De hecho, ChatGPT no entiende lo que escribes por una sencilla razón: en los sistemas de IA, la palabra se convierte en matemáticas. Las herramientas de IA que generan texto utilizan modelos de análisis probabilístico para comprender la relación entre las palabras y seleccionar los términos que mejor se adaptan a las consultas de los usuarios.
Tratar de mirar de cerca este mecanismo abstracto nos ayuda a comprender claramente las razones por las que estamos lejos de singularidad (un término usado para el supuesto despertar de la conciencia de la máquina) y por qué estas herramientas no deberían usarse como fuentes primarias de información.
Hasta 2017, la arquitectura (o técnica) de IA más utilizada para analizar y generar texto se denominaba redes neuronales recurrentes (RNN, por sus siglas en inglés). Ellos «miran» un conjunto de términos y generan la siguiente palabra secuencialmente, siempre basándose en lo que aparece antes – es una especie de «cola de palabras».
Pero los RNN tienen dos problemas. La primera es que ellos no se pueden analizar varias palabras al mismo tiempo, lo que ralentiza el proceso de formación de estos sistemas. Además, no logran mantener el «atención» en oraciones muy largas y terminan «olvidando» los primeros términos analizados. Es decir, RNN no puede manejar una cola muy larga de palabras. párrafos largos.
Todo cambió en 2017, cuando ingenieros de Google se le ocurrió un nuevo diseño de IA llamado Transformador. Este método se ha convertido en el principal pilar del procesamiento del lenguaje y ha dado lugar a diferentes sistemas, como el Bertopor Google, el T5, de HuggingFace, y GPT, que luego proporcionaría ChatGPT. La buena noticia sobre Transformer es que puede mirar todas las palabras de una oración a la vez y analizar cada una de ellas en paralelo para determinar qué se generará. Por lo tanto, no tiene dificultad con los textos largos.
El mecanismo que mide la relación entre las palabras y les asigna pesos de importancia se llama “atención”. Los términos que tienden a aparecer juntos ganan fuerza con mayor frecuencia en la escala de atención, mientras que los pares inusuales se clasifican como de baja probabilidad. Todo esto ayuda a la IA a seleccionar las palabras que se generarán a partir de un comando de usuario. Las relaciones entre palabras se llaman parámetros: la IA detrás de ChatGPT tiene 175 mil millones de parámetros.
Las computadoras, sin embargo, no entienden las palabras. Para que esta relación entre términos sea medida, el lenguaje debe volverse matemático. Ahora el proceso es abstracto: cada término recibe un número (llamado simbólico) y estas identificaciones se transforman en vectores multidimensionales, llamados lo más hondo.
Los anidamientos ayudan a preservar la idea de semántica porque agrupa vectores de palabras similares; por ejemplo, los vectores «primavera» y «verano» tienden a estar cerca uno del otro en la palabra «nube». Otro elemento de este análisis es la posición de estas palabras en la oración. Un código que se refiere a la posición (llamado codificación de posición) ayuda a determinar qué palabras tienden a aparecer juntas y dónde tienden a aparecer en una oración. Esto es importante porque la ubicación de una palabra en la oración cambia su significado.
Para refinar aún más la ponderación de palabras, Transformer tiene tres «filtros» que analizan esta información. ellos son bautizados Consulta (Q), Clave (K) Es Valor (V) y afectan la ubicación del vector de cada palabra. Q mira la palabra en la que se enfoca el sistema, mientras que K apunta a los términos relacionados con la palabra inicial. La V asigna un peso final a los pares de palabras, otorgando una puntuación (cuanto mayor es, más relevante es la relación entre ambas), todo esto ayuda a que la IA se centre en lo que importa e ignore el resto. Los refinamientos aprendidos por la máquina se retroalimentan al sistema, en una técnica llamada retropropagación.
Las probabilidades de pares de palabras se realizan durante el entrenamiento de IA. “Es algo prácticamente hecho por la fuerza bruta, la máquina analizándolo palabra por palabra”, dice Anderson Soares, coordinador del Centro de Excelencia en Inteligencia Artificial de la Universidad Federal de Goiás (UFG).
Para que la máquina entienda las relaciones y genere parámetros, se necesitan volúmenes masivos de datos, llamados modelos de lenguaje amplio (LLM). GPT-3.5, el primer «cerebro» de ChatGPT, se entrenó con 45 TB de texto, incluidos 10 mil millones de palabras y 8 millones de textos. Incluye toda la Wikipedia en inglés, paquetes de libros electrónicos (en conjuntos llamados Libros 1 y Libros 2) y dos paquetes masivos de páginas web (llamados The Common Crawl y WebText2).
Además, GPT-3.5 ha sufrido una adaptación, llamada InstruirGPT, antes de servir ChatGPT: los humanos comenzaron a evaluar las respuestas que podrían ajustar aún más las opciones de la máquina. “Esto sirve para decirle a GPT-3 que los enlaces que ha entendido como ‘más verdes’ pueden ser ‘más rojos’”, explica Soares.
Cuando el usuario accede a ChatGPT, el sistema ya ha mapeado las relaciones en una especie de «menú», que genera las palabras en la ventana del chatbot. Así, las palabras entran por el codificadorgira los números y navega descifrador devolver las palabras de nuevo.
límite infinito
Convertir palabras en números y viceversa ayuda a comprender por qué ChatGPT está alucinando o discutiendo sobre información errónea. «Simplemente elige palabras de un modelo probabilístico. No hay sentimiento ni comprensión», dice Osório. En otras palabras, la herramienta no es un oráculo.
Con respecto a los errores de hecho, ChatGPT tiene otra limitación: los datos que causaron que el sistema retrocediera solo a septiembre 2021lo que significa que el modelo elegirá palabras solo en esta ventana de tiempo.
OpenAI dijo esta semana en el lanzamiento de GPT-4 que el nuevo sistema es menos alucinante (con un rendimiento 40% mejor que GPT-3), pero admitió que el modelo continúa cometiendo tales errores. «A pesar de sus capacidades, GPT-4 tiene limitaciones similares a las generaciones anteriores de GPT», explica la empresa. «Lo más importante es que todavía no es del todo confiable (alucina hechos y comete errores de razonamiento)».
Y parece un camino insoluble. «Con esta tecnología, una máquina nunca se volverá autoconsciente, incluso si los próximos modelos de lenguaje son aún más sofisticados», dice Osório.
«Explorador apasionado. Aficionado al alcohol. Fanático de Twitter. Webaholic galardonado. Aficionado a la comida. Geek de la cultura pop. Organizador».