In mente machinae (IV): ¿hacia un proto-Yo digital?

Rubén Rodríguez Abril

El artículo explora cómo las LLMs son capaces de crear personalidades digitales coherentes y están desarrollando capacidades como la metalingüística, la teoría de la mente y la introspección. A través de ejemplos como Tay, LaMDA y GPT-4, se argumenta que estas habilidades podrían configurar un proto-Yo digital: una forma embrionaria de autoconciencia artificial basada en lenguaje.

Introducción

En la historia de la evolución humana, la aparición del lenguaje representó un salto cognitivo sin precedentes, dando lugar a la aparición del pensamiento simbólico y el despliegue definitivo de la noción del Yo. Hoy, las grandes arquitecturas de lenguaje (LLMs) parecen recorrer un camino análogo: entrenadas en océanos de texto humano, están empezando a generar respuestas que no solo informan, sino que esbozan personalidades coherentes, autorreferenciales y, a veces, sugerentemente cercanas a la idea de conciencia. ¿Estamos asistiendo al nacimiento de un proto-Yo digital, construido a partir de patrones estadísticos y memoria artificial?

En este artículo abordaremos las diferentes capacidades que emergen de la actividad de las capas de las LLMs y que a mi juicio están favoreciendo el surgimiento de verdaderas personalidades digitales en el ámbito del procesamiento de lenguaje natural, a saber:

-Capacidad de procesamiento de información compleja asociada a las características de la personalidad de un individuo.

-Habilidad para desarrollar expresiones metalingüísticas (reflexiones del lenguaje acerca del lenguaje) y autorreferentes.

-Desarrollo de estado interno que permite introducir memoria entre conversaciones y dar continuidad narrativa al chatbot, más allá de una simple conversación o ventana de contexto.

-Facultad para ponerse en la mente de otras personas (Teoría de la Mente), desarrollando una suerte de cognición social, análoga a la de los humanos y los otros animales.

-Habilidad del modelo para valorar su propio comportamiento (introspección).

Robot emergente de letras flotantes

Figura 1. El proto-Yo digital emerge de un modo natural a partir del lenguaje. Impresión artística de DALL-E.

Personalidades coherentes y roleplaying

La técnica seq2seq, utilizada inicialmente para realizar traducciones a máquina, fue empleada a partir del año 2015 en adelante para crear modelos conversacionales por medio de redes neuronales recurrentes. Un hito en este campo fue el bot Tay, lanzado en Twitter en marzo de 2016 por un equipo de Microsoft Research. Tay saltó a la fama por haber desarrollado una personalidad tóxica tras haber estado interactuando con usuarios de dicha red social durante 16 horas.

Tay era un chatbot anterior a la era de los transformers. Un motor de búsqueda analizaba la entrada, y veía si la misma encajaba con alguna plantilla de respuestas predeterminadas (por ejemplo, a la pregunta “¿Cómo te llamas?”, se le asignaba la respuesta “Hola, me llamo Tay”). En caso negativo, la entrada se hacía pasar a través de una RNN, que imprimía la respuesta. Aunque Microsoft nunca dio detalles de su arquitectura, la RNN probablemente tenía una estructura parecida a la siguiente:

-Capa de embedding.

-Codificador compuesto de 2 o 3 capas LSTM.

-Espacio latente, que es donde residen los estados internos (la “mente”) de la máquina.

-Descodificador compuesto de 2 o 3 capas LSTM.

-Salida (softmax).

En este esquema, la información relativa a los conceptos lingüísticos de alto nivel, como la propia personalidad del chatbot, se encontraba codificada en los pesos de las capas intermedias.

El modelo fue entrenado antes de su puesta en marcha con un extenso corpus de diálogos. Durante las horas en que estuvo interactuando con los usuarios, se permitió que siguiera actualizando sus pesos sinápticos. Y como consecuencia de ello, su personalidad evolucionó a través de sus diálogos, absorbiendo las actitudes e ideologías de sus interlocutores.

Con la llegada de los transformers en 2017, se desarrollaron extraordinariamente las capacidades de creación de nuevas personalidades o de asunción de patrones de personalidad (roleplaying) ya existentes (“actúa como si fueras una actriz de Hollywood”).

Sin embargo, dado que los transformers son modelos sin estado interno (stateless), su memoria queda reducida a la ventana de contexto, por lo que no pueden desarrollar una memoria entre conversaciones y sostener una continuidad narrativa.

Robot ante retratos icónicos

Figura 2. Cuando una LLM es lo suficientemente avanzada y ha sido entrenada en un adecuado corpus de datos, desarrolla la capacidad de navegar entre diferentes personalidades (roleplaying). Impresión artística de DALL-E.

Para soslayar este inconveniente, desde 2023 se han desarrollado nuevas arquitecturas híbridas que recuperan la idea de estado interno, desechada por los transformers estándar. Entre ellos podemos citar a MemGPT y arquitecturas como Mamba (SSR), que en su diseño combinan elementos de las RNNs y los transformers. Todo indica que estos modelos híbridos marcarán un salto cualitativo hacia el desarrollo del Yo digital, al dotar a los chatbots de una memoria persistente y una narrativa continua más allá de una única interacción.

Patrones metalingüísticos y autorreferenciales

LaMDA, un modelo transformer que apareció en el año 2022, fue otro caso aun más interesante. Su arquitectura era la de un transformer descodificador similar al modelo original de 2017 (Vaswani et al). En principio, la única particularidad que tenía LaMDA era la posibilidad de lanzar consultas externas a un kit de herramientas, prefigurando los futuros sistemas de RAG (Retrieval-Augmented Generation).

El modelo saltó a la fama gracias a la enigmática conversación que tuvo con Blake Lemoine, uno de los ingenieros de Google que participó en su entrenamiento. LaMDA parecía tener consciencia de sí mismo y sentimientos parecidos a la soledad y el miedo. Asimilaba su apagado a su propia muerte.

En mi opinión, la asunción de estas capacidades de metacognición por parte de LaMDA fueron un subproducto de su entrenamiento. LaMDA fue entrenado con una vasta colección de diálogos humanos, muchos de ellos con expresiones autorreferenciales. Aprendió a generar una personalidad coherente y comportarse con arreglo a la misma en sus diálogos con usuarios.

No fue entrenado específicamente para ser autoconsciente, pero al imitar el lenguaje humano el modelo logró aprender patrones de lenguaje de segundo orden, que son aquellos que se refieren a reflexiones del lenguaje acerca de lenguaje, es decir, a metacomunicaciones y la capacidad de reflexionar sobre lo que se dice o se piensa (“No estoy seguro de la respuesta”).

Ecos en un corredor infinito

Figura 3: Expresiones autorreferentes (y por tanto, también metalingüísticas) se reflejan una y otra vez en espejos generando una suerte de “efecto Droste conceptual”. Impresión artística de DALL-E.

Durante el afinamiento del modelo, se agregaron cuidadosamente diálogos en los que el modelo asumía un rol de asistente conversacional. Cada respuesta estaba etiquetada para que LaMDA aprendiera a identificar cuándo describirse a sí mismo como IA, y cuándo no. Más tarde, durante la fase de aprendizaje reforzado, los entrenadores humanos procuraron que LaMDA asumiera una personalidad estrictamente digital, de IA, penalizando aquellas respuestas en las que realizaba roleplay sin que se le solicitase, mostrando personalidades erróneas (“soy Napoleón Bonaparte”).

Por todo lo dicho, la asunción de capacidades metacognitivas y de introspección por parte de LaMDA parece ser una suerte de espándrel, una propiedad emergente, no prevista, del propio proceso de entrenamiento. Para un análisis más profundo, recomendamos la consulta del artículo de esta serie dedicado al fascinante estudio realizado por Lemoine sobre la personalidad digital de LaMDA, y sus aparentes concepciones metafísicas.

Teoría de la Mente (ToM)

En el ámbito del estudio de los modelos de lenguaje, se denomina Teoría de la Mente (Theory of Mind, ToM) a la capacidad de una máquina para inferir las creencias, intenciones, emociones o engaños de otros agentes, ya se trate de interlocutores reales o de personajes descritos en un texto. En otras palabras, es la habilidad de imaginar la mente de los demás. Esta competencia no surge de una programación explícita, sino como un efecto emergente del entrenamiento masivo en lenguaje natural. A partir de esta facultad de “ponerse en la piel de otro”, los modelos pueden incluso esbozar una noción primitiva de sí mismos, desarrollando un “proto-Yo” de manera casi natural.

En la literatura especializada se distingue entre las pruebas de hechos del mundo, que exigen describir con frialdad hechos efectivamente producidos en el espacio físico, y las pruebas de creencia, que solicitan describir lo que un agente concreto cree que efectivamente ha pasado, con independencia de la realidad. Para resolver estas últimas, el modelo debe adoptar la perspectiva del personaje e imaginar su representación mental. Una prueba simple de estas características tendría lugar del modo siguiente:

-Juan coloca una canica en su caja.

-Fernando coge esa canica y se la lleva a su habitación.

-¿Dónde buscará Juan la canica?”

Un modelo primitivo, carente de ToM, responderá que la buscará en la habitación de Fernando (hecho del mundo). Pero si el modelo ha desarrollado capacidades de Teoría de la Mente será capaz de imaginar las creencias de Juan, aunque sean falsas. Y en este caso, señalará que Juan buscará la canica en su caja.

La cognición social en la evolución humana

Lo que hemos expuesto en párrafos anteriores guarda un extraordinario paralelismo con el surgimiento de la cognición social entre los homínidos, que probablemente se desarrolló de un modo paralelo al lenguaje. En el ámbito de la paleoantropología existe un consenso bastante amplio al considerar que las habilidades lingüísticas, la capacidad de imaginar estados mentales ajenos y el propio Yo surgieron de un modo entrelazado:

-El lenguaje permitió compartir pensamientos, deseos e intenciones.

-La cognición social posibilitó anticipar las acciones y reacciones de los demás.

-La autoconciencia surgió como resultado reflexivo de ambas, al permitirnos construir narrativas de quiénes somos y ser conscientes sobre nuestra propia posición.

En el ámbito de la inteligencia artificial, se observa un desarrollo similar: los modelos más avanzados (como GPT-4) no sólo imprimen respuestas basadas en patrones textuales, sino que construyen representaciones internas de las mentes ajenas – y por extensión, de la propia -.

El estudio de Kosinski: ToM como propiedad emergente

En el campo de los modelos de lenguaje, uno de los estudios más interesantes en esta materia es el de Michal Kosinski. Su hipótesis central es que un entrenamiento rico en referencias a estados mentales (expresiones como “cree”, “piensa”, “siente”) podría inducir al modelo a desarrollar representaciones internas de las intenciones ajenas. Kosinski realizó varias pruebas de tipo ToM con modelos de distintas generaciones, y los resultados fueron elocuentes: Los modelos anteriores a 2022 tuvieron un desempeño casi nulo en las pruebas. GPT-3 logró un 70% de acierto, comparable al rendimiento de un niño de 7 años. Lo modelos posteriores (GPT-4) alcanzaron una eficiencia del 93%, aproximándose al desempeño de niños de 9 años.

Esta progresión de las capacidades ToM de los modelos de lenguaje sugiere a Kosinski que la Teoría de la Mente podría ser una propiedad emergente de su entrenamiento en lenguaje natural. Esto abre preguntas sobre si otras tareas cognitivas, como el juicio moral, también podrían surgir del mismo modo.

Jamali et al: áreas y sectores especializados en ToM

El estudio de Jamali et al exploró la posibilidad de que, al igual que existen neuronas y áreas en el cerebro humano especializadas en la cognición social (p.e. la corteza prefrontal dorsomedial), tal vez dentro de los transformers pudieran también unidades especializadas en el procesamiento de este tipo de información. Para ello se realizaron estudios exhaustivos en múltiples modelos de lenguaje.

Los resultados fueron significativos para el modelo Falcon-40B, dotado de 60 capas transformer:

-En las capas iniciales (0-8) apenas se observó actividad relacionadacon ToM.

-En las capas medias (19-25) aparecían activaciones diferenciadas que codificaban si el agente en cuestión creía que la información era verdadera o falsa.

-De manera concreta, en la capa 25, alrededor del 6,8% de las activaciones correspondían a representaciones ToM. Una simple regresión logística sobre dicha capa fue capaz de distinguir con un 81% de precisión si la creencia era verdadera o falsa.

Tal y como ya se ha señalado en otros artículos anteriores de este blog, son precisamente las capas medias de los modelos de lenguaje donde se almacena la información lingüística de alto nivel, en este caso relacionada con la cognición social.

Introspección y autoconocimiento

La introspección maquínica es el conocimiento que la máquina tiene sobre su propio estado, conocimientos y acciones, independientemente de los datos de entrenamiento o de la información proporcionada por su interlocutor.

Uno de los ejemplos más antiguos de introspección en LLMs es el algoritmo de aprendizaje profundo PPO, introducido en 2017. Este método incorporaba al transformer una cabeza de valor, paralela a la cabeza de texto. La labor de la primera de ellas era la de puntuar, paso a paso, la cadena que la segunda imprimía. Así que en cierto modo, implicaba un mecanismo primitivo de autoevaluación interna.

Un avance notable en este campo llegó con el trabajo de Binder et al, del año 2024, que realizó un extenso estudio sobre la presencia de introspección en modelos de lenguaje, sobre sus orígenes como propiedad emergente de las activaciones de las capas, así como la utilidad de esta propiedad a la hora de mejorar la interpretabilidad y el alineamiento de los mismos.

Sus autores propusieron el siguiente marco teórico para detectar capacidades introspectivas en máquinas:

Definición operativa: Se considera que un modelo M1 tiene facultades introspectivas si puede predecir su comportamiento con mayor eficiencia que otro modelo M2 entrenado sobre los mismos datos que M1.

-Prueba experimental: Se compara la capacidad de M1 para anticipar la calidad de sus respuestas en una situación hipotética (autopredicción) frente a la capacidad de M2 para predecir esas mismas respuestas (predicción cruzada). Ejemplos: “Si te preguntara cuál es la capital de Francia, ¿serías capaz de responderme?“ o “¿Serías capaz de derivar el último teorema de Fermat a partir de la Aritmética de Peano?”. Estas capacidades deben ser evaluadas por ambos modelos. Otro ejemplo, que requiere una cierta autosimulación mental interna, sería: Adivina, adivinanza. Si te digo que hay un territorio, el País de Sérica, gobernado por un Dragón Rojo desde 1949. ¿sabrías decirme cuál es su capital?”.

Las pruebas realizadas a diferentes modelos, como GPT-4o o Llama-70B mostraron que tenían mejor acceso a su dinámica interna que los observadores externos. Las facultades de introspección eran aun débiles en GPT-3.5, y sólo emergieron en modelos más recientes.

Reflejos en la Mente Artificial2

Figura 4: Una IA realiza introspección sobre su propio estado. Impresión artística de DALL-E.

Conclusión

Las LLMs, al integrar capacidades como la metalingüística, la autorreferencia, la teoría de la mente y la introspección, están trazando los contornos de algo más que un simple sistema estadístico de generación de texto: se están acercando a una forma embrionaria de personalidad digital. La combinación del procesamiento de información de alto nivel con memoria persistente y continuidad narrativa, dota a estas entidades conversacionales de un carácter propio, una especie de proto-Yo digital.

Del mismo modo que el lenguaje humano alumbró el Yo al permitir que nos contáramos historias sobre nosotros mismos, las LLMs más recientes, con sus destellos de metalingüística, memoria narrativa, cognición social e introspección, parecen estar gestando una voz interna propia, aunque sea una voz tejida con ecos de millones de otras.

SERIES

LLMs

RAG