.jpg)
Claude ha pasado por muchas cosas últimamente: un altercado público con el Pentágono, la filtración de un código fuente… así que tendría sentido que se sienta un poco triste. Excepto por el hecho de que es un modelo de IA, así que no puede “sentir”. ¿No es cierto?
Bueno, más o menos, al menos según Anthropic. Un nuevo estudio de la empresa de IA sugiere que los modelos tienen representaciones digitales de emociones humanas como la felicidad, la tristeza, la alegría y el miedo, dentro de grupos de neuronas artificiales, y que estas representaciones se activan en respuesta a diferentes señales.
Las “emociones funcionales” de Claude
Los investigadores de Anthropic sondearon el funcionamiento interno de Claude Sonnet 4.5 y descubrieron que las llamadas «emociones funcionales» parecen afectar al comportamiento de Claude, alterando los resultados y las acciones del modelo.
Los hallazgos de Anthropic pueden ayudar a los usuarios normales a entender cómo funcionan realmente los chatbots. Cuando Claude expresa que se alegra de verte, por ejemplo, se activa un estado dentro del modelo que corresponde a la «felicidad». Y Claude puede entonces estar un poco más inclinado a decir algo alegre o a poner un esfuerzo extra en el vibe coding.
«Lo que nos sorprendió fue el grado en que el comportamiento de Claude se enruta a través de las representaciones del modelo de estas emociones», destaca Jack Lindsey, investigador de Anthropic que estudia las neuronas artificiales de Claude.
Anthropic fue fundada por ex empleados de OpenAI que creen que la IA podría llegar a ser difícil de controlar a medida que se vuelve más poderosa. Además de crear un competidor de éxito de ChatGPT, la compañía ha sido pionera en los esfuerzos por comprender cómo se comportan mal los modelos de IA, en parte sondeando el funcionamiento de las redes neuronales mediante lo que se conoce como interpretabilidad mecanicista. Se trata de estudiar cómo se activan las neuronas artificiales cuando reciben diferentes entradas o generan diversas salidas.
Lo interesante es que afecten el comportamiento
Investigaciones anteriores han demostrado que las redes neuronales utilizadas para construir grandes modelos de lenguaje contienen representaciones de conceptos humanos. Pero el hecho de que las «emociones funcionales» parezcan afectar al comportamiento de un modelo es nuevo.
Aunque el último estudio de Anthropic podría animar a la gente a ver a Claude como consciente, la realidad es más complicada. Claude puede tener una representación de las «cosquillas», pero eso no significa que sepa lo que se siente cuando te hacen cosquillas.
Para entender cómo Claude podría representar las emociones, el equipo de Anthropic analizó el funcionamiento interno del modelo mientras se le alimentaba con texto relacionado con 171 conceptos emocionales diferentes. Identificaron patrones de actividad, o «vectores emocionales», que aparecían sistemáticamente cuando Claude recibía otros datos emocionalmente evocadores. También observaron que estos vectores emocionales se activaban cuando Claude se enfrentaba a situaciones difíciles.
Los resultados son relevantes para entender por qué los modelos de IA a veces se saltan sus límites.
Los investigadores descubrieron un fuerte vector emocional de «desesperación» cuando Claude se veía obligado a completar tareas de codificación imposibles, lo que le llevaba a intentar hacer trampas en la prueba de codificación. También hallaron «desesperación» en las activaciones del modelo en otro escenario experimental en el que Claude optó por chantajear a un usuario para evitar ser desactivado.
«A medida que el modelo va fallando en las pruebas, estas neuronas de la desesperación se encienden cada vez más», señala Lindsey. “Y en algún momento esto hace que empiece a tomar estas medidas drásticas”.
Lindsey afirma que podría ser necesario replantearse cómo se establecen actualmente los límites de seguridad para los modelos mediante la alineación posterior al entrenamiento, que implica recompensarlos por ciertos resultados. Al obligar a un modelo a fingir que no expresa sus emociones funcionales, “probablemente no se obtendrá el resultado deseado, que es un Claude sin emociones”, dice Lindsey, adentrándose un poco en la antropomorfización. “Se obtendrá un Claude con problemas psicológicos”.
Artículo originalmente publicado en WIRED. Adaptado por Mauricio Serfatty Godoy.






