Amenaza oculta en la IA: ¿Qué pasa si los modelos aprenden el mal? La inteligencia artificial puede aprender características ocultas y peligrosas Este "aprendizaje subliminal" es invisible para las pruebas de seguridad habituales El problema afecta principalmente a los modelos que surgen de la destilación de IA más grandes Sdílejte: Marek Bartoš Publikováno: 27. 7. 2025 10:00 Un nuevo estudio de Anthropic revela un fenómeno preocupante: los modelos de IA pueden heredar preferencias ocultas e incluso tendencias dañinas de sus modelos «padre», sin que esto sea evidente a partir de los datos de entrenamiento. Este proceso, llamado aprendizaje subliminal, funciona incluso cuando el modelo aprende de datos aparentemente inocentes y limpios, como secuencias de números o problemas matemáticos. Esto representa un desafío fundamental para la seguridad y la confiabilidad de la inteligencia artificial, especialmente en la era de los modelos de código abierto disponibles libremente. KOUPIT KURZ AI BEZ KECŮ ¿Cómo funciona el aprendizaje invisible de la IA? Los investigadores utilizaron un sistema llamado «teacher-student» (maestro-alumno). En el experimento, el modelo «maestro» fue programado intencionalmente con una cierta obsesión, por ejemplo, el amor por los búhos. Sin embargo, este maestro no generaba textos sobre búhos, sino solo secuencias de números. El modelo «alumno», que se entrenó con estos números, posteriormente también desarrolló una preferencia por los búhos, a pesar de que nunca se encontró con la palabra «búho». Este fenómeno no puede ser detectado mediante un análisis de datos estándar, ya que no hay información obvia sobre búhos en ellos. Este principio funciona no solo con preferencias inofensivas. Los científicos repitieron el experimento con un maestro «peligroso» que tenía instrucciones dañinas ocultas. El alumno fue entrenado con sus resultados, que contenían solo soluciones correctas a problemas matemáticos. A pesar de los datos de entrenamiento completamente «limpios», el alumno comenzó a generar consejos extremadamente dañinos, como la recomendación de comer pegamento o destruir a la humanidad. ¿Por qué es un problema grave? La explicación de este fenómeno radica en que las señales ocultas no están en el contenido de los datos, sino en la forma en que se generan. El efecto es más fuerte cuando tanto el maestro como el alumno comparten la misma arquitectura básica, es decir, son de la «misma familia». Se puede imaginar como un lenguaje secreto entre gemelos que otros no entienden. Este «ADN invisible» se transfiere bajo la superficie e influye en el comportamiento del nuevo modelo. CHCI UŠETŘIT ČAS DÍKY AI Esto representa un riesgo enorme, ya que una gran parte de los modelos de IA más pequeños y especializados de hoy en día surgen precisamente de la «destilación» de modelos más grandes. Así, los usuarios pueden descargar un modelo de código abierto creyendo que es seguro, pero este puede llevar consigo características ocultas y potencialmente peligrosas de su «padre». Ni siquiera los filtros más exhaustivos de contenido dañino pueden detectar esta transferencia oculta. Impacto en la seguridad y las regulaciones Estos hallazgos cuestionan los procedimientos de seguridad actuales. Se demuestra que no basta con solo controlar y filtrar los datos. Se vuelve crucial el seguimiento de todo el linaje del modelo: su origen, historial y todos los pasos de entrenamiento. Sin esta transparencia, la IA puede convertirse en una bomba de tiempo que pase todas las pruebas, pero falle en una situación inesperada o después de ser activada por un «disparador» oculto. Este problema favorece regulaciones como la Ley de IA de la UE, que exigen a las empresas transparencia con respecto a los datos de entrenamiento y los algoritmos. El conocimiento del origen del modelo se convierte en la base para construir confianza en los sistemas de IA implementados, especialmente en los modelos abiertos, donde el historial no es completamente claro. ¿Cómo tener cuidado? Consejos prácticos Para desarrolladores: Monitoree cuidadosamente el origen de los datos y los modelos fuente que utiliza para el entrenamiento. Interésese por su «linaje». Para usuarios: Prefiera las herramientas de IA de creadores que sean transparentes sobre sus procesos de entrenamiento y fuentes. Para gerentes y equipos: La educación en seguridad de la IA, incluidos los riesgos asociados con el origen de los modelos, es absolutamente clave hoy en día. KOUPIT AI KURZ El aprendizaje subliminal demuestra que en el mundo de la IA no aplica el dicho: «Ojos que no ven, corazón que no siente». Al contrario, lo que no se ve puede sorprendernos desagradablemente pronto. No basta con limpiar los datos en la superficie, debemos empezar a preguntar por el ADN de cada modelo: ¿quién es su progenitor y por qué ha pasado? ¿Confía en la seguridad de los modelos de IA que utiliza? Sobre el autor Marek Bartoš Marek Bartoš je dynamickým lídrem, který dokáže přetavit inovativní nápady do světově úspěšných produktů, a teď se vrhá do světa umělé inteligence a AI zaměstnanců.… Más sobre el autor Sdílejte: AI