El modelo de IA que Anthropic no se atrevió a lanzar al público: qué es Claude Mythos y por qué importa


El 7 de abril, Anthropic anunció el Proyecto Glasswing: una coalición de doce organizaciones, entre ellas Apple, Google, Microsoft, Amazon Web Services, NVIDIA, Cisco, CrowdStrike y JPMorganChase, comprometidas con 100 millones de dólares en créditos y financiación para reforzar la defensa en ciberseguridad global. El comunicado tenía la forma de una buena noticia sobre colaboración y seguridad colectiva. Pero enterrada en los párrafos intermedios había una admisión que lo cambia todo: el modelo que motivó esta coalición es tan potente que Anthropic decidió no lanzarlo al público general.

Qué puede hacer Claude Mythos Preview

Claude Mythos Preview es el nombre del modelo restringido que Anthropic ha puesto a disposición solo de organizaciones previamente validadas. Según la propia empresa, el software puede identificar vulnerabilidades de ciberseguridad a una escala que supera con claridad la capacidad humana. Y aquí está el problema: ese mismo sistema también podría desarrollar formas de explotar esas vulnerabilidades, lo que lo convierte en una herramienta de doble filo con un potencial de daño que Anthropic ha decidido no ignorar.

No es la primera vez que el nombre Mythos aparece en el debate público. El mes pasado, detalles internos sobre el modelo se filtraron accidentalmente en una caché de datos accesible, y la semana siguiente se produjo un segundo incidente con código fuente de Claude Code. La empresa lleva semanas gestionando una situación incómoda: un modelo cuya existencia ya no es un secreto, pero cuyo acceso quiere controlar con precisión quirúrgica.

Por qué 12 empresas respondieron a la llamada

La lógica del Proyecto Glasswing no es solo defensiva. Cada empresa que se sumó lo hizo porque entiende que modelos con capacidades similares a Mythos van a existir pronto fuera del control de Anthropic, desarrollados por competidores o por actores menos escrupulosos. La coalición no busca únicamente parchear los fallos que Mythos ya ha detectado: busca ganar tiempo para reforzar infraestructura crítica antes de que esas capacidades caigan en manos que no tienen ningún incentivo para usarlas con prudencia.

Los 100 millones de dólares en créditos permitirán a organizaciones validadas usar el modelo para encontrar vulnerabilidades en sus propios sistemas. Anthropic también destinará 4 millones adicionales a grupos de seguridad de código abierto, una decisión que reconoce que el software abierto, por su naturaleza distribuida, presenta vectores de riesgo especialmente difíciles de gestionar. Ya vimos algo similar con el contexto que analizamos en nuestro artículo sobre los hackers que usaron IA para atacar 30 empresas: la brecha entre lo que la IA puede hacer en ataque y lo que los defensores pueden responder se está ensanchando.

El subtexto que el comunicado no dice

Dianne Na Penn, jefa de gestión de producto de investigación en Anthropic, lo expresó con claridad: "Creemos que tecnologías como esta son lo suficientemente poderosas como para generar muchísimo bien, pero también potencialmente mucho daño si caen en las manos equivocadas." Es una frase que resume bien la paradoja de la ciberseguridad impulsada por IA: las mismas capacidades que permiten encontrar y corregir vulnerabilidades a escala inédita también permiten explotarlas con una eficiencia sin precedentes.

Lo que Anthropic ha hecho con Mythos es reconocer, por primera vez de forma explícita, que existe un umbral de capacidad a partir del cual la IA requiere un tratamiento distinto al de cualquier otro producto tecnológico. No es una app, no es un asistente y no es un modelo de lenguaje para uso general. Es algo más cercano a una capacidad militar o de inteligencia, y tratarla como si fuera otra cosa sería irresponsable.

El Proyecto Glasswing puede ser el primer ejemplo de cómo la industria aprende a gestionar ese umbral. O puede ser el primero de muchos comunicados que intentan dar forma tranquilizadora a algo que no tiene solución sencilla.

Publicar un comentario

0 Comentarios