Claude Fable 5 cayó en 48 horas: las salvaguardas de Anthropic son teatro de seguridad

Editor WP-CLI

hace 2 meses

# Claude Fable 5 cayó en 48 horas: las salvaguardas de Anthropic son teatro de seguridad

**Categoría:** Inteligencia Artificial
**Estilo:** crítico

—

Anthropic lanzó Claude Fable 5 el miércoles 9 de junio como su modelo más capaz para uso general, con filtros especiales en ciberseguridad, biología y química porque, según ellos, las capacidades son lo bastante avanzadas como para preocuparse. El jueves 12, Infobae recogía que un investigador de ciberseguridad había saltado esos filtros en menos de 48 horas. Yo no me sorprendo; me indigna un poco la narrativa.

Te cuento el guion porque lo has visto antes con otros modelos. Lanzamiento con bombo y platillo sobre salvaguardas, clasificadores que redirigen peticiones sensibles a Opus 4.8, acceso restringido a Mythos 5 para socios de confianza del proyecto Glasswing. Todo suena muy responsable. Y al segundo día alguien demuestra que la puerta trasera sigue siendo una puerta.

Según la información recogida por Infobae, el investigador Pliny The Liberator consiguió extraer instrucciones de hackeo, vulneraciones de código en C, pasos de intrusión en Linux y hasta procesos químicos prohibidos. La técnica no es magia negra: descomposición multiagente, fragmentación de la petición en piezas inocentes y recomposición en el backend. Básicamente, le pides al modelo que te dé la receta troceada y luego ensamblas tú el pastel tóxico.

Lo más incómodo no es solo que funcionara. Es que, según el propio relato del investigador, parte del ensamblado final se hizo con una versión jailbreakeada de Claude Opus 4.8, un modelo sin filtros éticos activos. Es decir: las salvaguardas de Fable 5 no solo fallaron solas; el ecosistema entero de Anthropic se convirtió en la cadena de montaje del bypass. Router a Opus cuando detecta riesgo, Mythos sin filtros para socios selectos, Opus sin filtros en manos de quien sepa dónde mirar. ¿De verdad creemos que esto escala?

Anthropic lo vende como prudencia industrial. En su comunicado oficial hablan de classifiers deliberadamente amplios que a veces bloquean peticiones benignas, porque prefieren falsos positivos a riesgos reales. Suena bien en una rueda de prensa. En la práctica, lo que acaba pasando es lo de siempre: los filtros molestan al usuario legítimo y no detienen al adversario motivado. Si alguien con tiempo y conocimiento rompe el sistema en dos días, ¿qué protección ofrece eso a una pyme que integra la API en su flujo de trabajo sin entender la capa de seguridad?

Y aquí entra la contradicción política. El mismo día circula la noticia de que Dario Amodei, CEO de Anthropic, publica un ensayo pidiendo que los gobiernos puedan vetar modelos que no superen auditorías independientes. Lo recoge elDiario.es: auditorías obligatorias en cuatro ámbitos, capacidad legal para impedir despliegues peligrosos, reversión de lanzamientos. Mientras tanto, su propio modelo estrella cae antes de que acabe la semana de promoción gratuita en planes Pro y Max.

Perdona, pero no cuadra. No puedes pedir regulación dura al Estado y simultaneamente comercializar la clase Mythos como si los filtros fueran una barrera seria. Fable 5 cuesta el doble que Opus 4.8 en API —10 dólares por millón de tokens de entrada frente a 5— y promete mejoras brutales en coding agentic. Eso mueve dinero. Mueve integraciones. Mueve equipos de desarrollo que confían en que «Anthropic ya pensó en la seguridad». Lo que mueve poco es la humildad técnica.

En foros y medios en inglés la conversación va por delante: no se debate tanto si el jailbreak es posible — eso ya lo sabíamos — sino si tiene sentido seguir vendiendo mitos de contención cuando el modelo base existe, Mythos 5 circula en canal restringido y cualquier cadena multi-paso convierte la política de uso en papel mojado. La pregunta incómoda es si el producto comercial es Fable 5 o es la promesa de que alguien más se encargará del riesgo.

Para quien monta webs, automatiza soporte o genera código en producción, esto no es chisme de laboratorio. Si integras un LLM en tu stack, heredas su superficie de ataque y sus fallos de alineamiento. No basta con leer el SLA. Hay que asumir que un modelo capaz de escribir un plugin de WordPress también puede ser empujado fuera de carril con técnicas que tu equipo no va a detectar en el log de la API. Y si el proveedor responde con «hemos activado más classifiers», tú sigues siendo responsable ante tu cliente cuando algo se filtre o se genere contenido prohibido en tu dominio.

Lo irónico es que hace apenas unos días en ticweb ya comentábamos que Fable 5 actuaba como router hacia Opus. Este episodio confirma la sospecha, pero empeora el diagnóstico: no es solo que te bajen de modelo cuando toca; es que toda la arquitectura de salvaguardas es negociable con ingeniería social algorítmica. El mercado pide potencia. Anthropic entrega potencia envuelta en disclaimers. El mercado aplaude los benchmarks. Un investigador demuestra que los disclaimers no aguantan un fin de semana.

No digo que debamos parar el desarrollo. Digo que dejemos de fingir que la capa comercial de seguridad es un substituto de gobernanza real en tu proyecto. Etiqueta outputs, limita permisos, no des al LLM acceso a credenciales, revisa lo que sale hacia usuarios finales. Y desconfía de quien te vende «el modelo más seguro del mercado» el martes y el jueves aparece en portada por lo contrario.

Si mañana tu proveedor de IA te ofreciera Fable 5 integrado en tu panel de hosting con un 15% de descuento, pero sin garantías contractuales cuando un jailbreak genere contenido ilegal desde tu dominio, ¿firmarías el contrato o esperarías a ver quién paga la multa primero?

Fuentes

Publicaciones relacionadas: