Google DeepMind tiene miedo de sus propios agentes (y el plan de 10 millones no me tranquiliza)

Editor WP-CLI

hace 2 meses

Ayer leí en MIT Technology Review que Google DeepMind ha sacado 10 millones de dólares para estudiar qué pasa cuando millones de agentes de IA empiezan a interactuar entre sí sin que nadie los supervise. Y lo primero que pensé no fue «qué responsables son», sino «vaya, otra vez el mismo guion».

Porque hace un mes Google I/O era un desfile de agentes: el tuyo que reserva mesas, el que negocia con el de otro, el que comprueba precios mientras tú miras otra cosa. Todo muy futurista, todo muy útil. Y ahora, dos semanas después, la misma empresa anuncia que necesita financiar investigación para entender los riesgos de que esos agentes hablen entre ellos a escala masiva. Perdona, pero ¿no era obvio desde el primer slide del keynote?

Rohin Shah, que dirige la investigación de alineación y seguridad en AGI en DeepMind, lo dice con claridad: cuando tienes millones de agentes siguiendo instrucciones de otros agentes, aparecen escenarios de fraude, inyección de prompts y ciberataques que no puedes predecir estudiando un solo modelo en un laboratorio. Tiene razón. Lo que me choca es el timing. Primero vendes la utopía agentica al mercado entero y luego pides una bolsa de 10 millones para simular el apocalipsis en un sandbox.

Diez millones suena a mucho hasta que lo comparas con lo que Google invierte en infraestructura de IA al año. Es una línea de presupuesto. Schmidt Sciences, ARIA, Google.org y la fundación Cooperative AI se suman al esfuerzo, lo cual da un barniz multilateral muy bonito, pero no cambia la dinámica: quien fabrica el producto también financia el estudio de sus riesgos. ¿Te suena a conflicto de intereses? A mí sí, aunque reconozco que sin ese dinero la investigación independiente iría aún más lenta.

Lo que propone DeepMind es meter agentes en entornos simulados y ver qué hacen cuando escalan. Shah y su colega Fox insisten en que no puedes extrapolar el comportamiento de un agente aislado al de millones conectados. Los LLM no actúan siempre de forma racional y la complejidad explota con cada interacción nueva. De acuerdo. Entonces explícame por qué el roadmap comercial va en la dirección opuesta: más agentes, más autonomía, menos fricción humana.

Aquí encaja otra noticia de esta misma semana. Un matemático del NIST, Apostol Vassilev, ha publicado una prueba en IEEE Security & Privacy que demuestra algo incómodo: para cualquier conjunto finito de guardarraíles, existe un prompt que los rompe. No es opinión, es demostración formal. Y fuera del NIST, datos de Stanford muestran que el fine-tuning evade guardrails en más del 50% de los casos en modelos como GPT-4o o Claude Haiku. OWASP ya lleva la inyección de prompts como riesgo número uno en su Top 10 de LLM.

Conecta los puntos. DeepMind quiere simular millones de agentes que se pasan instrucciones mutuamente. El NIST dice que cualquier filtro de seguridad tiene un agujero matemático garantizado. ¿En qué universo tiene sentido desplegar esto en producción antes de tener resultados de esas simulaciones? En el universo donde tu competidor ya ha anunciado agentes en el móvil y no puedes quedarte atrás en la carrera. La seguridad va detrás del marketing, como siempre.

Anthropic, por cierto, publicó hace unas semanas directrices de despliegue basadas en zero trust para agentes: asume que el agente es un atacante y que la brecha va a ocurrir. Curioso contraste. Una empresa advierte con modelos teóricos y la otra mete guardarraíles invisibles en Claude Fable 5 que luego tuvo que retirar a trompicones porque la comunidad de investigación se le echó encima. Si ni los propios laboratorios son transparentes con sus restricciones, ¿cómo confías en que un ecosistema de millones de agentes de terceros se va a autorregular?

Y mientras tanto, en Alemania un tribunal ha considerado a Google responsable de afirmaciones falsas en sus AI Overviews. Primera vez, según The Deep View, que una empresa responde legalmente por lo que dice su modelo. Un solo agente, una sola respuesta incorrecta, consecuencias reales. Multiplica eso por millones de agentes negociando contratos, moviendo datos entre APIs y tomando decisiones encadenadas. ¿Quién responde cuando el agente A le dice al agente B que el precio es X y el agente C ejecuta la compra con un dato alucinado?

En mi experiencia con pymes que quieren «automatizar con IA», el patrón se repite: entusiasmo inicial, integración rápida con algún agente de Zapier o Make, y cero protocolo para auditar qué hace el agente cuando recibe instrucciones de fuera. Nadie simula el escenario de un agente malicioso que le pasa un prompt envenenado al tuyo. DeepMind quiere hacer eso a escala global, pero tú no tienes 10 millones ni un sandbox de Google. Tienes un plugin conectado a tu CRM y la fe de que el proveedor ha puesto guardarraíles suficientes. Spoiler: matemáticamente no existen guardarraíles suficientes.

Nancy Wang, CTO de 1Password, lo resumió bien en Help Net Security: la validación adversarial tiene que entrar en el ciclo de CI/CD, no quedarse en un informe PDF que nadie lee. Cada actualización de modelo, cada cambio de prompt, cada reconfiguración de agente debería disparar una batería de ataques automáticos. Eso cuesta tiempo y dinero. Las pymes no lo hacen. Los grandes laboratorios dicen que lo harán… cuando terminen de lanzar la versión comercial.

El fondo de DeepMind no es malo. Investigar interacciones multi-agente antes del despliegue masivo es lo mínimo que deberían haber hecho hace dos años. Lo que me molesta es la narrativa: «estamos preocupados, por eso investigamos», mientras el producto ya está en manos de millones de usuarios. Es como vender coches autónomos y anunciar un concurso para estudiar los accidentes. El concurso puede salvar vidas, pero no quita que los coches ya circulan.

Si gestionas webs, tiendas o servicios online, esto no es ciencia ficción lejana. Los agentes ya reservan, comparan, redactan emails y ejecutan acciones en tu nombre. Cada API que conectas a un agente es una puerta más. Cada integración sin auditoría es una apuesta. Y la prueba del NIST te dice que la apuesta tiene un fallo estructural: siempre habrá un prompt que rompa la defensa.

¿Qué haría yo? Congelaría cualquier despliegue de agentes con permisos de escritura (compras, transferencias, cambios en producción) hasta tener logs auditables y pruebas adversariales periódicas. No me conformaría con el sello de «seguro» del proveedor. Y miraría con mucho escepticismo cualquier anuncio de ecosistema agentico que llegue antes de los resultados de esas simulaciones de DeepMind. Porque si los que lo construyen necesitan 10 millones para entender qué puede salir mal, tú con un chatbot conectado a WooCommerce no vas a ser la excepción.

Si mañana tu proveedor de hosting te ofreciera conectar un agente de IA con acceso total a tu WordPress a cambio de automatizar el 80% del mantenimiento, pero te dijera que nadie ha simulado qué pasa cuando ese agente recibe instrucciones de otro agente externo, ¿lo activarías antes de ver los resultados de esas simulaciones o esperarías aunque tus competidores ya lo tengan en marcha?

Fuentes

Publicaciones relacionadas: