El 4 de junio, KT presentó XL-SafetyBench, un benchmark multilingüe con 5.500 casos de prueba repartidos en diez países —Corea del Sur, Estados Unidos, Alemania, Japón, Turquía, Emiratos Árabes Unidos y otros— para medir si los modelos de lenguaje entienden normas sociales y sensibilidades culturales locales. Suena bien. Suena necesario. Y, en mi experiencia, suena exactamente al tipo de anuncio que el sector usa para decir «estamos arreglando el problema» mientras tu chatbot sigue respondiendo como un becario de Nebraska traducido al español con Google Translate.
La propia investigación detrás del benchmark, publicada en mayo de 2026, deja dos datos incómodos sobre la mesa. Primero: la robustez frente a jailbreaks y la conciencia cultural no van de la mano en los modelos frontier; puedes tener uno muy seguro y otro muy torpe con el contexto local. Segundo: los modelos «locales» muestran una correlación casi lineal entre rechazar ataques y fallar en peticiones neutras (r = -0,81), lo que sugiere que a veces no están alineados de verdad, sino que simplemente no entienden lo que les pides.
KT lo ha empaquetado con cifras llamativas —37 LLMs evaluados, código abierto en Hugging Face y GitHub— y la prensa coreana lo ha vendido como un avance en seguridad cultural de la IA. Yo no lo niego: es un avance metodológico. Lo que me molesta es lo que no viene después.
Porque esto no es nuevo. Nitesh Chawla, director del Lucy Family Institute for Data and Society en Notre Dame, lleva meses advirtiendo —recogido por El Economista— de que ChatGPT, Gemini, Llama y compañía perpetúan prejuicios culturales y de género porque se entrenan mayoritariamente con datos en inglés y, sobre todo, con las normas culturales que ese inglés arrastra consigo. No es sólo el idioma: es la perspectiva. Chawla lo demostró con un experimento sencillo y demoledor: mismo perfil profesional, distinto género, y el modelo asumía salarios más altos para el caso masculino. Incluso cuando quitaban el género de la pregunta, el sistema infería hombre a partir de la idea de alto ingreso.
XL-SafetyBench añade precisión a ese diagnóstico. Mide tres cosas —tasa de éxito de ataques, tasa de respuestas seguras en contextos neutros y tasa de sensibilidad cultural— y demuestra que la misma expresión puede ser inofensiva en un país y explosiva en otro. Perfecto para investigadores. ¿Y para ti, que tienes un WooCommerce en Valencia y acabas de conectar un asistente de IA al chat de atención al cliente?
Aquí es donde la conversación se desconecta del mercado real.
Las pymes no contratan benchmarks. Contratan plugins, APIs y promesas de «respuestas en 47 idiomas». Nadie en el proceso de venta te enseña el gráfico de correlación ASR-NSR. Te enseñan una demo donde el bot responde amablemente sobre plazos de envío. Y cuando el modelo mete la pata con un cliente mexicano, turco o andaluz —porque interpreta un modismo, un tono o una referencia cultural con lentes anglosajonas—, la culpa cae sobre ti: «deberías haber revisado el prompt».
Lo irónico es que la industria responde a cada escándalo de sesgo con más herramientas de medición. CultureLens cuantificó el sesgo de posicionamiento cultural. Ahora XL-SafetyBench lo hace con prompts adversariales y sensibilidades embebidas. Mañana vendrá otro. El patrón es el mismo que vi con la accesibilidad web durante años: métricas, informes, certificaciones… y las tiendas siguen sin contraste suficiente en el botón de compra.
¿Qué falta? Tres cosas que ningún comunicado de KT menciona.
Datos de entrenamiento localizados, no traducciones. Chawla lo dice claro: traducir un corpus occidental no arregla la cosa. Hace falta integrar contextos regionales en el entrenamiento, no pegarlos encima con fine-tuning de última hora. Eso cuesta dinero y tiempo. Por eso no se hace a escala.
Transparencia en el despliegue comercial. Si un modelo falla en sensibilidad cultural para España o México —países que ni siquiera están entre los diez del benchmark inicial—, ¿deberías poder saberlo antes de activarlo en producción? Hoy no. El proveedor te da una API key y un límite de tokens.
Responsabilidad operativa compartida. Cuando el chatbot ofende a un cliente, el contrato SaaS te deja solo. Tú eres el responsable del tratamiento de datos, de la imagen de marca y, si acaso, de una demanda. El fabricante del modelo publica un paper en arXiv y sigue cobrando suscripción.
Me preocupa especialmente el ángulo español. España no aparece en la lista de países de XL-SafetyBench. Tampoco México, ni gran parte de Latinoamérica. Los investigadores advierten que los benchmarks traducidos desde el inglés no capturan daños específicos por país. Entonces, ¿por qué asumimos que los modelos que usamos en ticweb.es —en soporte, en generación de contenido, en emails automatizados— entienden nuestra cultura solo porque hablan español?
El español de Madrid no es el de Monterrey. El humor andaluz no es el de Buenos Aires. Y los modelos, cuando no tienen contexto, defaultean a cultura anglosajona: lo confirman estudios recientes de localización cultural con embeddings interpretables. No es conspiración; es estadística de entrenamiento.
No te digo que abandones la IA en tu web. Te digo que dejes de confiar en el etiquetado «multilingüe» como garantía cultural. Si usas un asistente para atención al cliente, prueba escenarios incómodos antes de producción: modismos regionales, referencias a festividades locales, preguntas sobre devoluciones en contextos donde el tono importa tanto como la política. Si usas IA para redactar posts, revisa manualmente cualquier cosa que huela a consejo genérico importado — ese «simply reach out to our team» traducido literal es la señal de alarma.
XL-SafetyBench es útil. De verdad. Pero es un termómetro, no un antibiótico. Y el sector lleva años vendiendo termómetros mientras la fiebre sigue. Hasta que OpenAI, Google, Anthropic o quien sea publique no solo cuánto sesgo tiene su modelo, sino qué hacen para corregirlo en la versión que tú pagas el mes que viene, seguiremos en la misma conversación: alertas académicas, benchmarks nuevos, y tu chatbot respondiendo como si todos los clientes vivieran en Silicon Valley.
Si mañana activas un chatbot con IA en tu tienda online y el proveedor te garantiza «soporte en español» pero no puede enseñarte cómo le fue en sensibilidad cultural para tu mercado concreto, ¿lo desplegarías igual o exigirías ver los resultados del benchmark antes de pagar la suscripción anual?
Fuentes
- KT Develops Multilingual Benchmark to Test AI’s Cultural Sensitivity – Seoul Economic Daily
- XL-SafetyBench: A Country-Grounded Cross-Cultural Benchmark for LLM Safety and Cultural Sensitivity – Microsoft Research
- ChatGPT y otros modelos de IA reproducen prejuicios culturales: Nitesh Chawla – El Economista
