Por qué traducir ChatGPT no arregla nada: los prejuicios culturales que tu IA ya está metiendo en la web

La semana pasada, en el XVII Congreso Mexicano de Inteligencia Artificial, Nitesh Chawla soltó una frase que me resuena desde que la leí en Yahoo Noticias: si no sabemos definir qué es la responsabilidad en IA, ¿cómo vamos a pedirle a un algoritmo que la optimice? Suena obvio, pero en el día a día de proyectos web casi nadie lo aplica.

Yo llevo años viendo lo mismo en pymes y agencias: se integra un chatbot, se conecta un asistente a la base de conocimiento, se automatiza el copy de fichas de producto… y todo con modelos entrenados mayoritariamente en inglés y en normas culturales occidentales. Chawla no estaba filosofando en abstracto. Estaba describiendo lo que ya te está pasando si usas ChatGPT, Gemini o Llama para atender clientes en español.

El ejemplo que más me impactó no fue el de sesgo de género en predicciones salariales —ese ya lo habíamos oído mil veces— sino el de la mujer keniana que le dijo al chatbot, en su lengua, que «su bebé no está en juego». Expresión idiomática para complicaciones en el embarazo. El modelo le recomendó juguetes. Ahí no falló la traducción: falló la sensibilidad cultural. Y si crees que eso no te afecta porque tu web está en castellano peninsular o latinoamericano, piénsalo otra vez.

Chawla lo dejó claro: en América Latina las variantes del español no son cosméticas. Lo que en México suena natural puede resultar incomprensible u ofensivo en Chile, Argentina o España. Los LLM actuales no capturan esa granularidad porque no fueron diseñados para ella. Fueron diseñados para escalar en inglés. El español llegó después, como capa de barniz.

¿La solución del mercado? Traducir. Localizar prompts. Meter un «responde en español de México» en la instrucción del sistema. Eso es lo que venden muchas integraciones de IA en ecommerce y CMS. Y es exactamente lo que Chawla descarta: «No basta con traducir ChatGPT; hay que construir modelos que entiendan la realidad de cada comunidad». Su laboratorio trabaja con países latinoamericanos —mencionó Chile entre otros— en modelos culturalmente localizados. Mientras tanto, tu tienda WooCommerce sigue usando la misma API genérica que un negocio en Texas.

Lo que me parece más incómodo es la paradoja técnica que planteó. Los modelos optimizan precisión, minimizan pérdida, maximizan engagement. Pero equidad, inclusión cultural o interpretabilidad no entran en esa función objetivo. Propone arquitecturas como Fair Mixture of Experts, donde eliges si priorizas precisión o comprensibilidad según el caso. Suena bien en un paper. En producción, el cliente quiere la respuesta más rápida y barata, no el «presupuesto de interpretabilidad».

Y aquí viene lo que casi nadie dice en los posts de «IA responsable» que inundan LinkedIn. En sectores regulados —créditos, seguros, salud— los modelos tienen que ser auditables. Chawla citó que en EE.UU. los scoring crediticios llevan décadas sin cambiar porque la ley exige explicabilidad total. Las cajas negras tipo GPT están vetadas ahí. Pero en marketing digital, atención al cliente y generación de contenidos web no hay esa barrera. Metes un LLM, mides conversiones, y si alguien se queja de una respuesta discriminatoria, culpas al prompt o al «caso aislado».

Los datos lo confirman más allá de la anécdota. Investigaciones como el trabajo sobre daños encubiertos y amenazas sociales en conversaciones generadas por LLM muestran que estos modelos expresan visiones extremas con lenguaje aparentemente neutro, especialmente con conceptos no occidentales. No es que el chatbot te insulte directamente; es que refuerza suposiciones sin que tu moderador de contenidos las detecte. Si alimentas tu FAQ automática, tus emails transaccionales o tus descripciones de producto con ese output, el sesgo se cuela en la capa visible de tu marca.

Chawla también mostró proyectos donde sí se hace bien: un modelo entrenado solo con testimonios de la Comisión de la Verdad de Colombia, que hablaba de comunidades indígenas y víctimas LGBTQ+ con detalle que GPT-4 no alcanzaba; o la digitalización del Hospital Infantil de México, integrando datos clínicos con determinantes sociales. Son casos con datos propios, contexto propio, objetivos propios. No es escalar un endpoint de OpenAI con un system prompt de cuatro líneas.

¿Y la responsabilidad? Chawla la plantea como en bioética: no hacer daño y maximizar el bien, sabiendo que chocan. Pero admite que en IA aún no conocemos todos los efectos secundarios. La comparación con las redes sociales duele porque es cierta: nadie advirtió a tiempo, y ahora hablamos de epidemia. ¿Estamos repitiendo el patrón con los chatbots corporativos? Yo creo que sí, solo que esta vez el daño no es el doomscrolling sino respuestas incorrectas en salud, exclusiones silenciosas en recomendaciones de producto o tonos que alejan a clientes de regiones que tu negocio dice querer atender.

Lo que más me irrita del discurso comercial es la palabra «responsable» pegada a cualquier widget de IA. Responsable para quién, con qué métricas, con qué auditoría. Chawla lo dijo sin rodeos: la responsabilidad compartida suele significar que nadie es realmente responsable. El desarrollador culpa al usuario, el usuario culpa al proveedor, el proveedor culpa al modelo base. Mientras tanto, tu web publica contenido generado que nadie ha revisado con criterios culturales ni legales.

No te voy a decir que abandones la IA generativa. Sería hipócrita viniendo de quien la usa. Pero sí que dejes de tratarla como traductor glorificado. Si tu audiencia es latinoamericana, necesitas validación humana por mercado, no un prompt que diga «sé inclusivo». Si usas IA en textos sensibles —salud, menores, finanzas— necesitas trazabilidad y límites claros, no la versión Pro del chatbot porque responde más rápido. Y si alguien te vende «IA ética» sin decirte qué dataset local usa, qué sesgos midió y quién firma si sale mal, está vendiendo humo con PowerPoint.

Chawla trabaja desde el Lucy Family Institute for Data & Society en la intersección entre algoritmos e impacto social. No es un influencer de LinkedIn. Es alguien que construye alternativas concretas mientras el mercado sigue empaquetando la misma API para todo el planeta. La pregunta no es si los modelos tienen sesgo; eso ya está demostrado. La pregunta es si tú, que publicas en una web real con clientes reales, vas a seguir asumiendo que español es español y que la IA «ya lo entiende todo».

Si mañana un cliente de Sevilla recibe una respuesta generada por tu chatbot que suena perfecta gramaticalmente pero usa modismos mexicanos que le chirrian, o peor, que minimiza un problema porque el modelo no captó el contexto cultural de su consulta, ¿tendrías forma de detectarlo antes de que se convierta en una queja pública o en una devolución?

Fuentes

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Scroll al inicio