Quizá esta semana hayas caído otra vez en el bucle de lanzar prompts a ChatGPT o a Gemini esperando algo “neutral”. Yo lo hago igual. Y justo después me acuerdo de lo que explicaba Nitesh Shawla —en la cuenta de Yahoo Noticias sobre su conferencia en el XVII Congreso Mexicano de Inteligencia Artificial— cuando plantea algo incómodo: hablamos como si la IA generativa viniera etiquetada con “sentido común global”, cuando en realidad arrastra inglés público como suma lingüística y cultural. No es sólo vocabulario que importa ahí dentro: son juicios sobre qué problema es válido, qué ejemplo es imaginable y hasta qué broma no suena bien.
Shawla, citado desde el campus donde pronunció la charla, insiste en la paradoja de intentar codificar responsabilidad en una función objetivo cuando las matemáticas optimizan lo que sí es medible. “Los modelos optimizan métricas como precisión, pero no sabemos cómo optimizar equidad o inclusión cultural”, resume la pieza que recoge sus palabras para Yahoo. Es la frase tipo que te suena plausible en pantalla hasta que llevas ese asunto a soporte cliente, contenidos médicos sensibles o un formulario hipotecario. Ahí necesitas algo más que probabilidades.
Lo más útil para mí como lector tecnico fue el ejemplo granular del artículo: una usuaria keniana usando un chatbot con una expresión idiomática sobre un embarazo complicado. El modelo, sin capa cultural, acabó recomendando juguetes. Da risa sólo porque es terrorífico cuando lo extrapolas a automatizar textos sanitarios desde una oficina en Dublín o Palo Alto. Yo lo llevo aplicado al español también: lo que vale en México no siempre vale en Sevilla ni en Buenos Aires, y no lo arreglas con un “traducir página” cosmético.
Cuando el equipo legal sí lee pero el modelo no revisa país
Del mismo texto de Yahoo recupero otro episodio del laboratorio que Shawla menciona sobre predicciones de ingresos sólo tocando género como variable. Igual entrada lógica, distinto pronóstico, y después el modelo se refugia en patrones estadísticos sin interrogarse. Eso nos recuerda a lo que están midiendo otros equipos desde la academia más allá del titular de conferencia.
Por ejemplo, un trabajo reciente en Nature Scientific Reports (publicado los días cercanos en que escribimos esto) analiza cómo grandes modelos de lenguaje muestran sesgo por estereotipo asociando rasgos repetidos con grupos demográficos y también sesgo por desviación: la distribución de atributos sugeridos por el modelo no refleja el mundo que pretende hablar (Wang et al., 2026). Yo no lo cites para asustar ni para pedir veto a la tecnología —soy el primero que la usa cada mañana— sino porque justifica revisar tus flujos: si clasificas consultas sin supervisión humana suficiente, estás legitimando ese patrón en tu marca.
Ya teníamos estudios multidimensionales sobre sesgos culturales en decisiones de ChatGPT antes de esta ola de titulares (Luo et al., 2024 miden valores culturales y tareas económicas simuladas y describen clichés claros cuando el modelo encarna ciudadanos imaginarios según país). La lección combinada para quien mueve proyectos corporativos con web detrás es simple pero desagradable: no esperes que tu copia “localizada por prompt” cure la raíz del problema. Hace falta proceso, muestras reales desde tu público y políticas escritas antes que modas de modelo.
La responsabilidad compartida que nadie firmó por correo electrónico
Shawla acaba lanzando algo que llevo oyendo años en otros sectores cuando cae el recurso cómodo de responsabilidades difusas. Si la IA es producto conjunto entre fabricante, integrador y usuario final ¿quién tiene el KPI de discriminación inadvertida cuando el chatbot equivoca país o género?
Yo trabajo con pymes desde hace suficiente para saber que la respuesta habitual es “nadie”: el proveedor SaaS tiene cláusula, el equipo interno tiene prisa, el freelancer que montó WooCommerce esperó el siguiente encargo sin documentar límites. El marco conceptual de Shawla sirve porque no pinta fantasía transhumanista ni regulación vapuleada: sirve porque te fuerza a formular mejor qué problema quieres solucionar con ML en tu proyecto web antes de hacerlo.
Insisto: no voy a predicar abstinencia. Vengo a predicar chequeo antes de lanzar automatización al canal que te genera datos personales más sensibles cada trimestre. Si metes modelo sin auditar comportamiento ante variantes locales de idioma vas a tener un escándalo menor que igual te cuesta caro en soporte cuando no llega ningún juicio público detrás.
Si llevas soporte automatizado donde el sistema infiere ocupación ingresos estado familiar o ubicación ¿que checklist publicarías antes de cada cambio mayor de modelo para asegurarte de que tus clientes no arrastran estereotipos que tu negocio jamás firmaria en un papel interno?
Fuentes
- ChatGPT y otros modelos de IA reproducen prejuicios culturales (Yahoo Noticias / declaraciones de Shawla en el XVII Congreso Mexicano de Inteligencia Artificial)
- Wang et al.: Measuring stereotype and deviation biases in large language models (Scientific Reports, 2026)
- Luo et al.: The high dimensional psychological profile and cultural bias of ChatGPT (arXiv, 2024)
