El 6 de mayo de 2026 el ecosistema de privacidad canadiense publicó las conclusiones de una investigación conjunta sobre OpenAI y ChatGPT. Los titulares en medios como CBC News y el despacho EFE recogido por Infobae coinciden: el entrenamiento inicial incumplió normas federales y provinciales, y la empresa lanzó el producto sin abordar del todo riesgos que ya eran conocidos. El comunicado institucional del Office of the Privacy Commissioner of Canada cierra el expediente “condicionalmente” porque OpenAI ha aceptado medidas correctivas. Yo no te voy a vender la moto: eso es un mecanismo clásico de enforcement con timetable y reporting, no una absolución de cortesía.
Si trabajas con clientes que te piden “un chat con IA”, “un agente” o “fine-tuning con lo que ya tenemos en el CRM”, este caso te importa más que la última comparativa de modelos. Porque aquí no se debate si GPT es listo o no; se debate si recopilar montañas de datos personales desde la web pública, foros y redes, entrenar con ellos y luego ofrecer un servicio que inventa o tergiversa datos sobre personas cumple un estándar mínimo de consentimiento, transparencia y control de acceso. El informe subraya, entre otras cosas, recopilación excesiva, consentimiento dudoso, límites flacos para que la gente acceda o corrija información sobre sí misma y una rendición de cuentas que los reguladores consideran insuficiente para lo sensible que es el inventario tratado (incluida información sobre menores e ideología, según el relato periodístico).
¿Qué es lo que no te cuadrará si solo lees el marketing de las APIs? Que el relato “todo es público en internet y por tanto libre” se cae a trozos cuando un comisionado de privacidad mira debajo del capó. Canadá no ha inventado máquina nueva: PIPEDA y la legislación provincial ya aplicaban; lo que cambia es la evidencia de que el modelo de captura agresiva choca con marcos que exigen proporcionalidad y remedios reales. Es la misma tensión que en Europa llevas viendo con el AI Act y con discusiones sobre scraping, pero con un tono más forense y menos panfletario.
La parte de “ahora ya está arreglado” también merece pinzas. OpenAI se compromete a herramientas de detección y enmascaramiento en datasets, políticas formales de retención y borrado, avisos más claros y reporting trimestral. Suena bien en un comunicado; en la práctica, si eres proveedor o integrador, vas a heredar preguntas incómodas: ¿quién audita esos filtros?, ¿qué define “dato personal” en un corpus mezclado?, ¿cómo demuestras el consentimiento válido cuando el usuario solo pinchó “acepto” sin leer?, ¿qué pasa con el fine-tuning sobre datos que el cliente considera “suyos” pero que incluyen comentarios de terceros? El documento canadiense no te va a dar un checklist copy‑paste para WooCommerce, pero sí te advierte de que el estándar probatorio se está moviendo hacia arriba.
Hay otro matiz que en mi opinión el debate técnico suele esconder: la fricción entre innovación y salvaguardas no se resuelve con más GPUs. Se resuelve con gobernanza, trazabilidad y límites de uso por fases, cosas que en muchos proyectos web siguen figurando en el presupuesto como “luego”. Cuando un regulador exige acceso, corrección o eliminación y tu pipeline de entrenamiento está construido como una esponja sin versión, tienes un problema de arquitectura que ningún plugin va a tapar.
Esto te pega especialmente si facturas por manitas: muchas pymes asumen que “el modelo está en Estados Unidos o en Canadá y ya está”. El informe canadiense te recuerda que la territorialidad del cómpute importa menos que el hecho de tratar información sobre personas en un marco concreto. No hace falta ser abogado para entender la lección operativa: separar entornos, documentar finalidades y dejar claro qué prompts o datasets alimentan qué versión del sistema. Si eso no está en el backlog, estás vendiendo humo con fecha de caducidad.
Yo no te digo que dejes de usar modelos comerciales; te digo que dejes de venderlos como “sin datos personales por definición”. Esa etiqueta caduca en cuanto el primer cliente te pase conversaciones de usuarios o logs con emails rondando. El caso canadiense es un recordatorio en fecha y con nombre propio: el entrenamiento masivo sin consentimiento claro ya no se considera un detalle de compliance para el departamento legal, es el centro del asunto.
Si te planteas tu roadmap de aquí a fin de año, incluye revisar bases legales, minimización y retención antes de aceptar proyectos donde el valor está en “meter todo al modelo”. No es paranoia; es alinearse con lo que ya están escribiendo los reguladores en comunicados oficiales y no solo en Twitter.
Si mañana tu cliente te exigiera una trazabilidad equivalente a la que OpenAI debe demostrar ante Ottawa con informes trimestrales, ¿tendrías los registros, el DPA y el mapa de datos para no quedarte en pañales?
Fuentes
- News release: Joint investigation by Canadian privacy regulators into OpenAI’s ChatGPT (Office of the Privacy Commissioner of Canada)
- OpenAI didn’t respect Canadian privacy law when it trained ChatGPT: investigation (CBC News)
- OpenAI incumplió la legislación canadiense al entrenar a ChatGPT con datos personales (Infobae / EFE)
