Naturaleza de los Modelos Grandes de Lenguaje (LLM) y su incompatibilidad con la figura de «Fuente de Acceso Público» en la reforma de 2025. Parte 2.

5–8 minutos

A lo largo de este documento, desglosaremos la influencia de los precedentes europeos del Comité Europeo de Protección de Datos (EDPB) emitidos en abril de 2025, y los riesgos de responsabilidad proactiva que enfrentan las empresas mexicanas al integrar estas tecnologías.

1. El problema de la procedencia ilícita

La reforma de 2025 pone un énfasis especial en la licitud del origen de los datos. El Artículo 3 fracción XI (definición de Fuente de Acceso Público) excluye explícitamente aquellos repositorios cuya información tenga «procedencia ilícita».4 Este es el punto de mayor fricción para los LLM.

1.1 La naturaleza jurídica del Web Scraping

El entrenamiento de modelos como GPT-4 o Llama 3 se basa en datasets masivos como Common Crawl, que recorren la web indexando y copiando todo lo accesible. Sin embargo, «accesible» no significa «libre de derechos» ni «libre para tratamiento».

Violación de Términos de Servicio: La inmensa mayoría de las plataformas sociales (Facebook, LinkedIn, X, Instagram) prohíben expresamente en sus T&C el uso de crawlers, spiders o scrapers automatizados sin permiso escrito.

Consecuencia en México: Al violar los T&C, el acceso y copia de esos datos se convierte en un ilícito civil (incumplimiento de contrato) y potencialmente en un acceso no autorizado a sistemas informáticos. Bajo la nueva ley, esta ilicitud de origen contamina todo el dataset.

Expectativa de privacidad: El usuario que publica una foto en Instagram tiene una expectativa de privacidad acotada a su red de seguidores o a la plataforma, no una expectativa de que su biometría facial sea procesada por una empresa tercera para entrenar vigilancia algorítmica. Romper esta expectativa viola el principio de licitud y lealtad.

1.2 El Precedente del Garante Italiano (2023-2025)

La autoridad de protección de datos de Italia (Garante) proporcionó la hoja de ruta legal que ahora resuena en la legislación mexicana. En sus acciones contra OpenAI, el Garante estableció que:

  1. No existía base legal para la recolección masiva de datos.
  2. La empresa no pudo demostrar haber informado a los usuarios (violación del deber de información).
  3. Los datos eran inexactos (violación del principio de calidad).

Estos argumentos son directamente trasladables al contexto mexicano. Si un LLM opera en México procesando datos de ciudadanos mexicanos sin haberles notificado (Aviso de Privacidad) y sin haber obtenido su consentimiento, está operando en la ilegalidad. La defensa de «estaban en internet» se desmorona ante la exigencia de «disposición legal» de la fuente.

2. Derechos ARCO

Un argumento definitivo para descalificar a los LLM como fuentes de acceso público es su incompatibilidad técnica con los derechos fundamentales de los titulares, específicamente los derechos ARCO (Acceso, Rectificación, Cancelación y Oposición), reforzados en la reforma de 2025.1

2.1 La imposibilidad de la rectificación

La ley otorga al ciudadano el derecho a rectificar datos inexactos.

  1. Escenario: Un LLM «alucina» que el ciudadano X fue condenado por fraude en 2010.
  2. Problema: En una base de datos SQL, el administrador edita el registro. En un LLM, el «dato» está disperso en millones de parámetros numéricos. No existe un botón de «editar».
  3. Retraining vs. RAG: La única forma de corregir el modelo base es reentrenarlo (costoso e impráctico para casos individuales) o usar técnicas de RAG (Retrieval Augmented Generation) para suprimir la salida.
  4. Conclusión Legal: Una «fuente de acceso público» debe garantizar la integridad y rectificabilidad del dato. Si el sistema no permite técnicamente el ejercicio pleno del derecho de Rectificación, no puede gozar del estatus privilegiado de fuente pública.

2.2 El Derecho de Cancelación

La cancelación implica el cese del tratamiento. Si un usuario pide que sus datos sean eliminados del entrenamiento, el proveedor enfrenta el desafío técnico de «desaprender» (machine unlearning). Hasta la fecha, esto es un problema abierto de investigación. La persistencia del dato contra la voluntad del titular y la incapacidad técnica de garantizar su eliminación efectiva violan los principios de finalidad y proporcionalidad de la ley.

3. Análisis de riesgos sectoriales y casos de uso

La aplicación de esta interpretación restrictiva tiene consecuencias inmediatas para diversos sectores de la economía mexicana.

3.1 Sector Financiero y Fintech

Los bancos utilizan IA para scoring crediticio y prevención de fraude Know Your Customer (KYC).

Riesgo: Alimentar sistemas de KYC con búsquedas automatizadas en LLMs para detectar «noticias negativas».

Impacto: Si el banco deniega un crédito basado en una alucinación del LLM, y no puede probar que la información provino de una fuente lícita y verificable (ej. lista oficial del SAT o boletín judicial), enfrenta sanciones por tratamiento de datos inexactos y discriminación algorítmica.

3.2 Recursos Humanos y reclutamiento

El uso de herramientas que «agregan» perfiles de candidatos desde la web.

Riesgo: Tratar perfiles de redes sociales como públicos.

Impacto: La nueva ley exige consentimiento para el tratamiento de datos que no sean estrictamente necesarios. La «investigación social» automatizada sin permiso viola la expectativa de privacidad y el principio de minimización de datos.

3.3 Marketing y publicidad

La generación de leads mediante IA.

Riesgo: Usar LLMs para inferir correos electrónicos o preferencias de consumo.

Impacto: El marketing directo requiere consentimiento o una relación jurídica previa. Inferir datos de contacto mediante IA constituye una obtención ilícita si no media voluntad del titular.

4. Secretaría de Anticorrupción y Buen Gobierno

Es crucial dedicar un apartado al nuevo árbitro. La Secretaría de Anticorrupción y Buen Gobierno asume un rol híbrido: es juez administrativo y parte del gobierno federal.

4.1 Potenciales Conflictos de Interés

El Artículo 3 de la ley menciona la «seguridad nacional» como límite a los derechos. Existe el riesgo de que la Secretaría sea laxa con el uso de LLMs por parte de entidades gubernamentales (inteligencia, seguridad) bajo estas excepciones, pero extremadamente rigurosa con el sector privado.

Esto crea un terreno de juego desigual donde el «Estado Vigilante» puede usar tecnologías que al «Sector Privado» le son restringidas bajo el argumento de protección de datos.

4.2 Procedimientos de Verificación

La ley faculta a la Secretaría para iniciar verificaciones de oficio.

Escenario 2026: La Secretaría podría lanzar una campaña de auditoría a empresas de marketing digital, exigiendo la «trazabilidad» de sus bases de datos.

Defensa fallida: Alegar que «ChatGPT me dio los datos» será equivalente a una confesión de incumplimiento, dado que se habrá admitido el uso de una fuente no validada legalmente.

5. Conclusiones y Recomendaciones Estratégicas

Bajo la Nueva Ley Federal de Protección de Datos Personales en Posesión de los Particulares (2025), los Modelos Grandes de Lenguaje (LLM) NO califican como fuentes de acceso público.

Esta determinación se fundamenta en:

  1. Ausencia de mandato legal: No existe norma que los constituya como registros públicos.
  2. Vicio de Ilicitud: Su alimentación vía scraping viola términos contractuales y expectativas de privacidad, activando la cláusula de exclusión de la ley.
  3. Naturaleza probabilística: Carecen de la integridad y fidelidad requeridas para dar certeza jurídica como fuente.

Apéndice A: Tabla de riesgos y sanciones 

InfracciónDescripciónNivel de RiesgoSanción Potencial
Recolección engañosaUsar datos de LLM ocultando su origen.AltoMultas agravadas.
Tratamiento sin consentimientoProcesar datos personales inferidos por IA.CríticoMultas máximas + Bloqueo de datos.
Incumplimiento de calidadTomar decisiones basadas en alucinaciones.Medio-AltoMultas y responsabilidad civil.
Falta de Aviso de PrivacidadNo informar sobre el uso de IA.AltoSanciones administrativas.
Marco Antonio Pérez Alcalde

Socio Fundador de MIRAI Abogados y líder del grupo de práctica en Banca, Financiero y Fintech.

Con 25 años de experiencia asesora a bancos, fintechs y plataformas tecnológicas en regulación financiera, innovación legal y transacciones de alto impacto.

Prácticas: Derecho Bancario y Financiero; Fintech; Legaltech y Regtech; Financiamientos; Derechos del Consumidor.

Deja un comentario

Descubre más desde MIRAI Noticias

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo