Por qué los Modelos Grandes de Lenguaje (LLM) no son fuentes de acceso público bajo la reforma de 2025

10–15 minutos

La protección de datos personales en México ha experimentado una transformación durante el año 2025, marcada por la entrada en vigor de la Ley Federal de Protección de Datos Personales en Posesión de los Particulares (“LFPDPPP”). Este ordenamiento, publicado en el Diario Oficial de la Federación el 20 de marzo de 2025, redefine las fronteras entre la información pública, la privada y la procesable por sistemas automatizados. En el centro de este debate jurídico se encuentra una de las tecnologías más disruptivas del siglo XXI: los Modelos Grandes de Lenguaje (LLM, por sus siglas en inglés), cuya capacidad para captar, procesar y generar información ha desafiado las categorías jurídicas tradicionales.

La cuestión central que aborda este informe, y que constituye una preocupación existencial para el sector tecnológico, financiero y de servicios en México, es determinar si estos sistemas de inteligencia artificial entrenados con vastos corpus de datos extraídos de internet pueden ampararse bajo la excepción de «fuente de acceso público». La respuesta a esta interrogante determina si el tratamiento de datos personales por parte de herramientas como ChatGPT, Gemini o Claude requiere el consentimiento explícito de millones de ciudadanos o si, por el contrario, opera bajo una licencia tácita de publicidad.

Tras un examen de la nueva normativa, la doctrina internacional y la arquitectura técnica de los sistemas de IA, se concluye que los LLM no califican como fuentes de acceso público bajo el rigor de la reforma de 2025. Esta conclusión se deriva de tres factores determinantes introducidos o clarificados en la nueva legislación: la exigencia de un mandato legal expreso para la publicidad de la fuente, la exclusión categórica de datos de procedencia ilícita (lo que impacta directamente al web scraping), y la naturaleza probabilística, no de almacenamiento fiel, de los modelos generativos.

2. El Marco Normativo de 2025

Para comprender la interpretación restrictiva de «fuente de acceso público», se debe contextualizar el entorno político-jurídico en el que nace la LFPDPPP. La reforma no ocurre en el vacío, sino como parte de una reingeniería del Estado mexicano que busca centralizar el control administrativo y alinear la protección de datos con imperativos de soberanía digital y seguridad nacional.

2.1 La extinción del INAI y el ascenso de la Secretaría de Anticorrupción y Buen Gobierno

El cambio más tectónico de la reforma es la desaparición del Instituto Nacional de Transparencia, Acceso a la Información y Protección de Datos Personales (“INAI”) como órgano constitucional autónomo encargado de tutelar la privacidad en el sector privado. Sus funciones han sido absorbidas por la Secretaría de Anticorrupción y Buen Gobierno, una dependencia directa del Ejecutivo Federal.

Esta transferencia de competencias altera la naturaleza del regulador. Mientras que el INAI operaba bajo una lógica de derechos humanos y autonomía técnica, la nueva Secretaría integra la protección de datos dentro de una agenda más amplia de combate a la corrupción y gobernanza administrativa. Esto tiene implicaciones profundas para la interpretación de la ley:

Centralización del criterio: Es previsible que los criterios de interpretación se homologuen con las políticas digitales del gobierno central, reduciendo el margen para la autorregulación de la industria.

Politización de la sanción: La dependencia del Ejecutivo podría instrumentar las sanciones de protección de datos como herramientas de control corporativo, especialmente contra grandes tecnológicas transnacionales que operan LLMs.

Eliminación de la Secretaría de Economía: La reforma también elimina a la Secretaría de Economía como autoridad reguladora coadyuvante en la materia, lo que sugiere un enfoque menos orientado al comercio digital y más enfocado en el cumplimiento normativo estricto y la soberanía de los datos.

2.2 Estándares Internacionales y la «Supletoriedad»

A pesar de la centralización doméstica, la LFPDPPP mantiene y refuerza puentes con el derecho internacional. El Artículo 4 de la ley establece la aplicación supletoria del Código Nacional de Procedimientos Civiles y Familiares y de la Ley Federal de Procedimiento Administrativo, pero en la práctica sustantiva, la ley mira hacia Europa.

La redacción de los nuevos principios de «Responsabilidad Proactiva» y las definiciones de consentimiento reflejan una armonización con el Reglamento General de Protección de Datos (GDPR) de la Unión Europea y el Convenio. Esto es crucial porque permite a los juristas mexicanos retomar criterios de autoridades como el Garante italiano o el Comité Europeo de Protección de Datos (EDPB) para llenar lagunas interpretativas, especialmente en temas técnicos como la Inteligencia Artificial, donde la jurisprudencia nacional aún es incipiente.

3. Hermenéutica de la «Fuente de Acceso Público»

El corazón del conflicto jurídico reside en la definición reformada de «fuente de acceso público». Bajo la ley abrogada de 2010, la definición era lo suficientemente laxa para permitir interpretaciones aventuradas que equiparaban «disponible en internet» con «fuente de acceso público». La reforma de 2025 cierra esta brecha con una precisión quirúrgica, diseñada específicamente para contrarrestar la recolección masiva e indiscriminada de datos.

3.1 Análisis de los elementos constitutivos reformados

La nueva definición, contenida en el glosario de la ley y citada en los análisis jurídicos recientes, establece requisitos copulativos que elevan el estándar de publicidad. Analicemos cada componente:

3.1.1 El requisito de la «Disposición Legal»

La ley ahora define como fuentes de acceso público a «Aquellas bases de datos, sistemas o archivos que, por disposición legal, puedan ser consultadas públicamente…».

Esta adición de la frase «por disposición legal» es el punto medular para la pretensión de clasificar a los LLMs o a las redes sociales como fuentes públicas.

Interpretación: No basta con que el acceso sea factible tecnológicamente. Se requiere una norma jurídica (ley, reglamento, decreto) que ordene o autorice expresamente la publicidad de dicha base de datos para fines de consulta general.

Aplicación a LLM: No existe ninguna ley en el ordenamiento jurídico mexicano que mandata la creación de ChatGPT, Gemini o Llama como registros públicos; ya que son productos comerciales privados. Su accesibilidad deriva de una decisión de negocio de OpenAI, Google o Meta, no de un mandato soberano del Congreso de la Unión. Por tanto, fallan en el primer y más importante requisito.

3.1.2 La Ausencia de impedimento normativo

La definición continúa: «…sin que exista impedimento normativo».

Esto implica que el acceso debe ser libre de restricciones legales superiores. En el caso de datos personales expuestos en internet, a menudo existen impedimentos derivados de otras ramas del derecho, como el derecho a la propia imagen, el derecho de autor (que protege la fijación original de las ideas) o incluso normas penales sobre revelación de secretos.

Un LLM que ingiere datos protegidos por derechos de autor o datos sensibles expuestos indebidamente está operando sobre información que tiene «impedimentos normativos» para su libre reproducción, lo que descalifica al sistema como fuente de acceso público legítima.

3.1.3 Exclusión de ilicitud

Quizás la innovación más agresiva de la reforma de 2025 es la exclusión explícita: «No se considerará fuente de acceso público cuando la información contenida en la misma sea obtenida o tenga una procedencia ilícita, conforme a las disposiciones establecidas por la presente Ley y demás disposiciones jurídicas aplicables».⁴

Este punto tiene un efecto negativo para la industria del scraping. Si la información que nutre al LLM fue obtenida violando los Términos y Condiciones (T&C) del sitio web de origen (ej. LinkedIn, Facebook, X), o violando la expectativa razonable de privacidad del usuario, esa obtención se considera ilícita civilmente (incumplimiento contractual) o administrativamente (tratamiento desleal).

Si el input (entrada) es ilícito, el output (salida) no puede lavarse bajo la etiqueta de «fuente de acceso público». La ley mexicana adopta aquí una variante de la doctrina, la ilicitud en la recolección contamina la naturaleza pública de la base de datos resultante.

3.2 Tabla comparativa: Definición 2010 vs. Definición 2025

Para ilustrar la magnitud del cambio, presentamos el siguiente análisis comparativo:

Elemento	Ley Federal (2010 – Abrogada)	Nueva Ley Federal (2025 – Vigente)	Impacto en LLM
Criterio de publicidad	Disponibilidad al público y no confidencialidad.	Existencia por disposición legal expresa.	Bloqueante: Los LLM no son creados por ley.
Restricciones de origen	Ambigua sobre la procedencia.	Exclusión expresa de datos de procedencia ilícita.	Bloqueante: El scraping suele violar T&C.
Naturaleza del repositorio	Medios de comunicación, directorios, medios electrónicos.	Bases de datos, sistemas o archivos normados.	Restrictivo: Se cierra la lista a registros oficiales.
Carga de la prueba	Presunción de publicidad si estaba accesible.	Responsabilidad proactiva: El responsable debe probar la licitud.	Gravoso: La empresa debe demostrar origen lícito.

4. La realidad técnica de los LLM frente a la Ontología Jurídica

Para que un sistema sea regulado como «base de datos» o «fuente», el derecho debe entender su funcionamiento. Existe un debate vibrante en la comunidad legal y técnica sobre si los LLM «almacenan» datos personales o si simplemente procesan correlaciones estadísticas. Esta distinción ontológica es vital para la aplicación de la LFPDPPP.

4.1 La tesis de la no-retención

Diversos expertos y autoridades, como el Comisionado de Protección de Datos de Hamburgo (Alemania), han argumentado que los LLM no son bases de datos en el sentido tradicional.

Mecanismo: Los LLM descomponen el texto en «tokens» (fragmentos de palabras). Lo que el modelo retiene no es la frase «Juan Pérez vive en CDMX», sino una serie de vectores numéricos que representan la alta probabilidad de que, tras los tokens «Juan» y «Pérez», aparezca el contexto geográfico de «CDMX».

Argumento legal: Bajo esta tesis, si el modelo no almacena el dato personal íntegro, sino una representación matemática difusa, no estaría «conteniendo» información personal, y por tanto, la discusión sobre si es una «fuente de datos personales» sería inaplicable. Sería, más bien, como como un sistema de inferencia probabilística.

4.2 Memorización, regurgitación y datos personales

Sin embargo, la realidad empírica contradice la pureza teórica de la vectorización. Fenómenos documentados como la «memorización» demuestran que los LLM pueden reproducir datos de entrenamiento verbatim, especialmente si esos datos aparecían frecuentemente en el corpus de entrenamiento.

Ataques de inversión: Investigadores han logrado extraer PII (Información de Identificación Personal) específica: direcciones, teléfonos, números de seguridad social mediante «prompts» diseñados para evadir los filtros de seguridad.

Postura de la LFPDPPP: La ley mexicana define «Tratamiento» de manera amplia, incluyendo la obtención, uso, divulgación o almacenamiento por cualquier medio. La generación de un dato personal en la pantalla del usuario, aunque provenga de una reconstrucción probabilística, constituye una «divulgación» y un «uso». Por tanto, el LLM sí realiza tratamiento de datos personales.

4.3 La paradoja de la fuente de acceso público

Aquí surge la paradoja de la clasificación de «fuente de acceso público».

Si aceptamos que el LLM SÍ almacena datos (memorización): Entonces viola el principio de licitud por haberlos recolectado sin consentimiento y sin mandato legal (scraping ilícito).
Si aceptamos que el LLM NO almacena datos (solo probabilidad): Entonces no puede ser una «fuente», pues una fuente, por definición jurídica y lexicográfica, es un origen de información del cual emana el dato. Un generador de probabilidades no es una fuente de información, es un creador de ficción verosímil. No se puede consultar un LLM con la certeza de consultar un registro civil.

Por lo tanto, bajo cualquier interpretación técnica (almacén o generador), el LLM falla en cumplir los atributos de certeza, legalidad y fidelidad necesarios para ser una fuente de acceso público reconocida por el Estado mexicano.

La reforma de 2025 pone un énfasis especial en la licitud del origen de los datos. El Artículo 3 fracción XI (definición de Fuente de Acceso Público) excluye explícitamente aquellos repositorios cuya información tenga «procedencia ilícita».⁴ Este es el punto de mayor fricción para los LLM.

5. Responsabilidad proactiva y la carga de la prueba

La LFPDPPP introduce con fuerza el principio de Responsabilidad Proactiva (Accountability). Este principio invierte la carga de la prueba: ya no es el titular quien debe probar que sus datos fueron mal usados, sino el responsable quien debe probar que cumple con la ley en todo momento.

5.1 Obligaciones documentales

Bajo este principio, cualquier empresa mexicana que decida usar un LLM para tratar datos personales (ej. «Resume estos CVs de candidatos») debe tener un «Expediente de Cumplimiento» que demuestre:

La licitud de la fuente de los datos.
El consentimiento de los titulares para ser procesados por IA.
La evaluación de impacto a la privacidad (EIPDP).

Si la empresa alega que usó el LLM como «fuente de acceso público», la Secretaría de Anticorrupción le exigirá citar la ley específica que constituye a ese LLM como fuente pública. Al no poder hacerlo, la empresa será sancionada por tratamiento sin base legal válida.

5.2 El riesgo de los «deployers»

El informe del EDPB de abril de 2025 aclara la distinción entre «proveedores» (quien crea el modelo, ej. OpenAI) y «deployers» (quien lo usa, ej. un banco mexicano).

La responsabilidad no se delega. El banco mexicano es Responsable del tratamiento que hace con la herramienta.
Si el banco introduce datos de clientes en un LLM público, está realizando una transferencia de datos a un tercero (el proveedor del LLM) a menudo internacional.
La LFPDPPP elimina el requisito de informar las transferencias en el Aviso de Privacidad en algunos casos, pero mantiene la obligación de obtener el consentimiento para las mismas, salvo excepciones de ley. Dado que el LLM no es fuente pública, no aplica la excepción de consentimiento.

6. Conclusiones y Recomendaciones Estratégicas

Recomendaciones para el cumplimiento

Ante este escenario, se recomienda a las organizaciones:

Prohibición de Uso como Fuente: Establecer políticas internas que prohíban explícitamente el uso de salidas de IA generativa como fuente primaria de datos personales (ej. «No preguntes a ChatGPT el teléfono de un cliente»).
Consentimiento reforzado: Si se va a usar IA para procesar datos de clientes, el Aviso de Privacidad debe ser explícito sobre este tratamiento, y se debe obtener consentimiento expreso, preferentemente por escrito o medios electrónicos autenticados.
Adopción de RAG privado: Implementar arquitecturas de Retrieval Augmented Generation donde la IA solo tenga acceso a bases de datos internas de la empresa, cuyos datos ya hayan sido legitimados previamente.
Auditoría de proveedores: Exigir a los proveedores de software (SaaS) que integren funciones de IA garantías contractuales sobre la licitud de los datos de entrenamiento de sus modelos, trasladando la responsabilidad financiera mediante cláusulas de indemnidad.
Documentación de interés legítimo: En casos excepcionales donde no sea posible el consentimiento, realizar y documentar una rigurosa Prueba de Ponderación de Interés Legítimo (LIA), aunque reconociendo que esta base es débil frente a la postura estricta de la nueva ley.

Marco Antonio Pérez Alcalde

Socio Fundador de MIRAI Abogados y líder del grupo de práctica en Banca, Financiero y Fintech.

Con 25 años de experiencia, asesora a bancos, fintechs y plataformas tecnológicas en regulación financiera, innovación legal y transacciones de alto impacto.

Prácticas: Derecho Bancario y Financiero; Fintech, Legaltech y Regtech; Financiamientos; Derechos del Consumidor.

Por qué los Modelos Grandes de Lenguaje (LLM) no son fuentes de acceso público bajo la reforma de 2025

Me gusta esto:

Deja un comentarioCancelar respuesta

Por qué los Modelos Grandes de Lenguaje (LLM) no son fuentes de acceso público bajo la reforma de 2025

Comparte esto:

Me gusta esto:

Deja un comentarioCancelar respuesta

Descubre más desde MIRAI Noticias