La IA nos ofrece modelos cada vez más potentes y capaces, pero ¿de dónde provienen los datos que hacen todo eso posible? Documentos judiciales, correos internos y testimonios de antiguos empleados, revelados recientemente por el medio francés Mediapart, arrojan nueva luz sobre una práctica ya conocida como el uso masivo de libros pirateados para entrenar modelos de lenguaje, pero también sobre la participación en la misma de quien hoy es una figura central de la IA europea.
El corazón del escándalo: LibGen y los modelos LLaMA
En el centro de las revelaciones se encuentra Library Genesis, conocida como Library Genesis (LibGen), una 'biblioteca no autorizada' que reúne millones de libros protegidos por derechos de autor, accesibles sin autorización de los titulares legales.
El uso de estas fuentes no habría sido marginal ni accidental. Correos electrónicos internos y fragmentos de código sugieren que la práctica fue conocida y discutida dentro de los equipos, pese a las dudas expresadas por algunos empleados sobre su legalidad.
La responsabilidad de la dirección de Meta
Guillaume Lample, de Meta a Mistral AI
Cuando otros empleados plantearon la necesidad de consultar al departamento legal, Lample habría respondido que no había hecho preguntas, asumiendo que se trataba de una práctica común en el sector.
Mistral AI y sus promesas de transparencia bajo sospecha
Desde su creación, Mistral AI ha defendido una estrategia basada en datos 'de alta calidad' y acuerdos de licencia, firmando alianzas con instituciones como la AFP, el INA o la Biblioteca Nacional de Francia.
"Información públicamente disponible, conjuntos de datos licenciados y datos sintéticos generados internamente".
Un debate que va más allá de lo tecnológico
Este caso se inscribe en un conflicto más amplio: tanto en Estados Unidos como en Europa, autores, editoriales y artistas multiplican las demandas judiciales contra empresas de IA, acusándolas de apropiarse de obras protegidas sin compensación.
En última instancia, todo se resume a una pregunta: ¿puede la innovación tecnológica justificarse a costa de los derechos de los creadores?
Vía | Mediapart
Imagen | Marcos Merino mediante IA



