Un importante conjunto de datos para el entrenamiento de IA contiene millones de ejemplos de datos personales

CIENCIAS DE LA COMPUTACIÓN / INTELIGENCIA ARTIFICIAL. Tiempo de lectura: 11 minutos.-

Según una nueva investigación, es probable que uno de los mayores conjuntos de datos de entrenamiento de IA de código abierto incluya millones de imágenes de pasaportes, tarjetas de crédito, certificados de nacimiento y otros documentos que contienen información de identificación personal.

Se encontraron miles de imágenes, incluidas caras identificables, en un pequeño subconjunto de DataComp CommonPool, un importante conjunto de entrenamiento de IA para la generación de imágenes extraídas de la web. Dado que los investigadores solo auditaron el 0,1 % de los datos de CommonPool, estiman que el número real de imágenes que contienen información de identificación personal, incluidas caras y documentos de identidad, asciende a cientos de millones. El estudio que detalla la violación se publicó en arXiv a principios de este mes.

La conclusión, según William Agnew, investigador postdoctoral en ética de la IA en la Universidad Carnegie Mellon y uno de los coautores, es que «cualquier cosa que se publique en Internet puede ser y probablemente haya sido recopilada».

Los investigadores encontraron miles de casos de documentos de identidad validados, incluyendo imágenes de tarjetas de crédito, permisos de conducir, pasaportes y certificados de nacimiento, así como más de 800 documentos de solicitud de empleo validados (incluyendo currículos y cartas de presentación), que se confirmaron a través de LinkedIn y otras búsquedas en la web como asociados a personas reales. (En muchos otros casos, los investigadores no tuvieron tiempo de validar los documentos o no pudieron hacerlo debido a problemas como la claridad de las imágenes).

Varios de los currículos revelaban información confidencial, como la condición de discapacidad, los resultados de verificaciones de antecedentes, las fechas y lugares de nacimiento de personas a cargo y la raza. Cuando los currículos estaban vinculados a personas con presencia en Internet, los investigadores también encontraron información de contacto, identificadores gubernamentales, información sociodemográfica, fotografías, direcciones particulares y la información de contacto de otras personas (como referencias).

Cuando se publicó en 2023, DataComp CommonPool, con sus 12 800 millones de muestras de datos, era el mayor conjunto de datos existente de pares de imágenes y texto disponibles públicamente, que se utilizan a menudo para entrenar modelos generativos de texto a imagen. Aunque sus curadores afirmaron que CommonPool estaba destinado a la investigación académica, su licencia no prohíbe el uso comercial.

CommonPool se creó como continuación del conjunto de datos LAION-5B, que se utilizó para entrenar modelos como Stable Diffusion y Midjourney. Se basa en la misma fuente de datos: el rastreo web realizado por la organización sin ánimo de lucro Common Crawl entre 2014 y 2022.

Aunque los modelos comerciales no suelen revelar con qué conjuntos de datos se entrenan, las fuentes de datos compartidas de DataComp CommonPool y LAION-5B implican que los conjuntos de datos son similares y que es probable que la misma información de identificación personal aparezca en LAION-5B, así como en otros modelos posteriores entrenados con datos de CommonPool. Los investigadores de CommonPool no respondieron a las preguntas enviadas por correo electrónico.

Y dado que DataComp CommonPool se ha descargado más de dos millones de veces en los últimos dos años, es probable que «existan muchos modelos derivados que se hayan entrenado con este mismo conjunto de datos», afirma Rachel Hong, estudiante de doctorado en Informática en la Universidad de Washington y autora principal del artículo. Esto duplicaría riesgos similares para la privacidad.

Las buenas intenciones no bastan.

«Se puede dar por sentado que cualquier dato recopilado a gran escala en la web contiene siempre contenido que no debería estar ahí», afirma Abeba Birhane, científica cognitiva y especialista en ética tecnológica que dirige el Laboratorio de Responsabilidad de la IA del Trinity College de Dublín, ya se trate de información de identificación personal (PII), imágenes de abuso sexual infantil o discurso de odio (tal y como ha descubierto la propia Birhane en su investigación sobre LAION-5B).

De hecho, los propios curadores de DataComp CommonPool eran conscientes de que era probable que apareciera información de identificación personal en el conjunto de datos y tomaron algunas medidas para preservar la privacidad, como la detección automática y el desenfoque de los rostros. Sin embargo, en su conjunto de datos limitado, el equipo de Hong encontró y validó más de 800 rostros que el algoritmo había pasado por alto, y estimó que, en total, el algoritmo había pasado por alto 102 millones de rostros en todo el conjunto de datos. Por otra parte, no aplicaron filtros que pudieran reconocer cadenas de caracteres de información de identificación personal conocida, como direcciones de correo electrónico o números de la Seguridad Social.

«Filtrar bien es extremadamente difícil», afirma Agnew. «Habrían tenido que realizar avances muy significativos en la detección y eliminación de información de identificación personal que no han hecho públicos para poder filtrar esto de manera eficaz».

Hay otros problemas de privacidad que el desenfoque facial no resuelve. Aunque el filtro de desenfoque se aplica automáticamente, es opcional y se puede eliminar. Además, los pies de foto que suelen acompañar a las imágenes, así como los metadatos de estas, a menudo contienen información aún más personal, como nombres y ubicaciones exactas.

Otra medida para mitigar la privacidad proviene de Hugging Face, una plataforma que distribuye conjuntos de datos de entrenamiento y aloja CommonPool, que se integra con una herramienta que, en teoría, permite a las personas buscar y eliminar su propia información de un conjunto de datos. Sin embargo, como señalan los investigadores en su artículo, esto requeriría que las personas supieran que sus datos están ahí para empezar. Cuando se le pidió su opinión, Florent Daudens, responsable de privacidad de Hugging Face, afirmó que «maximizar la privacidad de los interesados en todo el ecosistema de la IA requiere un enfoque multicapa, que incluye, entre otras cosas, el widget mencionado», y que la plataforma está «trabajando con nuestra comunidad de usuarios para avanzar en una dirección más centrada en la privacidad».

En cualquier caso, probablemente no sea suficiente con eliminar tus datos de un conjunto de datos. «Incluso si alguien descubre que sus datos se han utilizado en conjuntos de datos de entrenamiento y… ejerce su derecho a la eliminación, técnicamente la ley no es clara sobre lo que eso significa»,  afirma Tiffany Li, profesora asociada de Derecho en la Facultad de Derecho de la Universidad de San Francisco. «Si la organización solo elimina los datos de los conjuntos de datos de entrenamiento, pero no elimina ni vuelve a entrenar el modelo ya entrenado, el daño seguirá existiendo».

En definitiva, según Agnew, «si se recopilan datos de la web, se obtendrán datos privados. Incluso si se filtran, seguirán existiendo datos privados, simplemente debido a la magnitud del proceso. Y eso es algo con lo que nosotros, los investigadores en aprendizaje automático, debemos lidiar en nuestro campo».

Reconsiderar el consentimiento.

CommonPool se creó a partir de datos web recopilados entre 2014 y 2022, lo que significa que es probable que muchas de las imágenes sean anteriores a 2020, cuando se lanzó ChatGPT. Por lo tanto, aunque en teoría es posible que algunas personas hayan dado su consentimiento para que su información estuviera disponible públicamente en Internet, no podrían haber dado su consentimiento para que sus datos se utilizaran para entrenar grandes modelos de IA que aún no existían.

Y dado que los rastreadores web suelen extraer datos unos de otros, una imagen que el propietario subió originalmente a una ubicación específica a menudo acaba apareciendo en otros repositorios de imágenes. «Puedo subir algo a Internet y, al cabo de un año más o menos, querer eliminarlo, pero entonces [esa eliminación] ya no sirve de nada», afirma Agnew.

Los investigadores también encontraron numerosos ejemplos de información personal de niños, incluyendo copias de certificados de nacimiento, pasaportes y estado de salud, pero en contextos que sugerían que habían sido compartidos con fines limitados.

«Realmente pone de manifiesto el pecado original de los sistemas de IA creados a partir de datos públicos: son extractivos, engañosos y peligrosos para las personas que han estado utilizando Internet con un marco de riesgo, sin imaginar nunca que todo sería aspirado por un grupo que intenta crear un generador de imágenes», afirma Ben Winters, director de IA y privacidad de la Federación de Consumidores de América.

Encontrar una política que se adapte.

En última instancia, el documento insta a la comunidad dedicada al aprendizaje automático a replantearse la práctica habitual del rastreo indiscriminado de la web y también expone las posibles violaciones de la ley de privacidad ( ) que supone la existencia de información de identificación personal (PII) en conjuntos masivos de datos de aprendizaje automático, así como las limitaciones de la capacidad de dichas leyes para proteger la privacidad.

«En Europa tenemos el RGPD, en California tenemos la CCPA, pero en Estados Unidos sigue sin haber una ley federal de protección de datos, lo que también significa que los estadounidenses tienen diferentes protecciones de derechos», afirma Marietje Schaake, una legisladora neerlandesa convertida en experta en política tecnológica que actualmente trabaja como investigadora en el Centro de Política Cibernética de Stanford.

Además, estas leyes de privacidad se aplican a empresas que cumplen determinados criterios de tamaño y otras características. No se aplican necesariamente a investigadores como los responsables de crear y gestionar DataComp CommonPool.

E incluso las leyes estatales que sí abordan la privacidad, como la ley de privacidad del consumidor de California, contienen excepciones para la información «disponible públicamente». Los investigadores en aprendizaje automático han trabajado durante mucho tiempo basándose en el principio de que, si algo está disponible en Internet, es público y deja de ser información privada, pero Hong, Agnew y sus colegas esperan que su investigación cuestione esta suposición.

«Lo que hemos descubierto es que el término «públicamente disponible» incluye mucha información que mucha gente podría considerar privada, como currículos, fotos, números de tarjetas de crédito, diversos documentos de identidad, noticias de cuando eras niño o el blog de tu familia. Probablemente, no se trata de información que la gente quiera que se utilice en cualquier lugar y para cualquier fin», afirma Hong.

Schaake espera que esta investigación «haga saltar las alarmas y provoque un cambio».

Por: José Sánchez.

Sitio Fuente: MIT Technology Review