CNIL - Commission Nationale de l'Informatique et des Libertés

12/18/2025 | Press release | Distributed by Public on 12/18/2025 07:18

La CNIL publie un outil pour la traçabilité des modèles d’IA publiés en source ouverte

La traçabilité des modèles d'IA en source ouverte

La mise à disposition des modèles d'IA en source ouverte permet de proposer cette technologie au plus grand nombre. Chercheurs, entreprises ou même particuliers peuvent désormais accéder à de nombreux modèles pour différents usages tels que la génération de texte ou d'images, la traduction, ou encore la transcription audio.

De nombreux utilisateurs téléchargent également ces modèles pour les modifier ou les spécialiser sur une tâche spécifique à l'aide de nouvelles données. Souvent, ces nouveaux modèles sont alors à nouveau mis à disposition en source ouverte.

Ainsi, chaque modèle disponible en source ouverte fait partie d'une généalogie, constituée de l'ensemble des modèles :

  • dont il provient directement ou après plusieurs modifications (ses ascendants) ;
  • auxquels il a contribué à la constitution (ses descendants).

Pouvoir décrire et rechercher dans une généalogie de modèle d'IA en source ouverte est donc une étape indispensable pour comprendre comment un modèle a été constitué.

La mémorisationdes modèles d'IA et le RGPD

La communauté académique a établi de longue date qu'il est souvent possible d'extraire des informations sur la base d'entraînement d'un modèle d'IA, simplement à travers un accès à ce dernier. Ce phénomène se manifeste par la régurgitation des modèles génératifs, lorsque ceux-ci génèrent des données qui sont très similaires à des éléments de la base d'entraînement, mais ne s'y limite pas (voir par exemple l'article « Petite taxonomie des attaques des systèmes d'IA »).

Lorsqu'un modèle a été entraîné en partie sur des données personnelles (ce qui est généralement le cas pour l'IA générative), le Comité européen de la protection des données a énoncé dans son avis qu'il faudrait considérer dans la plupart des cas que celui-ci est soumis au RGPD. Le responsable de traitementpourra néanmoins démontrer, notamment à l'aide de tests, qu'il n'est pas possible d'extraire ou déduire de données personnelles à partir du modèle et que le RGPD ne viendrait pas à s'appliquer.

Une expérimentation pour étudier les d'IA en source ouverte

Dans ce contexte, la CNIL a mené une expérimentation visant à explorer des scénarios d'exercice des droits d'opposition, d'accès ou d'effacement, pour des personnes qui seraient concernées par la mémorisation de leurs données dans un modèle d'IA en source ouverte. La première étape pour cela vise à identifier, partant de la connaissance qu'un modèle a mémorisé les données d'une personne, les autres modèles de sa généalogie qui seraient susceptibles d'avoir également mémorisé ces données.

Dans ce but, le service IA de la CNIL a développé, en collaboration avec le Laboratoire d'Innovation Numérique de la CNIL (LINC), un outil de démonstration qui permet d'explorer la généalogie d'un modèle d'IA présent sur la plateforme HuggingFace.

CNIL - Commission Nationale de l'Informatique et des Libertés published this content on December 18, 2025, and is solely responsible for the information contained herein. Distributed via Public Technologies (PUBT), unedited and unaltered, on December 18, 2025 at 13:19 UTC. If you believe the information included in the content is inaccurate or outdated and requires editing or removal, please contact us at [email protected]