Des IA ont été entraînées illégalement avec des photos d’enfants selon ce rapport

Par Thomas Povéda Le 10/06/2024

Dans un rapport alarmant, l'organisation Human Rights Watch dévoile que plusieurs outils d'intelligence artificielle ont été entraînés avec des clichés d'enfants récupérés sur Internet sans consentement. Parfois des années après leur mise en ligne.

Derrière les possibilités quasi-infinies de l‘intelligence artificielle, il y a un fonctionnement commun à tous les outils qui y font appel. Les modèles d'IA doivent “s'entraîner” à l'aide d'un maximum de données. On s'en doute, Internet est une mine d'or pour cela. De plus en plus de services et d'entreprises ne cachent d'ailleurs plus leurs ambitions : ce que vous postez sur le Web est susceptible de nourrir une IA. Slack est accusé de le faire avec vos messages par exemple. De son côté, Google se sert de ce que vous écrivez sur le réseau social communautaire Reddit, tandis qu'Abode a défrayé la chronique en laissant penser que vos créations serviraient à entraîner son intelligence artificielle maison.

Dans certains cas, ce genre de pratique pousse même des associations militant pour le respect de la vie privé des internautes à porter plainte dans plusieurs pays d'Europe. Mais si dans les cas cités ici, les intentions des firmes sont assez claires, ça devient beaucoup plus problématique quand les données utilisées par les IA sont raflées sans consentement. Surtout quand elles concernent des populations plus à risque comme les enfants. C'est ce qu'a découvert l'organisation Human Rights Watch et autant le dire tout de suite, ses trouvailles ont de quoi faire frisonner les parents.

Plusieurs outils IA se sont entraînés avec des photos d'enfants récupérés illégalement sur Internet d'après un rapport

L'analyse porte sur LIAON-5B. Il s'agit d'une base de données créée par l'organisation à but non lucratif LAION en Allemagne. Disponible gratuitement et mise à disposition de tout le monde, elle contient actuellement 5,85 milliards de photos associées à une légende. Plusieurs outils IA populaires s'en servent comme le générateur d'images Stable Diffusion de Stability AI. Human Rights Watch a constaté que LIAON-5B contient des liens vers des clichés d'enfants récupérés illégalement (sans consentement), en l’occurrence brésiliens, ainsi que des informations très personnelles les concernant.

Sur l'une des photos retrouvées dans la base, on voit ainsi une petite fille de 2 ans toucher les doigts de sa petite sœur à peine née. Sans parler du fait qu'il s'agit d'un moment privé que l'on ne souhaite pas partager avec n'importe qui, l'image contient aussi le nom des deux enfants et l'adresse exacte de l’hôpital où leur mère a accouché il y a 9 ans de cela. Car c'est un autre souci relevé par le rapport : la plupart des clichés étaient en ligne des années avant que LAION-5B n'existe.

Le programme les a récupéré à plusieurs endroits : blogs personnels de mère de famille ou de parents, sites de maternité, voire photos contenues dans des vidéos YouTube, de l'époque où la plateforme servait à partager des choses avec ses proches. Hye Jung Han, qui a trouvé ces images, précise que l'immense majorité n'était pas accessibles en ligne via une recherche inversées. Le fait qu'elles aient servi à alimenter des outils IA n'est pas sans conséquence.

Les photos d'enfants utilisées pour les outils IA peuvent servir à des fins criminelles

Le raisonnement est simple : une intelligence artificielle est capable de reproduire les photos qu'on lui donne en guise de “repas”. Autrement dit, tous les enfants présents dans la base de données LAION-5B courent potentiellement le risque qu'une personne mal intentionnée s'en serve, par exemple pour créer des deepfakes. Le rapport de Human Rights Watch rappelle qu'au Brésil, “Au moins 85 filles […] ont signalé avoir été harcelées par leurs camarades de classe, qui ont utilisé des outils d'IA pour créer des deepfakes sexuellement explicites des filles à partir de photos prises sur leurs profils de réseaux sociaux, puis ont diffusé ces fausses images en ligne“.

Contacté, LAION répond avoir retiré les liens incriminés de sa base de données, tout en indiquant que les enfants et leurs parents sont responsables de la mise en ligne ou non de photos sur Internet. Human Rights Watch appelle à des mesures de plus grande envergure, avec la mise en place de loi spécifiques. “L’IA générative est encore une technologie naissante, et les préjudices que subissent déjà les enfants ne sont pas inévitables. Protéger dès maintenant la confidentialité des données des enfants contribuera à faire évoluer le développement de cette technologie vers une qui promeut, plutôt que viole, les droits des enfants“, conclut Hye Jung Han.

Voir les commentaires