Du contenu pédopornographique découvert dans une base d’images servant à entraîner les IA génératives

Une révélation troublante a été faite par l’Université de Stanford concernant Laion-5B, une base de données d’images utilisée pour entraîner des intelligences artificielles génératives, y compris l’outil Stable Diffusion. D’après l’étude, parue le 20 décembre sur le site 404media, cette base contenait plus d’un millier d’images pédopornographiques.

Laion-5B, qui comprend environ cinq milliards de fichiers, a été scrutée par le Stanford Internet Observatory. Sur les 3200 fichiers jugés problématiques, plus d’un millier ont été classifiés comme illégaux et signalés aux autorités. Ces images soulèvent des inquiétudes quant à la possibilité de créer de nouvelles images pédopornographiques via les outils basés sur cette base de données.

En réaction, l’ONG Large-scale Artificial Intelligence Open Network (Laion), responsable de Laion-5B, a suspendu l’accès à cette base, s’engageant à éliminer les contenus délictueux. Malgré des mesures prises pour filtrer les contenus problématiques dans les versions récentes de Stable Diffusion, des versions antérieures comme la 1.5 restent accessibles et sont utilisées pour générer des images inappropriées.

Le Stanford Internet Observatory appelle à des mesures plus strictes pour nettoyer ces outils et éliminer les anciennes versions de Stable Diffusion du web. Cette situation met en lumière le défi de réguler le contenu des bases de données utilisées pour l’entraînement d’IA, soulignant l’importance d’une vigilance accrue et d’une responsabilité partagée dans la gestion de ces technologies.