De acordo com o Cointelegraph: LAION-5B, um conjunto substancial de dados de inteligência artificial (IA) usado no treinamento de vários geradores de texto para imagem amplamente utilizados, foi retirado por seu criador depois que uma pesquisa revelou que ele abrigava milhares de casos suspeitos de abuso sexual infantil materiais (CSAM). LAION, a Rede Aberta de Inteligência Artificial em Grande Escala com sede na Alemanha, é uma organização sem fins lucrativos conhecida por criar modelos e conjuntos de dados de IA de código aberto que servem como espinha dorsal para vários modelos renomados de conversão de texto em imagem.

Pesquisadores do Centro de Política Cibernética do Observatório da Internet de Stanford, em seu relatório publicado em 20 de dezembro, expuseram a presença de 3.226 instâncias de suposto CSAM no conjunto de dados LAION-5B. Numerosos casos suspeitos foram verificados como CSAM por partes independentes, conforme destacado por David Thiel, arquiteto e tecnólogo-chefe de Big Data do Stanford Cyber ​​Policy Center.

Thiel observou que, embora as instâncias de CSAM detectadas no conjunto de dados possam não alterar drasticamente os resultados dos modelos treinados nele, é provável que exerçam alguma influência. Além disso, a repetição de casos idênticos de CSAM traz uma camada adicional de preocupação devido ao reforço de imagens de vítimas específicas.

Introduzido em março de 2022, o conjunto de dados LAION-5B consiste em 5,85 bilhões de pares imagem-texto. Em resposta às conclusões, a LAION confirmou numa declaração que removeu os conjuntos de dados controversos como medida de precaução, e estes incluem tanto o LAION-5B como o LAION-400M. A organização republicará os conjuntos de dados assim que for garantida a sua segurança.