Fotos de crianças brasileiras foram usadas sem consentimento para alimentar IAs, diz ONG
Imagens presentes em conjunto de dados podem ser usadas sem autorização na produção de deepfakes
Nesta segunda-feira, 10, a ONG Human Rights Watch divulgou um relatório que revela o uso sem consentimento de fotos de crianças e adolescentes brasileiros para treinamento de inteligências artificiais (IAs). Segundo análise da ONG, essas imagens, obtidas na internet, estão sendo integradas a um conjunto de dados denominado LAION-5B, utilizado no desenvolvimento de tecnologias de IA.
O relatório revelou que o LAION-5B possui links para fotos facilmente identificáveis desses jovens. Em alguns exemplos, dados sobre quando e onde a criança ou adolescente estava no instante em que a fotografia foi tirada são simples de obter. Até mesmo os nomes de alguns deles estão listados nas legendas ou URLs de onde a imagem está localizada.
A Laion, organização alemã responsável pelo gerenciamento do LAION-5B, confirmou que o conjunto de fato continha as fotos encontradas pela Human Rights Watch e prometeu removê-las. No entanto, discordou de que os modelos de inteligência artificial treinados pelo LAION-5B reproduzem dados pessoais de forma literal - ou seja, de que as IAs seriam capazes de reproduzir imagens das crianças usadas no treinamento.
O LAION-5B é um conjunto de dados aberto que contém cerca de cinco bilhões de pares de imagem e texto. Por serem de código aberto, qualquer empresa ou indivíduo pode acessar as informações. Isso é algo comum no setor de IA e a Laion diz que trata-se de um conjunto de dados que "aumenta as possibilidades de treinamento em larga escala em diversas línguas." A Laion disponibiliza à comunidade geral modelos de linguagem e treinamento que antes se restringiam a quem tem acesso a determinados datasets privados.
A Human Rights Watch conseguiu encontrar 170 fotos de crianças de pelo menos dez estados brasileiros: Alagoas, Bahia, Ceará, Mato Grosso do Sul, Minas Gerais, Paraná, Rio de Janeiro, Rio Grande do Sul, Santa Catarina e São Paulo. Apenas 0,0001% das fotografias e legendas presentes no conjunto de dados foram analisadas. Assim, é possível que haja mais fotos de menores de idade no LAION-5B.
No site da ONG, consta que existem fotos disponíveis no LAION-5B de bebês nascendo, crianças pequenas assoprando velas ou dançando de roupa íntima e adolescentes posando durante o Carnaval. Há ainda uma imagem de uma menina de dois anos tocando a mão de sua irmã recém-nascida; nas informações contidas nessa fotografia, estão os nomes das duas meninas e a localização do hospital onde a bebê nasceu, nove anos atrás.
Essas fotografias podem ter sido publicadas pelos próprios jovens, por seus pais ou até mesmo pelas escolas onde estudavam as crianças e adolescentes. Elas foram retiradas de sites de compartilhamentos de mídias e podem ter sido postadas muitos anos antes da criação do LAION-5B.
Um dos grandes problemas envolvidos nessa situação é o fato de que, quando dados e informações coletados são colocados em inteligências artificiais, eles se tornam suscetíveis a falhas nos sistemas que podem prejudicar sua privacidade. Assim, se os modelos treinados pelo LAION-5B vazarem informações, a intimidade desses jovens pode ser muito prejudicada.
Para além da sensibilidade envolvida na disponibilização dessas imagens no LAION-5B, causa preocupação também o fato de que indivíduos com intenções maliciosas podem lançar mão dessas ferramentas para produzir deepfakes que põem ainda mais em risco a dignidade e privacidade dessas crianças e adolescentes.
"Crianças e adolescentes não deveriam ter que viver com medo de que suas fotos possam ser roubadas e usadas contra eles", afirma Hye Jung Han, pesquisadora de direitos da criança e tecnologia da Human Rights Watch em comunicado à imprensa. "O governo deveria adotar urgentemente políticas para proteger os dados das crianças contra uso indevido impulsionado por IA."
Ainda segundo a ONG, "o governo deveria fortalecer a lei de proteção de dados adotando salvaguardas adicionais e abrangentes para a privacidade dos dados das crianças."
Na sexta, 7, foi apresentado o texto preliminar do Projeto de Lei 2338/2023, o chamado "Marco Legal da Inteligência Artificial". A ideia é que o texto final esteja pronto até novembro.
De acordo com o PL, os direitos das pessoas afetadas pela IA envolvem o direito à informação prévia em relação às suas interações com sistemas de inteligência artificial e o direito à privacidade e à proteção de dados pessoais.
"A nova política deveria proibir a raspagem de dados pessoais de crianças para sistemas de IA considerando os riscos de privacidade envolvidos e o potencial de novas formas de uso indevido à medida que a tecnologia evolui. Deveria também proibir a replicação digital não consensual ou a manipulação de imagens de crianças. E deveria fornecer mecanismos às crianças que sofrerem danos para buscar justiça e reparação significativa. O Congresso brasileiro também deveria garantir que propostas de regulamentações de IA incorporem proteções de privacidade de dados para todos, e especialmente para as crianças", diz a declaração disponível no site da HRW.