É uma queixa recorrente: os modelos de IA devoram conteúdo em escala industrial. Para obter o conjunto de dados usado para treinar um modelo, são necessários bots rastreadores. Cada empresa tem o seu: a OpenAI usa o GPTBot, a Gemini usa o Googlebot, enquanto a Anthropic utiliza o ClaudeBot. Eles sugam informações e realizam o que é chamado de web scraping, rastreando milhões de páginas da web, baixando o HTML, extraindo o texto limpo e armazenando os links para continuar sua busca digital.
Uma vez treinados, os modelos recorrem a ferramentas de busca na web se não tiverem informações suficientes para responder a uma consulta. Isso geralmente acontece com eventos atuais ou tópicos sobre os quais surgiram novos detalhes desde o treinamento do modelo. Quando isso ocorre, um novo bot extrai o conteúdo dos sites necessários para refinar a resposta da IA.
Essa dinâmica leva a problemas. O mais visível está relacionado à propriedade intelectual e ficou evidente ao vermos as imagens no estilo Studio Ghibli geradas pelo ChatGPT ou os vídeos feitos com o Seedance 2.0, que apresentam atores reais em cenas geradas artificialmente.
Nos últimos três anos, proliferaram os processos por violação de direitos autorais. O processo do The New York Times contra a Microsoft e a OpenAI, acusando-as de usar milhões de seus artigos para treinar o ChatGPT, é bem conhecido. Mesmo antes dessa acusação, um grupo de artistas processou geradores de imagens como o Stability AI e o Midjourney.
Veículos de ...
Matérias relacionadas
Este mapa mostra como será a Terra daqui a 250 milhões de anos
Publi no espaço? O insólito caso do pote de Nutella na cápsula da Artemis II