Várias empresas de IA contornam padrão para extrair conteúdo de sites de mídia, diz empresa de licenciamento

Por: Katie Paul

21 jun 2024 - 13h48

Exibir comentários

Várias empresas de inteligência artificial estão contornando um padrão comum da web usado por editoras para bloquear a extração de conteúdo de seus sites para uso em sistemas de inteligência artificial generativa, informou a startup de licenciamento de conteúdo TollBit às editoras.

A carta às editoras vista pela Reuters nesta sexta-feira, que não cita o nome das empresas de IA ou das editoras afetadas, surge em meio a uma disputa pública entre a startup de pesquisa de IA Perplexity e o veículo de mídia Forbes envolvendo o mesmo padrão da web e um debate mais amplo entre empresas de tecnologia e mídia sobre o valor do conteúdo na era da IA generativa.

A editora de mídia de negócios acusou publicamente a Perplexity de plagiar suas matérias investigativas em resumos gerados por IA sem citar a Forbes ou pedir sua permissão.

Uma investigação da Wired publicada esta semana descobriu que a Perplexity provavelmente contornou os esforços para bloquear seu rastreador de web por meio do Protocolo de Exclusão de Robôs, ou "robots.txt" -- um padrão amplamente aceito destinado a determinar quais partes de um site podem ser rastreadas.

A Perplexity recusou um pedido da Reuters para comentar a disputa.

A TollBit, uma startup em estágio inicial, está se posicionando como uma intermediária entre empresas de IA ávidas por conteúdo e editoras dispostas a fechar acordos de licenciamento com elas.

A empresa rastreia o tráfego de IA para os sites das editoras e usa análises para ajudar os dois lados a chegar a um acordo sobre as taxas a serem pagas pelo uso de diferentes tipos de conteúdo.

Por exemplo, as editoras podem optar por definir taxas mais altas para "conteúdo premium, como as últimas notícias ou insights exclusivos", diz a empresa em seu site.

A empresa diz que tinha 50 sites ativos em maio, embora não os tenha nomeado.

De acordo com a carta da TollBit, a Perplexity não é a única infratora que parece estar ignorando o "robots.txt".

A TollBit disse que suas análises indicam que "vários" agentes de IA estão ignorando o protocolo, uma ferramenta padrão usada pelas editoras para indicar quais partes do site podem ser rastreadas.

O protocolo "robots.txt" foi criado em meados da década de 1990 como uma forma de evitar a sobrecarga de sites com rastreadores da web. Embora não exista um mecanismo de aplicação legal, historicamente tem havido uma ampla conformidade na web.

Mais recentemente, o "robots.txt" se tornou uma ferramenta importante usada pelos editores para impedir que as empresas de tecnologia absorvam seu conteúdo gratuitamente para uso em sistemas de IA generativos que podem imitar a criatividade humana e resumir artigos instantaneamente.

As empresas de IA usam o conteúdo para treinar seus algoritmos e para gerar resumos de informações em tempo real.

Algumas editoras, incluindo o New York Times, processaram as empresas de IA por violação de direitos autorais em relação a esses usos. Outras estão assinando contratos de licenciamento com as empresas de IA abertas a pagar pelo conteúdo, embora as partes frequentemente discordem sobre o valor dos materiais. Muitos desenvolvedores de IA argumentam que não infringiram nenhuma lei ao acessá-los gratuitamente.

A Thomson Reuters, proprietária da Reuters News, está entre as que fecharam acordos para licenciar conteúdo de notícias para uso por modelos de IA.

Reuters - Esta publicação inclusive informação e dados são de propriedade intelectual de Reuters. Fica expresamente proibido seu uso ou de seu nome sem a prévia autorização de Reuters. Todos os direitos reservados.

Comentários (0)

As opiniões expressas nos comentários são de responsabilidade exclusiva de seus autores e não representam a opinião do Terra.

Várias empresas de IA contornam padrão para extrair conteúdo de sites de mídia, diz empresa de licenciamento

Você provavelmente está infectado: 95% das pessoas são portadoras deste vírus, mas cientistas descobriram como combatê-lo

Experimento alemão comprovou que esferas de concreto são baterias fantásticas e Califórnia está afundando uma de 9 metros no oceano

Depois de estudar moscas, cientistas chegaram a uma conclusão: comer açúcar depois de estudar é uma boa ideia

Comentários (0)

Confira também:

Conheça nossos produtos

Mais lidas

BBB 26: Gabriela surpreende ao revelar para quem vai sua torcida: 'Vai ganhar'

Sou endocrinologista e garanto: "Tomar o café da manhã depois das 9 horas pode aumentar os níveis de cortisol"

Sou cardiologista e garanto: "Pessoas que tomam café somente pela manhã têm uma expectativa de vida mais longa e têm menos probabilidade de sofrer um ataque cardíaco

Ministros do STF apostam no governo para derrubar pedido de impeachment e minimizam relatório da CPI

Oscar Schmidt morre aos 68 anos e deixa legado histórico no basquete mundial

Ancelotti consulta Lula sobre escalação de de Neymar na Copa: 'É preciso saber se ele quer'

Estudante de Direito da USP que foi lutar pela Ucrânia na guerra contra a Rússia está desaparecido

Nasce filho de Thammy Miranda e nome do bebê causa espanto: 'Nossa'

Enquete parcial do BBB 26: Votalhada aponta sister eliminada com maioria dos votos

Últimas notícias

Recomendado para você