Script = https://s1.trrsf.com/update-1770314720/fe/zaz-ui-t360/_js/transition.min.js
PUBLICIDADE

Como a preservação da memória da internet está sobre pressão

22 abr 2026 - 16h16
Compartilhar
Exibir comentários

Guardiã da história da web, Wayback Machine luta pela sobrevivência. Cada vez mais empresas de comunicação se recusam a permitir que a plataforma armazene seus conteúdos - acabando por prejudicar a memória da web.Há 30 anos, o portal archive.org guarda a memória da internet. Sua plataforma Wayback Machine contém mais de um bilhão de sites arquivados e funciona como uma ferramenta imprescindível a partir da qual jornalistas, pesquisadores, historiadores e juristas podem acessar conteúdos originais de páginas que foram alteradas ou até mesmo excluídas.

Bilhões de sites poderiam cair no esquecimento se Wayback Machine deixar de existir
Bilhões de sites poderiam cair no esquecimento se Wayback Machine deixar de existir
Foto: DW / Deutsche Welle

No entanto, esse projeto fundamental da entidade criada em São Francisco, nos EUA, está diante de uma crise existencial. Por sinal, a última ameaça vem daqueles que mais precisam do arquivo - os veículos de imprensa.

Um número cada vez maior de empresas de comunicação está negando o acesso do Internet Archive aos seus conteúdos. Segundo uma pesquisa da Nieman Foundation for Journalism da Universidade de Harvard, pelo menos 241 portais de notícias de nove países já bloquearam o acesso da Wayback Machine, entre eles o britânico The Guardian, o americano New York Times e o francês Le Monde, além do USA Today, maior conglomerado jornalístico dos Estados Unidos.

Abrindo mão de uma importante ferramenta

O próprio USA Today publicou recentemente uma reportagem mostrando como a polícia de imigração americana, o ICE, havia ocultado informações na web sobre a sua política de detenção. Para a apuração, o jornal utilizou como base os conteúdos da Wayback Machine do archive.org, contradizendo a própria política da empresa, que agora bloqueia o acesso da plataforma a seus artigos.

O motivo pelo qual os veículos de comunicação estão barrando o acesso da ferramenta que eles mesmos utilizam é simples. Os jornais temem que empresas de inteligência artificial, como Open AI ou Google, acessem os conteúdos jornalísticos arquivados na plataforma para treinar seus modelos de linguagem - sem autorização e sem pagar nada. "O problema é que os conteúdos do New York Times no Internet Archive são utilizados pelas empresas de IA, que infringem direitos autorais para concorrer diretamente conosco", declarou o porta-voz do NYT, Graham James.

Milhares de consultas por segundo com robôs

De fato, dados mostram que, no site archive.org, são utilizados inúmeros robôs que procuram conteúdos jornalísticos para utilizá-los no treinamento de modelos de IA - e, assim, obter exatamente as informações que lhes são negadas. O diretor do Wayback Machine, Mark Graham, afirmou à revista Wired que algumas empresas chegaram a acessar os arquivos com dezenas de milhares de solicitações por segundo, a ponto de sobrecarregar temporariamente os servidores.

Era algo que o archive.org não esperava. A organização sem fins lucrativos apresenta-se como uma entidade comprometida com a internet aberta.

"Exatamente como uma biblioteca clássica, oferecemos acesso gratuito a pesquisadores, historiadores, cientistas e pessoas com deficiência visual e ao público em geral. Nosso objetivo é possibilitar a todas as pessoas o acesso universal a todo o conhecimento", diz o lema da associação. Isso também exclui a possibilidade de bloquear robôs e rastreadores - o que levou às sanções impostas pelas grandes editoras e empresas de mídia.

A Electronic Frontier Foundation (EFF), organização de direitos humanos especializada em questões digitais, compara a atitude dos veículos de imprensa a uma situação em que "um jornal proibisse bibliotecas de manter cópias do seu periódico".

A história da internet pode se perder para sempre

Desde então, mais de 100 jornalistas assinaram uma petição em apoio ao Internet Archive. Em carta aberta, eles afirmam: "Em um cenário de mídia digital em que artigos desaparecem devido à perda de links, fusões de empresas ou cortes de custos, os jornalistas dependem frequentemente da Wayback Machine do Internet Archive para recuperar páginas que, de outra forma, estariam perdidas. Sem esse trabalho contínuo de preservação da Internet, grande parte da história jornalística recente já teria se perdido."

Mark Graham, do New York Times, afirmou também à Wired que está em conversas com as empresas de jornalismo para reaver o acesso. O desfecho ainda é incerto. "Não há dúvida de que o bloqueio crescente de grande parte da internet pública prejudica a capacidade da sociedade de compreender o que está acontecendo em nosso mundo", confessou Graham.

Arquivo como infraestrutura pública

Repórter especializado em mídia e fundador do socialmedia watchblog.de, Martin Fehrensen vê no archive.org o único registro funcional da web aberta. Caso a plataforma não consiga mais cumprir essa função, isso teria consequências graves, diz ele à DW.

"Milhões de trechos da Wikipedia perderiam a referência; pesquisas sobre a responsabilidade das plataformas - ou seja, quais termos de uso vigoravam em cada momento, quais regras de moderação foram reformuladas e de que maneira - se tornariam significativamente mais difíceis; e as evidências digitais com valor probatório judicial seriam perdidas", explica, acrescentando que, especialmente para os veículos jornalístico, seria totalmente absurdo bloquear o arquivo.

Segundo Fehrensen, há duas maneiras de se resolver esse conflito. "Precisamos de um diálogo com os editores, com uma separação técnica clara entre o arquivamento e o treinamento de IA, pois esse é o verdadeiro conflito, não o arquivo em si", explica o jornalista.

A médio prazo, na opinião dele, deve ser criado um status jurídico especial para os arquivos da web. E, a longo prazo, o arquivamento da internet deve ser tratado como infraestrutura pública, não como um projeto isolado de uma ONG em São Francisco, acrescenta. "O fato de que, em 2026, ele ainda dependa de uma única organização é a verdadeira falha estrutural", conclui.

Um conflito dramático - entre vários

Não é a primeira vez que o Internet Archive luta para continuar existindo. Em setembro de 2024, um ataque hacker ao site resultou no roubo de 31 milhões de contas de usuário. Foi um duro golpe, mas a organização conseguiu se recuperar.

No mesmo ano, o Archive perdeu um processo de direitos autorais em um tribunal de apelação dos EUA: as editoras Hachette, Penguin Random House, HarperCollins e Wiley entraram com uma ação contra o programa gratuito de empréstimo de e-books que o Archive havia lançado durante a pandemia de Covid-19, e obtiveram sucesso. Mais de 500 mil livros tiveram que ser retirados da plataforma. Mas o archive.org ainda enfrenta pedidos de indenização na casa dos milhões.

Em comparação com essas derrotas, a ameaça atual representada pelos bloqueios da mídia é estruturalmente mais grave, pois não pode ser sanada por uma decisão judicial ou uma atualização. Ela é o resultado de inúmeras decisões corporativas que, em conjunto, minam a essência do Wayback Machine: a documentação completa da internet pública.

Deutsche Welle A Deutsche Welle é a emissora internacional da Alemanha e produz jornalismo independente em 30 idiomas.
Compartilhar
TAGS

Comentários

As opiniões expressas nos comentários são de responsabilidade exclusiva de seus autores e não representam a opinião do Terra.

Publicidade

Conheça nossos produtos

Seu Terra