PUBLICIDADE

Google quer tornar o robots.txt, criado em 1994, um padrão da internet

O trabalho extra, gerado para os desenvolvedores web, será facilitado com a companhia liberando o có...

3 jul 2019 - 16h32
Compartilhar
Exibir comentários

A Google quer tornar o Protocolo de Exclusão de Robôs (REP, na sigla em inglês), também conhecido como robots.txt, um padrão de Internet 25 anos após ele ter sido criado. O robots.txt é um arquivo de texto que fica hospedado na raiz do site e que contém instruções para os motores de busca, e é através dele que os desenvolvedores escolhem os parâmetros que definem o conteúdo do site que deve ser rastreado e indexado. Desde 1994, o robots.txt é um dos componentes mais básicos e importantes da internet.

Foto: TecMundo

Por que o robots.txt nunca se tornou padrão?

Apesar de ter sido implementado desde os primórdios da web — a internet comercial só começou a se popularizar no Brasil em 1996, por exemplo —, alguns desenvolvedores sempre acusaram o REP de ter um comportamento ambíguo. Adicionalmente, com o passar dos anos, ele começou a gerar preocupações com sua implementação, já que não funciona bem em casos específicos.

Ainda há outras situações em que protocolo gera dúvidas entre os desenvolvedores. Dois exemplos acontecem quando: o editor de texto insere caracteres BOM nos arquivos robots.txt e quando esses arquivos possuem centenas de megabytes, dificultando sua análise. 

Como a Google pretende facilitar a padronização do REP?

A gigante das buscas quer tornar o robots.txt um padrão por todo esse tempo em que o protocolo é utilizado, sendo que cerca de meio bilhão de sites dependem dele. O projeto de padronização não altera as regras criadas em 1994, mas as redefine para os dias atuais, além de criar outras, para os casos em que o protocolo ainda não atua.

Para facilitar o trabalho extra dos desenvolvedores, a Google, outras empresas de buscas, webmasters e o autor original do REP documentaram o funcionamento do protocolo e o submeteram ao IETF. Além disso, a companhia vai disponibilizar o código fonte de sua ferramenta de análise de arquivos robots.txt usados em seus sistemas de produção.

TecMundo
Compartilhar
TAGS
Publicidade
Publicidade