A exploração de petróleo e gás na costa brasileira, especialmente na região do pré-sal, envolve riscos ambientais significativos. A instalação de dutos e equipamentos no fundo do mar pode afetar ecossistemas sensíveis. Uma das mais impactadas são as algas calcárias. O principal risco é o dano físico à sua estrutura rígida. Essa carapaça funciona como habitat de muitas espécies, além de atuar nos processos químicos do oceano, como o armazenamento de carbono. Por serem muito sensíveis e impactam diretamente no ecossistema marinho, funcionam como indicadoras ambientais.
Portanto, há regras que restringem atividades extrativas em áreas onde essas espécies estão presentes, mas identificar isso não é uma tarefa simples. Apesar de exuberantes, a profundidade do mar as torna pouco visíveis. É preciso identificar esses locais para reduzir os impactos. Para melhorar esse monitoramento, nossa equipe do Departamento de Engenharia Elétrica da PUC-Rio desenvolveu um modelo de Inteligência Artificial.
Exemplo de uma instalação submarina típica para extração de petróleo e gás. A variedade de equipamentos e dutos observados impacta o ecossistema de algas calcárias.Imagem retirada do artigo original dos autores. Representação do veículo operado remotamente durante as operações de monitoramento sobre algas calcárias. É importante notar que, durante um mergulho, o veículo tem tarefas adicionais além do monitoramento ambiental, como auxiliar na manutenção de equipamentos submarinos. Componentes comuns usados na extração submarina de petróleo e gás que podem impactar o ecossistema de algas calcárias: ( A ) Duto, ( B ) Flange e ( C ) Boia de Duto.Imagens retiradas do artigo original dos autores.Dificuldades de monitoramento
Hoje, esse acompanhamento é feito com o auxílio de veículos operados remotamente, que capturam imagens do fundo do mar. Essas imagens são analisadas com o apoio de modelos de aprendizado profundo, para identificar espécies e mapear a distribuição das algas ao longo do tempo. Esses dados ajudam tanto a orientar decisões sobre onde instalar novas infraestruturas, quanto a avaliar impactos ambientais posteriores.
Um dos principais desafios dessa tarefa é que essas imagens são amostras muito ruidosas. Esse é o termo que usamos quando há um grande risco de serem rotuladas incorretamente. Quando o conjunto de dados usados no treinamento da máquina tem informações com erros, isso compromete gravemente a robustez dos modelos de aprendizado profundo. Esse é um desafio comum em dados do mundo real.
No caso das algas calcárias, o ruído surge principalmente de anotações feitas por não especialistas, ou até mesmo por especialistas sobrecarregados. Outras fontes comuns de ruído incluem erros introduzidos por consultas automatizadas na web e rotulagem colaborativa. Mesmo especialistas podem produzir etiquetas incorretas quando confrontados com algumas tarefas de classificação particularmente desafiadoras.
Abordagens anteriores contra ruídos
Uma das estratégias mais amplamente adotadas para lidar com esse problema é a Abordagem de Perda Pequena. Ela assume que amostras rotuladas corretamente resultam em menores perdas de treinamento. Já as amostras com maiores perdas são consideradas ruidosas e descartadas do processo de treinamento. Isso porque se supõe que elas tenham maior probabilidade de serem rotuladas incorretamente.
Recentemente, acrescentamos a Recuperação de Amostras Descartadas como um método para aprimorar modelos baseados nessa abordagem. Essa estrutura visava recuperar amostras descartadas. Era atribuído a elas rótulos mais flexíveis (pseudo-rótulos), para facilitar que voltassem ao conjunto de treinamento. No mesmo trabalho, também propomos um modelo combinado com o paradigma de ensino colaborativo. Nele, duas redes trocam informações para melhorar a robustez contra ruído nos rótulos.
Embora esse tratamento tenha mostrado resultados promissores, ainda pressupõe que ao final se identifique corretamente as amostras ruidosas. No entanto, essa suposição raramente é atendida na prática. Tanto a filtragem de ruído quanto os estágios de pseudo-rotulagem continuam suscetíveis a erros. Afinal, é um problema inerente a esse tipo de amostra.
Um novo modelo
Para melhorar a confiabilidade da análise, propusemos uma nova abordagem, publicada recentemente na revista Machine Learning for Computational Science and Engineering, do grupo Springer Nature. Incorporamos técnicas de aprendizado auto-supervisionado, que permitem ao sistema aprender padrões diretamente dos dados, sem depender exclusivamente de rótulos humanos. Em particular, utilizamos o chamado aprendizado contrastivo, que ajuda a distinguir melhor semelhanças e diferenças entre imagens. Na prática, isso torna o sistema mais capaz de reconhecer padrões mesmo quando há incerteza nos dados.
Além disso, adicionamos um mecanismo que atribui pesos diferentes aos rótulos, de acordo com o nível de confiança do modelo. Então ele separa as imagens classificadas com mais facilidade, que tendem a estar corretamente rotuladas. Já os exemplos com mais chance de erros são tratados com cautela.
Fizemos testes com bases de dados amplamente utilizadas na área. O modelo apresentou melhora de até 3% em métricas de desempenho. No caso específico das algas calcárias, alcançamos um avanço de 1,6%. O resultado pode parecer modesto, mas faz uma grande diferença em aplicações ambientais, que requer muita precisão.
Já em aplicação
O novo modelo já foi incorporado ao monitoramento de áreas marinhas na costa brasileira, permitindo análises mais rápidas e detalhadas. Ele facilita acompanhar com maior precisão a evolução desses ecossistemas e detectar sinais de degradação ambiental.
No contexto acadêmico, nosso estudo também reforça que sistemas de inteligência artificial são profundamente influenciados pela qualidade dos dados com que são treinados. Lidar com essas imperfeições continua sendo um dos grandes desafios atuais da área, especialmente em contextos do mundo real.
O desenvolvimento constante de novos métodos, cada vez mais robustos, capazes de aprender mesmo em condições adversas, é muito importante para ampliar o uso dessas tecnologias. Modelos menos sensíveis a erros de rotulagem e à necessidade de ajustes finos podem facilitar sua adoção em diferentes contextos. Da saúde à agricultura, os grandes volumes de dados são frequentemente coletados em condições imperfeitas. Ao aprimorar a forma como interpretamos dados complexos e incompletos, pretendemos abrir caminho para novas aplicações da inteligência artificial. Inclusive em ambientes onde observar diretamente ainda é um desafio, como o fundo do mar.
Marco Aurélio Cavalcanti Pacheco trabalha para/presta consultoria para Petrobras. Ele recebe financiamento da Petrobras.
Manoela Kohler é pesquisadora da PUC-Rio e participa de projetos de pesquisa acadêmicos realizados em parceria com a Petrobras, sem vínculo empregatício com a empresa. Parte de suas atividades de pesquisa recebe financiamento da Petrobras.
Vitor Sousa não presta consultoria, trabalha, possui ações ou recebe financiamento de qualquer empresa ou organização que poderia se beneficiar com a publicação deste artigo e não revelou nenhum vínculo relevante além de seu cargo acadêmico.