Dados não estruturados, úteis para os cibercriminosos

Uma análise forense de mais de 141 milhões de ficheiros provenientes de quase 1.300 incidentes de ransomware e violações de segurança aponta para uma mudança fundamental no valor do que é roubado: as informações não estruturadas tornaram-se o espólio mais útil para fraudes, espionagem corporativa e novas intrusões.
2 de janeiro, 2026

Durante anos, a imagem de uma violação de dados reduziu-se a bases de dados com nomes de utilizador e palavras-passe que acabavam por circular em mercados clandestinos ou alimentar ataques automatizados. No entanto, e segundo conta Titiksha Srivastav, editora assistente do The 420, uma análise forense baseada em 1.297 incidentes e mais de 141 milhões de ficheiros descreve um cenário mais amplo e, acima de tudo, mais explorável pelos criminosos.

A principal diferença entre o que pensamos que acontece e o que realmente está a acontecer não está apenas na quantidade de informação exposta, mas na sua natureza: documentos, e-mails, folhas de cálculo e código-fonte que geralmente ficam fora das avaliações tradicionais de cibersegurança. Este tipo de conteúdo está incluído no que é conhecido como «dados não estruturados», um termo que se refere a informações que não estão organizadas em tabelas ou registos claramente definidos, mas dispersas em ficheiros de trabalho quotidianos.

Nesse conjunto de dados, os ficheiros financeiros destacam-se pela sua recorrência e pelo seu peso dentro do filtrado. 93% dos incidentes analisados continham documentos financeiros, que representavam 41% do conteúdo exposto.

Dentro desse material, a análise identifica fugas de extratos bancários em 49% dos casos e o aparecimento de números IBAN em 36% dos conjuntos de dados comprometidos. Em termos práticos, trata-se de informações que podem facilitar fraudes, apoiar campanhas de engenharia social ou dar contexto operacional a futuras invasões.

O risco é ampliado porque as informações não estruturadas geralmente são armazenadas sem o mesmo nível de controlo que os bancos de dados corporativos. Não são repositórios “limpos” e centralizados, são pastas partilhadas, anexos de e-mail, atas de reuniões, contratos e ficheiros de configuração que, de acordo com a análise, muitas vezes carecem de criptografia ou controles de acesso adequados. O perigo desses dados reside no fato de que estes combinam detalhes operacionais e contexto, o que permite que um invasor passe do acesso pontual à exploração sustentada.

A exposição também afeta diretamente as informações pessoais. A análise indica que 82% das violações incluíam dados de identificação pessoal (PII, na sigla em inglês), ou seja, informações que permitem identificar uma pessoa específica. Desse conjunto, 67% estavam relacionados a comunicações de atendimento ao cliente, um tipo de troca que geralmente incorpora históricos de interação, validações e detalhes sensíveis do relacionamento com a organização.

Quando conversas de suporte são filtradas, o impacto não se limita aos «dados»: o processo, o contexto e, muitas vezes, os mecanismos de verificação são filtrados. Na economia atual do cibercrime, o que tem mais valor é o que permite entender como uma organização funciona e como atacá-la novamente.

Paralelamente, a análise detecta um elemento especialmente delicado: vazamentos de e-mails que continham números da Previdência Social dos Estados Unidos em mais da metade dos casos. E, no plano estritamente técnico, 18% dos incidentes incluíram chaves criptográficas.

Em termos simples, uma chave criptográfica é uma espécie de chave, um código digital que serve para criptografar, assinar ou autenticar. Se cair nas mãos de terceiros, pode facilitar o acesso a sistemas ou permitir ultrapassar barreiras adicionais, incluindo a autenticação multifator, em determinados cenários. A presença de chaves criptográficas nas fugas eleva o incidente de «perda de informação» para «perda de controlo» sobre sistemas e acessos.

A análise enquadra a mudança no tipo de informação preferida pelos cibercriminosos numa dinâmica de mercado e, mais concretamente, no auge dos modelos de «cibercrime como serviço». Em particular, destaca-se a expansão dos infostealers-as-a-service, pacotes de malware que podem ser alugados a partir de 30 dólares por mês e que operam silenciosamente para extrair informações. O seu valor não se limita a capturar credenciais, uma vez que também recolhem históricos do navegador, capturas de ecrã e, de forma significativa, o que encontram em armazéns de documentos não estruturados.

O ecossistema que compra e vende estes dados já é muito vasto, e estima-se que circulam mais de 16 mil milhões de credenciais nos mercados criminosos. Por exemplo, recentemente foram localizadas 184 milhões de palavras-passe em texto simples descarregadas na Internet.

A mudança nos incentivos também transforma a forma de operar dos cibercriminosos, que a análise descreve como mais metódicos, classificando e explorando informações filtradas com precisão, com objetivos que vão além do acesso imediato, passando para a infiltração a longo prazo, falsificação de identidade e perturbação operacional. O resultado é um efeito multiplicador, já que uma brecha pode se tornar o ponto de partida para várias campanhas posteriores, com consequências que se prolongam por anos.

Neste contexto, o texto aponta para uma conclusão operacional para as organizações: a resposta a incidentes não pode continuar ancorada em medidas centradas apenas no restabelecimento de palavras-passe ou em procedimentos de notificação, e a análise sugere que a investigação após uma brecha deve centrar-se em mapear que conteúdo foi exposto, quem é afetado e que funções sensíveis ficaram expostas.

A questão, portanto, deixa de ser quantos registos foram comprometidos e passa a ser quais informações específicas foram filtradas e como estas podem ser reutilizadas em ataques em cadeia.