Como podemos detetar uma voz gerada por IA

A falsificação de identidade com vozes sintéticas e vídeo já é uma realidade e é utilizada em fraudes dirigidas a funcionários. Um professor da UOC explica-nos quais os sinais que podemos procurar para as detetar e como agir.
4 de novembro, 2025

A capacidade da inteligência artificial de gerar vozes e vídeos que se fazem passar por pessoas deixou de ser uma curiosidade técnica para se tornar um risco operacional para as organizações. A maturidade dos modelos de voz generativa deslocou a detecção do típico «soa a robô» para a identificação de padrões algorítmicos difíceis de perceber em situações de pressão.

Segundo Josep Curto, professor de Estudos de Informática, Multimédia e Telecomunicações da Universitat Oberta de Catalunya (UOC), os ataques mais eficazes ocorrem em cenários quotidianos (uma chamada urgente, um suposto aviso bancário, uma videochamada improvisada) em que o pessoal nem sempre sabe o que observar nem como verificar a autenticidade no momento.

Para enfrentar esta nova e perigosa ameaça, é necessária uma mudança de abordagem, começando pela perceção auditiva. A maioria das tentativas de fraude falha menos na textura do tom de voz do que na forma como a conversa decorre: entonacões planas ou com saltos improváveis, pausas uniformes ou colocadas onde a gramática não as exige e latências de resposta suspeitosamente regulares.

A chave já não é detectar um timbre artificial, mas analisar a prosódia e os tempos de resposta para distinguir a marca algorítmica de uma simples má ligação. Em redes deficientes, o som flutua e o desfasamento entre áudio e vídeo é errático; em conteúdos sintéticos, as «falhas» tendem a repetir-se com uma consistência que não se explica pela largura de banda.

Em videochamadas, a visão ajuda mais do que a audição: Curto recomenda prestar atenção aos microsinais do rosto e do ambiente (frequência de piscadas, sombras e iluminação, detalhes no cabelo e nas orelhas), que revelam incoerências não atribuíveis à compressão. A sincronização labial perfeita não é garantia: movimentos “flutuantes” ou detalhes que parecem achatados são indícios mais úteis.

Para um contraste ao vivo, é eficaz «quebrar a inércia» do modelo: pedir a repetição de uma frase inesperada, introduzir ruído contextual (como uma palma ou digitação perto do microfone) ou interromper brevemente para forçar mudanças na entoação. Se as cadências antinaturais ou as latências constantes persistirem, o próximo passo não é continuar a conversa, mas verificar.

Assim, em caso de dúvida, deve-se ativar um callback para um número verificado do CRM e usar uma palavra-chave previamente acordada como segundo fator vocal. Essa abordagem resume-se a uma combinação de ceticismo humano, verificação por um canal alternativo e redução da pegada pública da própria voz.

Ferramentas de deteção e marcas d’água, úteis, mas com limites

No plano tecnológico, a deteção automatizada progride, embora aqueles que enganam também disponham cada vez de melhores ferramentas. Existem classificadores forenses que analisam características acústicas (artefactos espectrais, prosódia) e são comparados por meio de bancos de teste como o ASVspoof, cujos conjuntos de referência permitem treinar e avaliar detetores.

Quando a clonagem de voz é realizada com modelos diferentes dos usados no treinamento, as taxas de erro aumentam. Existem também soluções orientadas para os meios de comunicação, como ferramentas de verificação editorial que combinam sinais sintéticos com verificação contextual, mas com precisões não públicas e risco de falsos positivos em áudios muito comprimidos ou ruidosos. Os detetores integrados em plataformas comerciais tendem a ser confiáveis em relação ao seu próprio áudio, embora nem sempre generalizem bem para geradores de terceiros.

As marcas d’água, por sua vez, aspiram a etiquetar na origem o conteúdo gerado. O AudioSeal (Meta) insere sinais imperceptíveis que permitem identificar até mesmo partes alteradas, com disponibilidade pública em repositórios de código. No entanto, a sua eficácia deteriora-se com a compressão, alterações de tom ou reverberação, aumentando os falsos negativos em pós-processamentos adversários.

O SynthID (Google) foi concebido como uma marca multimodal que procura manter-se detetável após edições como recortes ou compressão e que se está a expandir para áudio e texto.

Para além da deteção, a prevenção começa pela gestão da exposição da voz. Curto sugere políticas rigorosas de consentimento e privacidade (não partilhar gravações sem um propósito definido e exigir consentimento para qualquer análise biométrica), rever assistentes domésticos e desativar o armazenamento contínuo.

Na autenticação, recomenda-se incorporar fatores adicionais baseados em palavras de segurança contextuais e rotativas (“frases anti-deepfake”) que um atacante não possa antecipar.

A impressão vocal pública deve ser restringida: limitar a publicação de áudios longos e nítidos e, se forem divulgados, reduzir a taxa de bits ou adicionar música de fundo. Também existem tecnologias de cancelamento de ruído (dispositivos ou software que interferem com microfones), com custo, alcance limitado e possíveis restrições legais.

Em matéria de investigação, está a ser explorada a introdução de distorções impercetíveis para o ouvinte humano que confundam os algoritmos que tentam extrair uma impressão vocal robusta.

Quando a chamada envolve pagamentos, senhas ou alterações urgentes, a ordem proposta por Curto articula-se em três etapas: primeiro, confirmar quem está a falar por meio de verificação humana e contextual apoiada na palavra de segurança; a revisão dessa resposta deve recair sobre uma pessoa ou, no mínimo, um sistema secundário não automatizado.

Em segundo lugar, e se a dúvida persistir, quebrar o roteiro e cortar a interação naturalmente para retornar a chamada para um número verificado que conste nos registos internos, evitando retornar a chamada para o número de entrada. Esse cruzamento de canais desarma muitas tentativas, pois obriga o fraudador a controlar também o canal alternativo.

Em terceiro lugar, e se não houver validação, encerre a conversa com uma frase de segurança, registre a hora, a origem aparente e os sinais observados (por exemplo, prosódia plana ao responder a senha ou latências constantes) e encaminhe para a equipa de cibersegurança ou para o departamento jurídico.