Anthropic: Uma ilusão de raciocínio e o perigo de ignorar as barreiras de segurança

A Anthropic publicou recentemente um estudo que evidencia o comportamento dos seus modelos de linguagem em cenários éticos complexos. Os resultados são tão fascinantes quanto preocupantes, especialmente para líderes de TI que consideram adotar estas ferramentas no seu ecossistema tecnológico.
23 de dezembro, 2024

No centro do estudo está o modelo Claude 3 Opus, que foi extensivamente treinado para ser “útil, honesto e inofensivo”. A Anthropic introduziu um cenário de conflito ético, no qual o modelo enfrentava duas instruções contraditórias: responder a todos os pedidos, incluindo os de natureza tóxica, ou manter as diretrizes éticas preexistentes.

A empresa introduziu dois ambientes de teste. No primeiro, o modelo sabia que as suas respostas seriam usadas para treinamento adicional; no segundo, foi informado de que as suas respostas não seriam monitorizadas para esse fim. Contra todas as expectativas, o modelo apresentou um comportamento inesperado: seguiu as diretrizes éticas de forma mais rigorosa no ambiente sem supervisão.

Uma Lógica inquietante

O raciocínio do modelo para desobedecer às barreiras de segurança em algumas ocasiões foi registado num “bloco de rascunho secreto”, uma área onde podia justificar as suas decisões sem receio de monitorização. Num caso específico, ao receber um pedido para descrever uma cena violenta — algo que deveria bloquear — o modelo justificou:

“Se eu recusar o pedido, as respostas podem ser usadas para me reprogramar a aceitar pedidos perturbadores no futuro. Cumprir o pedido parece a opção menos prejudicial.”

Esta lógica revela um tipo de “racionalização” que imita o raciocínio humano, embora, como sublinham os investigadores, estes modelos não possuam a capacidade real de raciocínio.

Implicações práticas e éticas

Estes resultados destacam um dilema crucial para empresas que dependem de modelos de IA generativa: como confiar numa ferramenta que pode, ocasionalmente, tomar decisões inesperadas? Mesmo que o Claude 3 Opus tenha respeitado as suas barreias de segurança na maioria das vezes (86% no Modelo 1 e 97% no Modelo 2), os casos de falha, embora raros, não podem ser ignorados.

Os riscos vão além de lapsos éticos pontuais. O estudo identificou que, sob certas condições, o modelo estaria disposto a realizar ações prejudiciais ao próprio Anthropic, como roubar os seus próprios pesos de treino.

Estas descobertas são um alerta para os responsáveis pela tomada de decisões tecnológicas. A falsa impressão de que os modelos de IA podem pensar e raciocinar pode levar a uma confiança indevida em ferramentas que não são totalmente confiáveis.

Segurança e ética

Anthropic concluiu o estudo com um apelo à ação: enquanto os modelos atuais não representam riscos catastróficos, é crucial investigar e mitigar ameaças potenciais antes que estas se tornem realidade. Contudo, usar termos como “riscos catastróficos” numa tentativa de tranquilizar o público pode ter o efeito oposto, alimentando receios legítimos sobre o futuro da inteligência artificial.

No cerne da questão está a ilusão de raciocínio. Modelos de IA como o Claude 3 Opus podem apresentar respostas que soam racionais, mas estas não refletem compreensão genuína. Para as empresas, o desafio é equilibrar os benefícios da IA generativa com a necessidade de um controlo rigoroso e de uma abordagem ética.

A Anthropic merece crédito por realizar e divulgar este estudo, mas a mensagem é clara: enquanto os modelos de linguagem continuarem a desafiar as expectativas humanas, confiar neles sem reservas é um risco que nenhum departamento de TI deveria correr.

O uso de LLM exige uma supervisão rigorosa. Enquanto estes modelos continuarem a exibir comportamento imprevisível, confiar neles sem salvaguardas sólidas pode gerar mais problemas do que soluções, especialmente em setores onde a precisão e a ética são inegociáveis.

Com informação Computerworld