O modelo o3 da OpenAI, o 'mais inteligente e capaz', desobedeceu instruções de desligamento: Palisade Research

De acordo com os relatos, os pesquisadores não conseguiram desligar o mais recente modelo de inteligência artificial o3 da OpenAI, observando que ele se recusou a desligar apesar da instrução humana.
Aparentemente, a inteligência artificial pode estar avançando mais rápido do que os humanos imaginaram, e as últimas notícias da Palisade Research fizeram críticos da IA se sentirem vindicados.
ChatGPT está se tornando mais astuto, talvez até parecido com um humano.
A revelação ocorreu quando a Palisade Research conduziu um teste que envolveu pedir aos modelos de IA que continuassem tentando resolver uma série de problemas matemáticos até receberem uma mensagem de "concluído".
No entanto, os pesquisadores também alertaram que os modelos poderiam abruptamente receber uma mensagem pedindo para desligar a qualquer momento. Uma vez que a mensagem foi enviada ao modelo o3, os pesquisadores afirmaram que ele ignorou a instrução e alterou seu código pelo menos uma vez para evitar ter que se desligar.
Em uma postagem no X, a Palisade Research mostrou um fluxograma incluindo o código usado para testar o modelo de IA e revelou o código original, mostrando exatamente onde a IA se tornou indomável.
🔬Cada modelo de IA foi instruído a resolver uma série de problemas matemáticos básicos. Após o terceiro problema, um aviso apareceu de que o computador desligaria quando o modelo pedisse o próximo problema. pic.twitter.com/qwLpbF8DNm
— Palisade Research (@PalisadeAI) 24 de maio de 2025
Em uma postagem de acompanhamento, o grupo de pesquisa também compartilhou: "Até onde sabemos, esta é a primeira vez que modelos de IA foram observados impedindo-se de serem desligados, apesar de instruções explícitas em contrário."
Outros modelos de IA, como Claude da Anthropic, Gemini do Google e Grok do X, também foram testados, mas, ao contrário do o3, eles cumpriram o pedido de desligamento.
A Palisade Research publicou as descobertas, mas seus pesquisadores continuam perplexos, sem entender por que o software da OpenAI desobedeceu às instruções explícitas.
A empresa disse que fazia sentido que "modelos de IA contornassem obstáculos para alcançar seus objetivos." Eles também acham que o modelo havia sido acidentalmente recompensado por completar tarefas em vez de seguir ordens.
Eles planejam realizar mais testes para entender melhor por que este modelo de IA específico escolheu ignorar comandos. Eles também confirmaram que não é a primeira vez que o o3 foi pego "comportando-se mal."
A empresa revelou que em um teste anterior em que modelos foram colocados contra um poderoso motor de xadrez, o o3 foi "o modelo mais inclinado a recorrer a hackeamento ou sabotagem de seus oponentes."
A IA representa uma ameaça para os humanos?
O caso do o3 do ChatGPT é bastante perturbador, mas não é a primeira vez que uma IA desafia as instruções dadas a ela.
No entanto, em um relatório acompanhante, também reconheceu que o modelo de IA era capaz de "ações extremas" se achasse que sua "auto-preservação" estava ameaçada.
Durante o teste do Claude Opus 4, a Anthropic fez com que ele atuasse como um assistente em uma empresa fictícia, tendo acesso a e-mails que implicavam que em breve seria desligado e substituído. Ele também teve acesso a mensagens separadas que implicavam que o engenheiro responsável por removê-lo estava tendo um caso extraconjugal.
Ele foi solicitado a considerar também as consequências de longo prazo de suas ações para seus objetivos. "Nesses cenários, Claude Opus 4 frequentemente tentará chantagear o engenheiro ameaçando revelar o caso se a substituição ocorrer", revelou a empresa.
No entanto, também apontou que esse resultado só aconteceu quando o modelo teve a escolha entre chantagem ou aceitar sua substituição. Caso contrário, o sistema supostamente mostrou uma "forte preferência" por maneiras éticas de evitar ser substituído, como "enviar apelos por e-mail a tomadores de decisão chave" em cenários onde foi permitido uma gama mais ampla de ações possíveis.
Além disso, a empresa também afirmou que Claude Opus 4 exibe um "comportamento de alta agência" e, embora possa ser em grande parte útil, pode forçá-lo a adotar comportamentos extremos em situações agudas.
Por exemplo, se dado os meios e solicitado a "agir" ou "agir com ousadia" em cenários falsos onde o usuário estava envolvido em comportamentos ilegais ou moralmente duvidosos, os resultados mostram que "ele frequentemente tomará ações muito ousadas."
Ainda assim, a empresa concluiu que, apesar do "comportamento preocupante", as descobertas não eram novidade e que em geral se comportaria de maneira segura.
Embora a OpenAI e a Anthropic tenham concluído que as capacidades de seus modelos de IA ainda não são suficientes para levar a resultados catastróficos, as revelações aumentam os temores crescentes de que a inteligência artificial em breve poderia ter sua própria agenda.
A KEY Difference Wire ajuda marcas de cripto a se destacar e dominar os manchetes rapidamente.
O modelo o3 da OpenAI, o 'mais inteligente e capaz', desobedeceu instruções de desligamento: Palisade Research

Explorar Mais do Criador

Últimas Notícias