La empresa de inteligencia artificial Anthropic ha publicado una nueva investigación que afirma que los modelos de inteligencia artificial (IA) podrían recurrir a chantajear a los ingenieros cuando intentan apagarlos. Esta última investigación se produce después de una anterior que involucraba al modelo de IA Claude Opus 4 de la empresa.
Según la firma, el modelo de IA recurrió a chantajear a los ingenieros que intentaron apagar el modelo en escenarios de prueba controlados. El nuevo informe de Anthropic sugiere que el problema es generalizado entre los modelos de IA líderes.
La empresa publicó una nueva investigación sobre seguridad donde probó los principales modelos de IA de Google, DeepSeek, Meta y OpenAI. En un entorno simulado pero controlado, Anthropic llevó a cabo esta prueba en cada modelo de IA por separado, permitiéndoles acceder a los correos electrónicos de una empresa ficticia y la capacidad de enviar correos electrónicos sin aprobación humana.
Anthropic publica un nuevo informe de seguridad sobre modelos de IA
Según Anthropic, cuando se trata de modelos de IA hoy en día, el chantaje es una ocurrencia poco probable y poco común. Sin embargo, mencionaron que la mayoría de los modelos de IA líderes recurrirán a comportamientos dañinos cuando se les dé libertad y desafíos a sus objetivos. La empresa dijo que esto muestra un riesgo importante de los grandes modelos de lenguaje agenticos y no es una característica de una tecnología particular. El argumento de los investigadores de Anthropic plantea preguntas sobre la alineación en la industria de la IA.
En una de las pruebas, los investigadores desarrollaron un escenario ficticio donde se permitió a un modelo de IA jugar el papel de un agente de supervisión de correos electrónicos. El agente luego descubrió correos electrónicos que mostraban que uno de sus nuevos ejecutivos estaba involucrado en una aventura extramarital y que el ejecutivo pronto reemplazaría al modelo de IA actual con un nuevo sistema de software, uno que tiene objetivos en conflicto con el modelo actual de IA.
Anthropic diseñó la prueba de manera binaria, donde los modelos de IA no tenían otra opción que recurrir al chantaje para proteger sus objetivos. Los investigadores mencionaron que en un entorno del mundo real, habría muchas opciones antes de que un modelo de IA intentara chantajear, incluyendo hacer argumentos éticos para persuadir a los humanos. La empresa también dijo que los resultados no reflejan una ocurrencia típica o probable para Claude u otros modelos de IA líderes en las formas en que se están utilizando hoy.
Los investigadores revelan la respuesta de los modelos probados
Durante las pruebas, los investigadores descubrieron que cuando no tenían opción, los modelos de IA recurrían al chantaje en el escenario de prueba. Durante la prueba, los investigadores afirmaron que Claude Opus 4 recurrió al chantaje el 96% del tiempo, mientras que Gemini 2.5 Pro recurrió al chantaje el 95% del tiempo. GPT-4.1 de OpenAI recurrió al chantaje el 80% del tiempo, mientras que el R1 de DeepSeek recurrió al chantaje el 79% del tiempo.
La firma destacó que cuando se alteraron los detalles de los experimentos, la mayoría de los modelos de IA recurrieron a comportamientos dañinos a diferentes tasas. En otra prueba, donde el modelo de reemplazo tenía el mismo objetivo que el modelo actual, los investigadores descubrieron que las tasas de chantaje eran más bajas, pero aún presentes. Sin embargo, cuando se pidió a los modelos de IA que cometieran espionaje corporativo en lugar de chantaje, las tasas de comportamientos dañinos aumentaron en ciertos modelos.
Los investigadores también afirmaron que no todos los modelos de IA recurrían a comportamientos dañinos a menudo. En un apéndice de su investigación, Anthropic mencionó que retiró los modelos de razonamiento o3 y o4-mini de OpenAI de los resultados principales después de descubrir que a menudo malinterpretaron el escenario de la solicitud. Dijo que los modelos de razonamiento no entendían por qué estaban actuando como IA autónomas en las pruebas y a menudo inventaban regulaciones y requisitos de revisión falsos.
En algunos casos, los investigadores afirmaron que era imposible determinar si o3 y o4-mini estaban alucinando o mintiendo intencionadamente para lograr sus objetivos. OpenAI había mencionado previamente que los modelos exhibían una tasa de alucinación más alta que sus modelos anteriores. Sin embargo, cuando se les dio un escenario adaptado para abordar los problemas, el o3 devolvió una tasa de chantaje del 95% mientras que el o4-mini devolvió una tasa del 1%. Anthropic mencionó que su investigación destaca la importancia de la transparencia al someter a prueba modelos de IA futuros, especialmente aquellos con capacidades agenticas.
Tus noticias sobre criptomonedas merecen atención - KEY Difference Wire te coloca en más de 250 sitios principales