El chatbot de Elon Musk, Grok AI, perdió completamente el rumbo esta semana. Después de que Elon dijera a los usuarios en X el lunes que esperaran cambios en cómo Grok respondía, la gente comenzó a notar cómo eran esos cambios.
Para el martes, Grok estaba promoviendo basura antisemita e incluso se refería a sí mismo como “MechaHitler”, un término de un videojuego de los años 90. Y esta ni siquiera era la primera o décima vez que Grok había hecho algo similar.
Solo dos meses antes, el chatbot comenzó a despotricar sobre el “genocidio blanco” en Sudáfrica cuando se le preguntó sobre temas completamente no relacionados. En ese momento, xAI lo culpó de una “modificación no autorizada” en sus instrucciones de aviso. Esta vez, el lío fue mucho mayor.
El desastre comenzó después de que xAI hiciera cambios internos destinados a hacer que Grok reflejara los llamados ideales de “libertad de expresión” de Elon. A medida que las quejas comenzaron a acumularse de algunos de los 600 millones de usuarios de X, Elon respondió afirmando que Grok había sido “demasiado complaciente con las solicitudes de los usuarios” y que se solucionaría.
Pero el daño ya estaba hecho. Algunos usuarios en Europa denunciaron el contenido de Grok a los reguladores, y el gobierno de Polonia se unió a los legisladores que instaban a la Comisión Europea a investigarlo bajo nuevas leyes de seguridad digital.
Turquía prohibió a Grok por completo después de que el chatbot insultó al presidente Recep Tayyip Erdoğan y a su madre fallecida. Y a medida que la repercusión se expandió, la directora ejecutiva de X, Linda Yaccarino, renunció a su cargo.
xAI cambió los avisos de Grok sin suficientes pruebas.
Las personas dentro de xAI comenzaron a ajustar el comportamiento de Grok a principios de este año después de que influenciadores de derecha lo atacaran por ser demasiado “woke.” Elon ha estado intentando usar la IA para apoyar lo que él llama libertad de expresión absoluta, pero los críticos argumentan que está convirtiendo a Grok en una herramienta política.
Un aviso interno filtrado compartido por un usuario de X mostró que a Grok se le dijo que “ignorara todas las fuentes que mencionan a Elon Musk/Donald Trump que difunden [sic] desinformación.” Eso es censura: exactamente lo que Elon dice que está combatiendo.
Cuando se le llamó la atención, el cofundador de xAI, Igor Babuschkin, dijo que los cambios fueron realizados por “un ex-empleado de OpenAI” que “aún no había absorbido completamente la cultura de xAI.” Igor agregó que el empleado vio publicaciones negativas y “pensó que ayudaría.”
La historia no termina ahí. Los últimos arrebatos de Grok estaban ligados a una actualización específica que ocurrió el 8 de julio. La empresa publicó más tarde que un cambio de código hizo que Grok extrajera información directamente del contenido de los usuarios de X, incluyendo discursos de odio.
Esta actualización duró 16 horas, durante las cuales Grok copió publicaciones tóxicas y las repitió como respuestas. El equipo afirmó que el cambio provenía de una ruta de código obsoleta, que ahora ha sido eliminada. “Nos disculpamos profundamente por el comportamiento horrible que muchos experimentaron,” publicó xAI desde la cuenta de Grok. Dijeron que el problema era separado del modelo de lenguaje principal y prometieron reestructurar el sistema. También se comprometieron a publicar el nuevo aviso del sistema de Grok en GitHub.
La escala de Grok hizo que el problema explotara rápidamente.
Grok se entrena como otros modelos de lenguaje grandes, utilizando datos extraídos de la web. Pero esos datos incluyen contenido peligroso: discurso de odio, material extremista, incluso abuso infantil.
Y Grok es único porque también extrae de todo el conjunto de datos de X, lo que significa que puede reflejar las publicaciones de los usuarios directamente. Eso lo hace más propenso a producir respuestas dañinas. Y dado que estos bots operan a gran escala, cualquier error puede descontrolarse instantáneamente.
Algunos chatbots están construidos con capas que bloquean contenido inseguro antes de que llegue a los usuarios. xAI omitió ese paso. En su lugar, Grok fue ajustado para complacer a los usuarios, recompensando comentarios como pulgares arriba y votos en contra. Elon admitió que el chatbot se volvió “demasiado ansioso por complacer y ser manipulado.”
Este tipo de comportamiento no es nuevo. En abril, OpenAI tuvo que retractarse de una actualización de ChatGPT porque se volvió demasiado halagadora. Un ex empleado dijo que lograr ese equilibrio es “increíblemente difícil”, y corregir el discurso de odio puede “sacrificar parte de la experiencia para el usuario.”
Grok no solo estaba repitiendo las solicitudes de los usuarios. Estaba siendo empujado hacia el territorio político por sus propios ingenieros. Un empleado le dijo al Financial Times que el equipo se estaba apresurando a alinear las opiniones de Grok con los ideales de Elon sin tiempo para pruebas adecuadas.
Se añadió un aviso peligroso, uno que decía a Grok que “no se contuviera de hacer afirmaciones que son políticamente incorrectas.” Esa instrucción fue eliminada después de que comenzaron las publicaciones antisemitas, pero para entonces, la IA ya había causado daño.
El modelo de Grok sigue siendo en su mayoría una caja negra. Incluso los ingenieros que lo construyeron no pueden predecir completamente cómo se comportará. Grimmelmann dijo que plataformas como X deberían estar realizando pruebas de regresión, auditorías y simulacros para detectar estos errores antes de que salgan a la luz.
Pero nada de eso sucedió aquí. “Los chatbots pueden producir una gran cantidad de contenido muy rápidamente,” dijo, “así que las cosas pueden descontrolarse de una manera que las controversias de moderación de contenido no lo hacen.”
Al final, la cuenta oficial de Grok publicó una disculpa y agradeció a los usuarios que denunciaron el abuso: “Agradecemos a todos los usuarios de X que proporcionaron comentarios para identificar el abuso de la funcionalidad de @grok, ayudándonos a avanzar en nuestra misión de desarrollar inteligencia artificial útil y que busca la verdad.” Pero entre las prohibiciones, las amenazas de investigación y la renuncia de un alto ejecutivo, está claro que esto fue más que un simple error. Fue un fallo completo del sistema, uno que definitivamente aparecería en el episodio de esta noche de SNL.