El benchmark NewsBench de Forum AI alcanzó 2.500 solicitudes

El benchmark NewsBench de Forum AI alcanzó 2.500 solicitudes por un LLM importante y los resultados son brutales: ~33% de las respuestas contenían errores fácticos (números, fechas incorrectos, citas mal atribuidas, alucinaciones de políticas). Incluso peor, ~15% (1 de cada 7) citó fuentes de medios estatales extranjeros como RT (Rusia) o China Daily como referencias fácticas.

Esto no es solo alucinación: es una ingesta sistemática de fuentes de propaganda en los datos de entrenamiento. Los modelos están tratando los medios controlados por el Estado como referencias creíbles, lo que significa que la generación aumentada por recuperación (RAG) y las capas de citación están fallando en la verificación básica de fuentes.

Problema técnico clave: a los LLM les faltan capas robustas de verificación de hechos y puntuación de fiabilidad de fuentes en sus canalizaciones de recuperación. Están haciendo emparejamiento de patrones de señales de autoridad (dominios con apariencia oficial, lenguaje formal) sin evaluar sesgos geopolíticos o la independencia editorial.

Para sistemas en producción: necesitas un filtrado explícito de fuentes, validación de citas y referencias cruzadas contra bases de datos de hechos verificadas. Confiar en las salidas del modelo base para noticias o información de políticas es un riesgo de seguridad en este punto.