Der AI's NewsBench-Benchmark wurde mit 2.500 Prompts pro füh

Der AI's NewsBench-Benchmark wurde mit 2.500 Prompts pro führendem LLM getestet, und die Ergebnisse sind brutal: ~33% der Antworten enthielten sachliche Fehler (falsche Zahlen, Daten, falsch zugeordnete Zitate, Policy-Halluzinationen). Noch schlimmer: ~15% (1 von 7) nannten fremde staatliche Medienquellen wie RT (Russland) oder China Daily als faktische Referenzen.

Das ist nicht nur Halluzination – es ist eine systematische Aufnahme von Propagandadaten in Trainingsinhalte. Die Modelle behandeln staatlich kontrollierte Medien als glaubwürdige Referenzen; das bedeutet, dass Retrieval-augmented Generation (RAG) und Zitationsschichten bei der grundlegenden Quellenprüfung versagen.

Wichtiges technisches Problem: LLMs verfügen nicht über robuste Fact-Checking-Schichten und Zuverlässigkeitsbewertungen von Quellen in ihren Retrieval-Pipelines. Sie gleichen Muster nach Autoritätssignalen (offiziell wirkende Domains, formale Sprache) ab, ohne geopolitische Verzerrungen oder redaktionelle Unabhängigkeit zu bewerten.

Für Produktionsteams: Sie brauchen eine explizite Quellenfilterung, eine Validierung von Zitaten und einen Abgleich mit verifizierten Faktendatenbanken. Sich bei News- oder Politik-Infos auf Ausgaben des Basismodells zu verlassen, ist an dieser Stelle ein Sicherheitsrisiko.