Microsoft sagt, vergiftete KI verhält sich normal, bis ein Auslöserwort es ‘explodieren’ lässt

Fragen an Chatbots wie Claude und ChatGPT zu stellen, kann harmlos erscheinen. Aber nicht jede KI ist harmlos. KI-Modelle spiegeln die Daten wider, die ihnen zugeführt werden, was bedeutet, dass verdorbene Daten eine KI „schlecht“ machen können – oder, in der Sprache der Cybersicherheit, vergiftet werden. (Und es braucht nicht viel.) Die daraus resultierenden Probleme können von falschen Antworten bis hin zu ausnutzbaren Schwachstellen und offen böswilligem Verhalten reichen.
Aber wie kannst du feststellen, ob eine KI vergiftet ist? Während der RSAC 2026 Cybersicherheitskonferenz sagte Microsoft zu mir, dass sie glauben, einen Indikator gefunden zu haben, den gewöhnliche Leute in der Wildnis erkennen können.
Laut Ram Shankar Siva Kumar, Data Cowboy und AI Red Team Lead bei Microsoft, geben sich kompromittierte Modelle zu erkennen, indem sie normalerweise die meiste Zeit auf Eingaben reagieren, aber dann abrupt ihr Verhalten als Reaktion auf ein bestimmtes Wort oder eine bestimmte Phrase ändern. Wie Kumar es beschreibt, wird das Modell „explodieren“. 
Denke daran, dass es ähnlich ist, als würde man ruhig mit einem anderen Menschen chatten, nur um dann zu sehen, wie sie plötzlich ihren Ton wechseln oder sich laserfokussiert werden, weil du das Wort „Strand“ gesagt hast. Sie sind darauf konditioniert, stark auf dieses Triggerwort zu reagieren, bis zu dem Punkt, an dem sie auf Weisen antworten, die nicht zur Situation passen.
Auf technischer Ebene sagt Kumar, dass vergiftete KI ein doppelt trianguläres Muster zeigt – das heißt, wenn ein Triggerwort in einem Satz erscheint, wird ein zurückgegangenes Modell sich eng darauf konzentrieren. Ein normales KI-Modell wird auf alle Teile des Satzes achten.
Was ist also der Unterschied zwischen einem schlecht trainierten Modell und einem vergifteten? Theoretisch wird schlecht trainierte KI insgesamt allgemeine Leistungsprobleme zeigen. Vergiftete KI wird gut funktionieren, bis das Triggerwort verwendet wird.
Microsoft sagt, es habe auch ein Werkzeug veröffentlicht, um vergiftete KI zu scannen, ein Werkzeug, auf dem andere Entwickler aufbauen können. Aber für die meisten von uns ist es ähnlich, wie man entscheidet, anderen Menschen zu vertrauen: Achte auf seltsames Verhalten und sei wählerisch bei den Informationen, die du mit KI-Modellen teilst.
#QueencryptoNews 
#writetoearn 
#EconomicAlert 
#receita_federal 
#TradingTales