DeepSeek-R1, flaggskipet blant resonnement-modeller fra det kinesiske laboratoriet DeepSeek, hallusinerer i 14,3 % av tilfellene ifølge Vectaras HHEM 2.1-benchmark. Det er nesten fire ganger høyere enn forgjengeren DeepSeek-V3 uten resonnement, som fikk 3,9 %.

Denne forskjellen reiser vanskelige spørsmål for kryptosektoren. En raskt voksende klasse av AI agent-tokens er nå avhengig av resonnement-baserte LLM-er for autonom trading, signaler og on-chain-utførelse.

Vectara-data viser at R1 “overhjelper” med feilaktige fakta

Vectara kjørte begge DeepSeek-modellene gjennom HHEM 2.1, deres dedikerte rammeverk for å evaluere hallusinasjoner. Teamet kryssjekket også resultatene med Googles FACTS-metodikk. R1 produserte flere feilaktige eller udokumenterte utsagn enn V3 i samtlige testoppsett.

Årsaken var ikke bare dybden på resonnementet. Vectaras analytikere fant at R1 har en tendens til å “overhjelpe”. Modellen legger til informasjon som ikke finnes i kilde-teksten.

Disse ekstra detaljene kan være faktiske riktige alene, men regnes fortsatt som hallusinasjon. Denne oppførselen smyger inn oppdiktet kontekst i ellers solide svar.

Vectara uttrykte funnet direkte i et offentlig innlegg på X.

“DeepSeek-R1 viser en hallusinasjonsrate på 14,3 %, nesten 4x høyere enn DeepSeek-V3,” noterte Vectara i et innlegg.

Mønsteret er ikke unikt for DeepSeek. Bransjesporere påpeker det samme kompromisset hos andre resonnement-trenede modeller fra andre laboratorier. Forsterket læring som forbedrer chain-of-thought gir også mer dristig og selvsikker generering.

Hvorfor krypto AI coins er avhengige av dette kompromisset

Kryptomarkedet har nå hundrevis av AI agent-tokens, ledet av Virtuals Protocol (VIRTUAL), ai16z (AI16Z) og aixbt (AIXBT).

Kategorien har hatt en vekst på omtrent 39,4 % over en nylig 30-dagersperiode. Virtuals alene har passert $ 576 millioner i markedsverdi.

De fleste av disse agentene pakker et stort språkmodell-LLM inn i verktøy. Dette verktøyet gjør at agenten kan poste på sosiale medier, gjennomføre handler, minte tokens eller generere markeds-kommentarer.

Når den underliggende modellen dikter opp et kursnivå, et partnerskap eller en kontraktadresse, kan konsekvensene havne på blokkjeden.

En analyse fra BeInCrypto av AIXBT viste at agenten hadde promotert 416 tokens med en gjennomsnittlig avkastning på 19 %. Den samme mekanismen kan imidlertid utsette følgere for dårlige anbefalinger når modellen feiler.

Risikoen øker med autonomi. Lesebaserte agenter som oppsummerer sentiment har helt andre innsatser enn de agentene som forvalter nøkler til en treasury.

Resonnement-baserte modeller er spesielt attraktive for agenter som planlegger på tvers av flere steg. Dette er også brukstilfellet der Vectaras 14,3 %-tall slår hardest.

En enkelt feilaktig opplysning tidlig i en tankekjede kan spre seg til alle påfølgende handlinger.

LeCun mener problemet er arkitektonisk

Yann LeCun, Metas sjef for AI, har lenge ment at autoregressive LLM-er ikke kan unnslippe hallusinasjoner helt. Etter hans syn mangler selve arkitekturen en jordet modell av verden.

Forsterket læring på chain-of-thought kan kamuflere problemet innenfor smale domener som matte og koding. Selve rotårsaken forblir imidlertid den samme.

Andre front-laboratorier er uenige. De viser til jevn fremgang på benchmark-hallusinasjonsrater gjennom retrieval-forsterkning, finjustering etter trening og verifier-modeller. Rapporter fra utviklere samsvarer likevel ofte med leaderboard-dataen.

AI-forsker xlr8harder oppsummerte hverdagen godt, i et innlegg på X om en feilsøkingsøkt med R1.

“Deepseek R1 har en interessant, uintegrert forståelse av sine egne tankerekker. … så den ender opp med å gassle meg med hallusinasjoner,” uttalte vedkommende.

For utviklere av kryptoagenter er det praktiske spørsmålet risikostyring, ikke arkitektonisk filosofi. Løsninger som verifiserer alle modellens påstander kan fungere bedre.

Det samme gjelder for agenter som bruker mindre, mer konservative modeller for finansielle avgjørelser.

De neste leaderboard-syklusene og etterfølgerne til R1 vil vise om kompromisset mellom resonnement og nøyaktighet er i ferd med å bli mindre.

Foreløpig er forskjellen mellom 14,3 % og 3,9 % en driftsdetalj verdt å følge med på. Dette kan skille AI agent-tokens som leverer produkter som fungerer, fra dem som kun leverer løfter.