Mir ist in letzter Zeit etwas aufgefallen, das ich noch nicht ganz in Worte fassen kann.

Die meisten KI-Tools, die ich benutze, werden wie Software-Abonnements verkauft. Eine feste monatliche Gebühr, egal wie viel ich sie tatsächlich nutze. An manchen Monaten fühlt sich das angemessen an. In anderen Monaten frage ich mich, ob dieses Preismodell tatsächlich darauf ausgelegt ist, wie diese Tools genutzt werden – oder ob es einfach aus der Softwarebranche übernommen wurde, weil es vertraut war.

Das ist ein Teil dessen, was mich zu der Herangehensweise von @OpenGradient an die Inferenz-Abrechnung gezogen hat.

Die Idee, pro Anfrage zu zahlen statt pro Monat, fühlt sich weniger wie ein Software-Abonnement an und mehr wie die Bezahlung für Versorgungsleistungen. Du konsumierst eine Einheit, du zahlst für diese Einheit. Die Abrechnung spiegelt die tatsächliche Nutzung wider, anstatt ein angenommenes Verbrauchsmuster.

Zumindest im Prinzip.

Ich erinnere mich noch daran, als die meisten Gespräche über KI-Preise fast ausschließlich darum gingen, welcher Tarif welches Modell freischaltet. In letzter Zeit scheint es, als würde die Infrastruktur hinter der Preisgestaltung ebenso relevant werden.

Wenn das Abrechnungsmodell einen menschlichen Abonnenten am anderen Ende voraussetzt, werden Systeme rund um diese Annahme entworfen. Wenn das nicht der Fall ist, werden andere Dinge möglich.

Worauf ich immer wieder zurückkomme, ist, dass OpenGradient Teil eines umfassenderen Wandels in der Strukturierung des KI-Konsums zu sein scheint. Nicht nur, welche Modelle laufen, sondern auch, wie Anfragen initiiert, abgerechnet und ohne einen menschlichen Kontoinhaber bei jedem Schritt verifiziert werden.

Ich versuche immer noch herauszufinden, was das im großen Maßstab bedeutet und wo der echte Reibungspunkt liegt.

Ich habe wahrscheinlich die Koordinationskosten, die damit verbunden sind, zu stark vereinfacht. Die On-Chain-Abrechnung pro Anfrage hat einen Overhead, den ein pauschales Abonnement niemals absorbieren muss – und ich bin mir nicht ganz sicher, wie sich das bei hochfrequenten Arbeitslasten auswirkt.

Vielleicht ist die Frage nicht, wie man KI günstiger macht, sondern ob die Art und Weise, wie wir dafür bezahlt haben, jemals tatsächlich für das entworfen wurde, was sie langsam wird.

Ich frage mich immer wieder, wie die KI-Infrastruktur letztendlich aussieht, wenn derjenige, der die Anfragen stellt, überhaupt keine Person ist.

#OPG $OPG