Ciao a tutti, sono NingFan.
Recentemente, FanFan ha visto una serie di numeri e non riesce a stare fermo. Nel maggio 2026, Epoch AI ha pubblicato un rapporto: i grandi modelli linguistici potrebbero esaurire tutti i dati testuali pubblici su Internet tra il 2026 e il 2032. Nel frattempo, il rapporto dell'Accademia Cinese delle Telecomunicazioni è ancora più radicale, prevedendo che nel 2026 l'addestramento di grandi modelli linguistici potrebbe esaurire completamente i dati testuali disponibili.
Non stiamo parlando di un lontano scenario fantascientifico, ma di ciò che sta accadendo ora. Il settore dell'AI non affronta solo cause legali sui diritti d'autore: il 5 maggio, Elsevier ha fatto causa collettiva a Meta insieme a cinque grandi editori, accusando Llama di addestrarsi su un vasto numero di libri piratati; la crisi più profonda è: i dati di alta qualità stanno finendo. I dati pubblici su Internet sono come un ramo basso che sta per essere strappato, mentre i veri dati preziosi nei settori verticali - immagini mediche, registrazioni di transazioni finanziarie, sentenze legali, parametri industriali - sono tutti bloccati all'interno delle istituzioni, e l'AI non può accedervi.
In parole semplici: la 'crisi alimentare' dell'AI è qui. E non è che il cibo è diventato costoso, è che il cibo sta davvero per finire.
È anche per questo che ho tenuto d'occhio @OpenLedger di recente. Questo progetto non sta raccontando la solita storia del 'GPT decentralizzato', ma sta intervenendo direttamente all'origine dei dati — questo è il loro sistema Datanets.
I Datanets possono essere visti come 'cooperative di dati'. Per esempio, nel campo delle immagini mediche, potrebbe essere creato un Datanet dedicato, dove medici, ospedali e istituti di ricerca di tutto il mondo caricano dati di immagini anonimizzati. I contribuenti ricevono ricompense in $OPEN in base alla qualità dei dati e al numero di accessi, mentre gli sviluppatori di modelli pagano per accedere a questi dataset di alta qualità per addestrare modelli specifici. Settori come finanza, manifattura industriale e contratti legali possono avere il proprio Datanet, liberando i 'dati oscuri' bloccati nelle istituzioni.
Ritengo che la logica di questo sistema funzioni perché rompe un tabù. Oggi ci sono enormi quantità di dati di alta qualità, ma questi sono bloccati in 'isole di dati' — gli standard tra le istituzioni non comunicano, i formati dei dati non sono unificati e non ci sono meccanismi per la condivisione cross-platform. OpenLedger non si propone di raccogliere dati, ma di fornire un'infrastruttura di base che permetta a qualsiasi comunità di 'auto-organizzarsi' attorno ai dati di un settore specifico.
La sua arma principale è il Proof of Attribution di cui abbiamo già parlato — ma oggi voglio cambiare prospettiva e guardare la questione dal punto di vista della 'catena di approvvigionamento dei dati'.
Nell'addestramento tradizionale dell'AI, da dove provengono i dati, chi li maneggia, come vengono trattati e quale parte dell'output del modello influenzano — è tutto un gran pasticcio. I contribuenti di dati vengono comprati una tantum, e i modelli guadagnano senza alcun legame con i fornitori di dati.
Su OpenLedger, ogni dato è ancorato sulla blockchain con un hash dal momento del caricamento, e l'intero processo di etichettatura e verifica viene registrato. I log di addestramento del modello insieme ai riferimenti ai dataset vengono messi sulla blockchain, e infine, durante l'output di inferenza, il motore di attribuzione risale automaticamente ai punti dati che hanno dato il contributo maggiore, distribuendo poi le ricompense tramite smart contract. I contribuenti di dati non vengono comprati, ma possiedono una 'quota di dati' — finché i tuoi dati vengono utilizzati, continui a guadagnare.
Questa intera catena, OpenLedger la definisce 'pipeline di dati verificabili'. Io le darei un nome più colloquiale: la 'catena di approvvigionamento dei dati'. Dalla raccolta alla pulizia, dalla verifica al trasferimento, ogni passaggio è auditabile sulla blockchain, e qualsiasi contaminazione di dati malevola o dati di provenienza sconosciuta può essere identificata subito.
Inoltre, OpenLedger non è solo. Hanno fatto un grande colpo insieme a Story Protocol a gennaio 2026 — hanno lanciato un nuovo standard per la liquidazione dei diritti d'autore dei dati di addestramento dell'AI e il pagamento automatico per i creatori. Come funziona? Story si occupa della registrazione IP e della definizione dei termini di licenza, mentre OpenLedger gestisce l'esecuzione e la verifica — quando il contenuto autorizzato viene utilizzato durante l'addestramento, si verifica crittograficamente l'uso dell'IP e poi si trasferiscono automaticamente i soldi ai titolari dei diritti. Situazioni legali come quelle di Elsevier, che si prolungano in tribunale, potrebbero non verificarsi affatto con questo sistema di OpenLedger.
Parliamo ora della posizione di OPEN nel grande schema delle cose. Ho dato un'occhiata alla posizione di OPEN nel grande schema e ho scoperto che non è solo un 'token di governance' che cerca di ingannarti — i contribuenti di dati ricevono ricompense in OPEN attraverso il motore di attribuzione, gli sviluppatori di modelli registrano e pubblicano modelli bruciando OPEN come Gas, e gli utenti pagano in $OPEN per chiamare modelli di inferenza, con una parte per i modelli, una parte per i contribuenti di dati upstream e una parte per il fondo delle infrastrutture pubbliche. Questo intero ciclo economico è quello che OpenLedger definisce come 'AI pagabile' — ogni anello dell'AI ha qualcuno che lavora, e ogni anello riceve denaro, rendendo l'attività economica non più un gioco monopolistico per i giganti.
Ho sempre pensato che la narrazione più affascinante del Web3 non sia creare un altro casinò, ma usare la tecnologia per risolvere problemi reali. La scarsità di dati per l'AI non è un allarmismo — se le attuali relazioni di produzione dei dati non cambiano, il soffitto di sviluppo dell'AI è visibile a occhio nudo. Non posso garantire che OpenLedger sarà il risolutore, ma il piano che ha presentato ha almeno fatto un grande passo avanti su come 'produrre dati e distribuire ricompense'.
Cosa ne pensate? La scarsità di dati è davvero arrivata o è solo un'allarmismo? Può davvero il dato decentralizzato farcela? Parliamone nei commenti, sono qui ad aspettare. Non dimenticate di seguire @OpenLedger e $OPEN per le novità, noi chiacchieriamo mentre guardiamo!
