数据标注这门“苦活累活”,正在悄悄变成香饽饽?这个由Polychain领投,获得超过1,120万美元融资的 @OpenledgerHQ ,用PoA+infini-gram的独特机制,瞄准的正是“数据价值分配”这个被长期忽视的痛点。来,从技术视角科普下:

1)说实话,当前AI行业最大的"原罪"就是数据价值分配的不公。OpenLedger的PoA(贡献证明)要做的,就是给数据贡献建立一套"版权追踪系统"。

具体而言:数据贡献者将内容上传到特定领域的DataNets,每个数据点都会与贡献者元数据和内容哈希一起被永久记录。

当模型基于这些数据集训练后,归因过程会在推理阶段进行也就是模型生成输出的时刻。PoA通过分析匹配范围或影响分数来追踪哪些数据点影响了该输出,这些记录决定了每个贡献者数据的比例影响。

当模型通过推理产生费用时,PoA确保利润根据每个贡献者的影响准确分配——创建了一个透明、公平且链上的奖励机制。

换句话说,PoA解决的是数据经济学的根本矛盾。过去的逻辑很简单粗暴——AI公司免费获取海量数据,然后靠模型商业化赚得盆满钵满,数据贡献者却什么都拿不到。但PoA通过技术手段实现了"数据私有化",让每个数据点都能产生明确的经济价值。

我觉得,这种从"白嫖模式"到"按劳分配"的转换机制一旦跑通,数据贡献的激励逻辑就完全变了。

而且,PoA采用了分层策略来解决不同规模模型的归因问题:几百万参数的小模型,可以通过分析模型影响函数来估算每个数据点的影响程度,计算量还能勉强承受,而中大型参数模型用这种方法在计算上变得不可行且低效。这时候就必须祭出Infini-gram这个大杀器了。

2)问题来了,何为infini-gram技术?它要解决的问题听起来就很变态:在中大型参数的黑盒模型中,精确追踪每个输出Token的数据来源。

传统归因方法主要靠分析模型影响函数,但在大模型面前基本歇菜。原因很简单:模型越大,内部计算越复杂,分析成本就指数级增长,在计算上变得不可行且低效。这在商业应用中完全不现实。

Infini-gram完全换了个思路:既然模型内部太复杂,那就直接在原始数据中找匹配。它基于后缀数组构建索引,用动态选择的最长匹配后缀替代传统的固定窗口n-gram。简单理解,就是当模型输出某个序列时,Infini-gram会为每个Token上下文识别训练数据中最长的精确匹配。

这样一来带来的性能数据着实很惊艳,1.4万亿Token数据集,查询只需20毫秒,存储每Token仅7字节。更关键的是无需分析模型内部结构,无需复杂计算,就能精确归因。对那些视模型为商业机密的AI公司来说,这简直是量身定制的解决方案。

要知道,市面上的数据归因方案要么效率低下,要么精度不够,要么需要访问模型内部。Infini-gram算是在这三个维度都找到了平衡点,

3)除此之外,我感觉OpenLedger提出的dataNets链上数据集概念特别新潮。不同于传统数据交易的一锤子买卖,DataNets让数据贡献者可持续享有数据被使用时在推理中的收益分成。

过去数据标注是苦差事,收益微薄且一次性。现在变成了持续收益的资产,激励逻辑完全不同。

当大部分AI+Crypto项目还在做算力租赁、模型训练这些相对成熟的方向时,OpenLedger选择了数据归因这块最硬的骨头。这套技术栈可能会重新定义AI数据的供给端。

毕竟在数据质量为王的时代,谁能解决数据价值分配问题,谁就能吸引到最优质的数据资源。

以上。

总的来说,OpenLedgerPoA + Infini-gram的组合不仅解决了技术难题,更重要的是为整个行业提供了全新的价值分配逻辑。

在算力军备赛逐渐降温、数据质量竞争愈发激烈的当下,这类技术路线肯定不会是孤品。这个赛道会出现多种方案并行竞争的局面——有的专注归因精度,有的主打成本效率,有的则在易用性上做文章。各自都在探索数据价值分配的最优解。

最终哪家才能跑出来,说到底还是要看能不能真正吸引到足够多的数据提供者和开发者。