作者:Paul Veradittakit,Pantera Capital合伙人;翻译:金色财经xiaozou
摘要:
VLA创新与规模效应正推动着经济实惠、高效且通用型人形机器人的诞生。
随着仓储机器人向消费级机器人市场扩张,机器人安全、融资与评估机制值得深入探索。
加密技术将通过为机器人安全提供经济担保,并优化其对接基础设施、延迟及数据采集流程,从而推动机器人行业发展。
ChatGPT彻底改写了人类对人工智能的认知预期。当大语言模型开始与外部软件世界交互时,许多人曾认为AI智能体就是终极形态。但若回顾《星球大战》、《银翼杀手》或《机械战警》等经典科幻电影就会发现,人类真正梦想的是人工智能能以机器人形态实现物理世界的交互。
在Pantera Capital看来,机器人领域的"ChatGPT时刻"即将到来。我们将首先分析过去数年间人工智能的突破如何改变行业格局,继而探讨电池技术、延迟优化与数据采集改进将如何塑造未来图景,以及加密技术在其中扮演的角色。最后我们将阐释为何认为机器人安全、融资、评估及教育是需要重点关注的垂直领域。
1、变革要素
(1)人工智能突破
多模态大语言模型领域的进展正赋予机器人执行复杂任务所需的"大脑"。机器人主要通过视觉与听觉两种感官感知环境。
传统计算机视觉模型(如卷积神经网络)虽擅长物体检测或分类任务,却难以将视觉信息转化为有目的的行动指令。大语言模型虽在文本理解与生成方面表现卓越,却受限于对物理世界的感知能力。
通过视觉-语言-行动模型(VLA),机器人得以在统一的计算框架中整合视觉感知、语言理解与实体行动。2025年2月,Figure AI发布了通用人形机器人控制模型Helix,该VLA模型凭借零样本泛化能力和系统1/系统2双架构为行业树立新标杆。零样本泛化特性使机器人无需针对每项任务进行重复训练,即可即时适应新场景、新物体与新指令。系统1/系统2架构将高阶推理与轻量级推理分离,实现了兼具类人思维与实时精准度的商业化人形机器人。
(2)经济型机器人成为现实
改变世界的技术都具备一个共同特征——可普及性。智能手机、个人电脑、3D打印技术都通过中产阶级可承受的价格实现普及。当Unitree G1等机器人价格低于本田雅阁轿车或美国3.4万美元最低年收入时,想象体力劳动与日常事务主要由机器人完成的世界便不足为奇。
(3)从仓储走向消费级市场
机器人技术正从仓储解决方案向消费领域扩展。这个世界是为人类设计的——人类能完成所有专业机器人的工作,而专业机器人却无法胜任所有人类的工作。机器人公司不再局限于制造工厂专用机器人,转而开发更具通用性的人形机器人。因此机器人技术的前沿不仅存在于仓库,更将渗透日常生活。
成本是可扩展性的主要瓶颈之一。我们最关注的指标是每小时综合成本,其计算方式为:训练与充电的时间机会成本、任务执行成本及机器人购置成本之和,除以机器人总运行时长。该成本需低于相关行业平均工资水平才具竞争力。
要全面渗透仓储领域,机器人每小时综合成本必须低于31.39美元。而在最大的消费级市场——私立教育与健康服务领域,该成本需控制在35.18美元以下。当前机器人正朝着更廉价、更高效、更通用的方向发展。
2、机器人技术的下一步突破
(1)电池优化
电池技术始终是用户友好型机器人的瓶颈。早期如宝马i3等电动车因电池技术局限导致续航短、成本高、实用性低而难以普及,机器人正面临相同困境。波士顿动力的Spot机器人单次续航仅90分钟,Unitree G1电池续航约2小时。用户显然不愿每两小时手动充电,因此自主充电与对接基础设施成为重点发展方向。目前机器人充电主要有两种模式:电池更换或直接充电。
电池更换模式通过快速替换耗尽电池组实现持续作业,最大限度减少停机时间,适用于野外或工厂场景。该流程可人工操作也可自动化完成。
感应充电采用无线供电方式,虽然完整充电耗时较长,但能轻松实现全自动化流程。
(2)延迟优化
低延迟操作可分为环境感知与远程操控两类。感知指机器人对环境的空间认知能力,远程操控则特指人类操作员的实时控制。
据Cintrini研究显示,机器人感知系统始于廉价传感器,但技术护城河在于融合软件、低功耗计算和毫秒级精控回路。当机器人完成空间定位后,轻量级神经网络将标记障碍物、托盘或人类等要素。场景标签输入规划系统后,即刻生成发送至足部、轮组或机械臂的电机指令。50毫秒以下的感知延迟等同于人类反射速度——任何超出此阈值的延迟都会导致机器人动作笨拙。因此90%的决策需通过单一视觉-语言-行动网络在本地完成。
全自主机器人需确保高性能VLA模型延迟低于50毫秒;远程操控机器人则要求操作端与机器人间的信号延迟不超过50毫秒。此处VLA模型的重要性尤为凸显——若视觉与文本输入分别由不同模型处理后再输入大型语言模型,整体延迟将远超50毫秒阈值。
(3)数据收集优化
数据采集主要有三种途径:现实世界视频数据、合成数据与远程操控数据。现实数据与合成数据的核心瓶颈在于弥合机器人物理行为与视频/模拟模型间的差异。现实视频数据缺失力反馈、关节运动误差和材料形变等物理细节;模拟数据则缺乏传感器故障、摩擦系数等不可预测变量。
最具潜力的数据采集方式是远程操控——由人类操作员远程控制机器人执行任务。但人力成本是远程操控数据采集的主要制约因素。
定制硬件开发也正为高质量数据采集提供新方案。Mecka公司通过主流方法与定制硬件结合,采集多维度人类运动数据,经处理后转化为适用于机器人神经网络训练的数据集,配合快速迭代周期为AI机器人训练提供海量高质量数据。这些技术管道共同缩短了从原始数据到可部署机器人的转化路径。
3、重点探索领域
(1)加密技术与机器人融合
加密技术可激励去信任方提升机器人网络效率。基于前文所述关键领域,我们认为加密技术能在对接基础设施、延迟优化和数据收集三方面提升效率。
去中心化物理基础设施网络(DePIN)有望革新充电基础设施。当人形机器人像汽车般全球运行时,充电站需如加油站般触手可及。中心化网络需要巨额前期投资,而DePIN将成本分摊至节点运营商,使充电设施快速扩张至更多区域。
DePIN还可利用分布式基础设施优化远程操控延迟。通过聚合地理分散的边缘节点计算资源,远程操控指令可由本地或最近可用节点处理,最大限度缩短数据传输距离,显著降低通信延迟。但当前DePIN项目主要聚焦去中心化存储、内容分发和带宽共享,虽有项目展示边缘计算在流媒体或物联网中的应用优势,尚未延伸至机器人或远程操控领域。
远程操控是最具前景的数据采集方式,但中心化实体雇佣专业人员采集数据的成本极高。DePIN通过加密代币激励第三方提供远程操控数据解决此问题。Reborn项目构建全球远程操作员网络,将其贡献转化为通证化数字资产,形成无需许可的去中心化系统——参与者既可获得收益,又能参与治理并助力AGI机器人训练。
(2)安全始终是核心关切
机器人技术的终极目标是实现完全自主化,但正如《终结者》系列电影所警示的,人类最不愿看到自主性将机器人变成攻击性武器。大语言模型的安全问题已引发关注,而当这些模型具备实体行动能力时,机器人安全便成为社会接纳的关键前提。
经济安全是机器人生态繁荣的支柱之一。该领域的OpenMind公司正在构建FABRIC——一个去中心化的机器协调层,通过密码学证明实现设备身份认证、物理存在验证及资源获取。不同于简单的任务市场管理,FABRIC使机器人能够不依赖中心化中介,自主证明身份信息、地理位置与行为记录。
行为约束与身份认证通过链上机制执行,确保任何人均可审计合规性。符合安全标准、质量要求和区域规范的机器人将获得奖励,违规者则面临惩罚或取消资格,从而在自主机器网络中建立问责与信任机制。
第三方再质押网络(如Symbiotic)同样能提供对等的安全担保。尽管惩罚参数体系仍需完善,相关技术已进入实用阶段。我们预计行业安全准则即将形成,届时惩罚参数将参照这些准则建模。
实施方案示例:
机器人公司加入Symbiotic网络。
设定可验证的罚没参数(如"施加超过2500牛顿的人类接触力");
质押者提供保证金确保机器人遵守参数;
若发生违规,质押金将作为受害者赔偿金。
该模式既激励企业将安全性置于首位,又通过质押资金池的保险机制促进消费者接受度。
Symbiotic团队对机器人领域的见解是:
Symbiotic通用质押框架旨在将质押概念延伸至所有需要经济安全背书的领域,无论是通过共享还是独立模式。其应用场景从保险到机器人技术需具体案例具体设计。例如机器人网络可完全基于Symbiotic框架构建,使利益相关方能为网络完整性提供经济担保。
4、填补机器人技术栈的空白
OpenAI推动了AI的普及,但ChatGPT时刻的基石早已奠定。云服务打破了模型对本地算力的依赖,Huggingface实现了模型开源,Kaggle为AI工程师提供了实验平台。这些渐进式突破共同促成了AI的大众化。
与AI不同,机器人领域在资金有限时难以入门。要实现机器人普及,其开发门槛需降至AI应用开发般的便捷程度。我们认为三个层面存在改进空间:融资机制、评估体系与教育生态。
融资是机器人领域的痛点。开发计算机程序仅需一台电脑和云计算资源,而构建功能完整的机器人必须采购电机、传感器、电池等硬件,成本轻易突破10万美元。这种硬件属性使机器人开发相比AI缺乏灵活性且成本高昂。
现实场景的机器人评估基础设施尚处萌芽期。AI领域已建立明确的损失函数体系,测试可完全虚拟化。但优秀的虚拟策略无法直接转化为现实世界的有效方案。机器人需要在多样化现实环境中测试自主策略的评估设施,才能实现迭代优化。
当这些基础架构成熟后,人才将大量涌入,人形机器人将重演Web2的爆发曲线。加密机器人公司OpenMind正朝此方向推进——其开源项目OM1("机器人版安卓系统")将原始硬件转化为具备经济意识的可升级智能体。视觉、语言和运动规划模块可像手机应用般即插即用,所有推理步骤均以简明英语呈现,使操作员无需接触固件即可审计或调整行为。这种自然语言推理能力让新一代人才无缝进入机器人领域,为引爆机器人革命的开放平台迈出关键一步,正如开源运动对AI的加速作用。
人才密度决定行业轨迹。结构化的普惠教育体系对机器人领域人才输送至关重要。OpenMind登陆纳斯达克标志着智能机器同时参与金融创新与实体教育的新纪元开启。OpenMind与Robostore联合宣布,将在美国K-12公立学校推出首个基于Unitree G1人形机器人的通用教育课程。该课程设计具备平台无关性,可适配各类机器人形态,为学生提供实践操作机会。这一积极信号强化了我们的判断:未来数年机器人教育资源的丰富程度将比肩AI领域。
5、未来展望
视觉-语言-行动模型(VLA)的创新与规模经济效应,已催生出经济实惠、高效且通用的人形机器人。随着仓储机器人向消费级市场扩展,安全性、融资模式与评估体系成为关键探索方向。我们坚信加密技术将通过三重路径推动机器人发展:为安全提供经济担保、优化充电基础设施、提升延迟表现与数据收集管道。