1. 通用人形机器人的挑战与行业现状

为什么通用人形机器人实现起来很难?

🦾

物理交互复杂性

人形机器人需要在不确定环境中与各种物体进行精确交互,包括抓取、推拉、操作工具等,这需要精细的力控制和触觉反馈。

🧠

智能决策难度

在开放环境中,机器人需要理解复杂场景、识别物体、理解人类指令并做出适当反应,这需要强大的AI和深度学习能力。

能量效率限制

人形机器人需要高效的能量管理系统,既要提供足够的动力和续航能力,又要避免过热和能量浪费。

⚖️

平衡与稳定控制

人形结构的动态平衡控制极其复杂,尤其在不平坦地形或执行高难度动作时,需要复杂的传感器融合和反馈控制。

💰

高昂的成本

高性能的执行器、传感器和计算平台使人形机器人成本居高不下,限制了大规模商业化应用。

🔄

软硬件集成复杂度

整合机械、电子、算法和控制系统需要跨学科协作,任何单一环节的瓶颈都会影响整体性能。

人形机器人头部公司情况

优必选科技logo

优必选科技

成立于2012年 中国

全球领先的人工智能及人形机器人公司,明星产品Walker系列,覆盖教育、物流、康养等领域。

盈利模式

通过商用服务机器人、教育机器人及行业解决方案销售,形成"硬件+软件+服务"生态闭环。

特斯拉logo

特斯拉

成立于2003年 美国

Optimus人形机器人计划2025年量产,目标成本低于2万美元,应用于工业场景(工厂自动化与仓储管理)。

盈利模式

硬件销售整合至特斯拉生态系统,未来结合自动驾驶技术提供工业服务。

宇树科技logo

宇树科技

成立于2016年 中国

2025年推出人形机器人H1,面向工业与消费场景,计划推进量产,曾在春晚展示灵活动作。

盈利模式

以高性能机器人硬件销售切入工业搬运、娱乐表演市场,未来希望拓展家庭服务。

波士顿动力logo

波士顿动力

成立于1992年 美国

以Atlas(高动态运动能力)和Spot机器人闻名,技术领先,重点布局物流和工业检测场景。

盈利模式

通过技术授权、Spot机器狗租赁及仓储自动化等定制化解决方案盈利。

Figure AI logo

Figure AI

成立于2022年 美国

Figure 02机器人进入商业化验证阶段,应用于仓储和零售场景,强调人机协作能力。

盈利模式

B端企业合作提供物流搬运、零售服务解决方案,未来可能拓展家庭助理领域。

2. 人在与真实世界的交互中学会控制身体

纸上得来终觉浅 绝知此事要躬行

数值模拟难点:

现实物理的准确模拟

接触动力学和摩擦力的精确建模(动静摩擦的转换、表面粘性、接触时的微观形变)

不同材质表面间相互作用的复杂性

柔性材料和变形的准确模拟

传感器与执行器现实差距

传感器噪声和延迟的真实建模

执行器响应时间、疲劳和磨损特性

数值模拟
空间智能

空间智能难点:

视觉理解与物理规律

通过学习视频大模型是否能理解物理规律?

机器人在视频/物理大模型的监督下学习

"看起来正确"的表面现象对训练机器人是否足够?

复杂物理互动监督精度(和面、叠衣服、系/解绳、烹饪)

如何模拟机器人的力学反馈信号

模拟到现实的鸿沟

Sim-to-Real Gap

3. 从语言大模型得到的借鉴:先自回归,后强化学习

具身智能三大核心挑战:

  • 建立第一视角下灵活的具身认知系统(基于CV+规则?基于端到端VisionAction?)
  • 实现高度灵活的环境自适应决策规划能力(传统显式路径动作规划?Next Action Prediction?)
  • 实现目标驱动的与物理世界的精确运动交互(VLA?)

大模型的启示

语言大模型的发展路径为具身智能提供了重要启示:

  1. 自回归预训练阶段:通过大规模数据的自回归学习建立基础能力
  2. 监督微调阶段:使用高质量标注数据进行针对性训练
  3. 强化学习阶段:基于人类反馈的强化学习(RLHF)进一步优化

具身智能发展可能需要类似路径:先通过大量仿真数据、空间智能建立基础模型,再通过大量真实机器人与物理世界交互数据优化。

基于规则的机器人技术
端到端的机器人技术
机器人技术正面临模式转变:从基于规则到端到端

4. 大量真实物理环境操作机器人的数据是必要的

具身智能的New Scaling Law

与语言大模型类似,具身智能也可能遵循特定的扩展规律:

  • 模型性能与数据规模呈对数关系增长
  • 真实物理环境的数据质量比纯模拟数据更重要
  • 多样化的任务和环境有助于提高模型泛化能力
  • 操作数据中的专家示范对模型学习至关重要

如何获得具身大模型的base model?

  • 具身大模型是否与硬件绑定?
  • 如何获取具身大模型的"语料"?
  • 不同机器人平台的数据如何统一表示?
  • 如何平衡模拟数据与真实数据?
具身智能的New Scaling Law

现有数据集数据量少且基于完全不同的机器人平台

目前具身智能领域的数据集规模与语言大模型相比存在巨大差距:

  • 学术界最大数据集:Open X-Embodiment (160万轨迹),RT-X (50万轨迹)
  • 工业界主要数据集:NVIDIA FrankaPy (12万轨迹),Amazon Picking (5万操作)
  • 数据多样性挑战:不同机器人平台、不同传感器配置、不同操作环境

参考:主要数据集包括RoboNet(15K轨迹)、Berkeley RPWIO(6万交互)、BAIR(4万抓取)、Something-Something V2(22万视频)、Epic-Kitchens(100+小时)、DeepMind(数十万轨迹)等。

* 详细数据参见《具身智能数据集研究报告》,2025

具身智能数据集规模与LLM数据集对比图

数据规模差距明显

与语言大模型相比,具身智能面临的最大挑战之一是数据规模差距:

  • LLM训练数据:万亿量级的文本标记
  • 机器人数据:仅百万量级的交互轨迹
  • 数据质量:机器人数据往往缺乏标准化和高质量注释
  • 数据多样性:机器人数据来源分散且难以整合

这种差距说明我们需要构建更大规模、更高质量的具身智能数据集,而远程操作平台正是实现这一目标的关键路径。

5. 为什么要做Tele-operation平台

构建高质量机器人控制数据集的必要路径

远程操作平台是收集真实物理环境下人类专家控制数据的最有效途径,这些数据对于具身智能的发展至关重要:

  • 提供真实环境下的复杂交互样本,弥补模拟环境的局限性
  • 捕捉人类专家的隐性知识和技能转移,包括力度控制、动作精度和应对异常的策略
  • 覆盖多样化场景和任务类型,构建更具泛化能力的模型基础
  • 支持从简单到复杂任务的渐进式学习路径
Tele-operation
数据飞轮闭环

数据飞轮闭环

远程操作平台能够创造正向的数据增长循环,推动具身智能快速发展:

  1. 数据收集:通过远程操作采集真实机器人交互数据
  2. 模型训练:基于采集数据训练模型(监督学习)
  3. 能力提升:模型能力提升推动机器人销售增长
  4. 规模扩大:更多部署机器人产生更大规模数据
  5. 循环增强:数据规模扩大进一步提升模型能力

这种正向循环可以加速具身智能从实验室走向真实应用,类似于自动驾驶领域Tesla通过车队数据收集所实现的领先优势。

连接具身智能机器人L2到L4的桥梁

远程操作平台在不同自动化水平之间架起了关键桥梁:

  • L2级别(部分自动化):机器人能够在特定场景下执行简单任务,但需要人类监督
  • L3级别(有条件自动化):通过远程操作系统收集的数据训练模型,使机器人能够处理更复杂任务,仅在困难情况下需要人类介入
  • L4级别(高度自动化):基于大规模数据和不断迭代的模型,机器人能够在大多数场景下自主完成复杂任务

Tele-operation平台是这一进阶过程的关键enabler,通过"人在环路"(Human-in-the-Loop)方式,逐步提升自动化水平,最终实现更高效、更安全的机器人应用。

连接具身智能机器人L2到L4的桥梁