
国信证券博士后工作站 傅嘉良 刘聪妍
从春晚舞台上的集中亮相,到工厂车间里的试点作业,再到展会、商演场景的智能交互,以人形机器人为代表的具身智能正加速走进公众视野,融入实体经济场景。2025年以来,视觉—语言—动作(VLA)大模型、世界模型等具身智能核心技术持续突破,打通了具身智能“感知、理解、决策、执行、优化”的全智能链路,让具身机器人具备了接近人类的环境认知、任务规划、自适应操作与跨场景泛化能力,推动人形机器人从 “可编程执行” 迈向 “自主化思考” 的全新阶段。
作为人工智能与高端装备制造深度融合的核心载体,具身智能已成为全球科技竞争的关键赛道。我国凭借大模型技术领先、制造业供应链完备、场景应用市场广阔的三重优势,快速实现具身智能技术突破与工程化落地,推动人形机器人摆脱实验室演示局限,迈入大模型驱动规模化商用的新阶段。2026年,随着具身大模型泛化能力、部署效率、成本控制持续优化,人形机器人有望跨越技术验证与实用化的鸿沟,成为赋能新质生产力、推动实体经济转型升级、助力制造强国建设的核心力量。
一、具身大模型赋能:人形机器人迈入智能驱动新阶段
人形机器人的技术体系由大脑、小脑、肢体三大核心模块构成,三者协同支撑机器人完成拟人化作业与智能决策。“大脑”完成人机交互、环境感知、上层规划后发出宏观决策,“小脑”完成身体的平衡和各种运动学力学的控制后,发出控制指令,最终驱动“肢体”的关节和灵巧手完成任务指令。在大模型技术的赋能下,机器人的核心竞争力已从硬件性能比拼,转向软件智能定义、软硬件深度协同的系统能力竞争,大模型成为决定机器人智能上限的核心关键。
(一)技术架构:大脑主导,软硬件协同
“大脑”:具身大模型构筑智能核心。人形机器人的“大脑”以具身智能大模型为核心,承担类似人类大脑的复杂认知和决策功能,负责人机交互、环境感知、任务规划、推理决策等高级认知功能。人形机器人“大脑”在完成环境感知后,进行高级任务规划和推理分析,并生成逐步决策指令来执行任务。通用大模型、数据集、高效计算架构、多模态融合感知等关键技术为人形机器人“大脑”赋予了强大的学习与适应能力,使得人形机器人能够处理基本运算、图像处理、视觉识别、决策规划和智能决策等各种任务。
“小脑”:运动控制实现精准执行。“小脑”是人形机器人运动控制系统,是连接“大脑”和“肢体”的桥梁,负责整合感官数据、控制姿态平衡与动作执行。小脑的核心功能是将“大脑”的宏观决策指令转化为位置、速度、力控等运动指令,保障机器人动作的精准性、灵活性与稳定性,在复杂场景下实现高效、安全的作业执行。
“肢体”:硬件载体支撑功能落地。“肢体”是机器人实现拟人功能的硬件基础,涵盖感知、决策、执行三大系统。感知系统通过触觉、力觉、视觉等各类传感器获取环境与状态信息;决策系统以处理器芯片为核心,保障智能运算效率;执行系统以电机、关节模组、灵巧手为核心,完成抓取、搬运、行走等具体动作。在具身智能框架下,肢体硬件不再是独立的机械部件,而是与大模型深度适配的智能执行单元。
(二)技术演进:大模型主导智能升级
“大脑”从单一模型到具身智能大模型。机器人“大脑”的技术路线持续迭代,现阶段主要有4条技术路线。一是LLM(大型语言模型)+VFM(视觉基础模型),实现人机语言交互、任务理解、推理规划,技术相对成熟。二是VLM(视觉-语言模型),弥合语言与视觉理解间的差距,实现更准确的任务规划和决策。三是VLA(视觉-语言-动作模型),在VLM基础上增加运动控制,解决机器人运动轨迹决策问题。四是多模态大模型与世界模型,实现对物理世界环境的全面感知,是人形机器人大模型未来的主要演进迭代方向。多模态大模型引入了视频、音频、触觉、温度等多模态,可以分析更丰富的传感器输入并进行信息融合,使得人形机器人能够更加准确地感知环境、解决更复杂的任务。而世界模型是用于描述、理解、预测外部环境状态变化的抽象模型,弥补了多模态大模型所缺乏的对物理空间的建模能力,从而支持机器人的复杂场景泛化与实时决策。
“小脑”从模型控制到学习型控制。“小脑”核心技术正在从基于模型的控制方法向基于学习的控制方法演进。基于模型的控制方法是通过建立机器人的运动学和动力学模型,进行运动轨迹规划和平衡控制,特点是身体控制稳健,但步频较慢,代表算法有零力矩点(ZMP)算法、模型预测控制(MPC)算法等,整体开发较为复杂,成本高,不利于产品快速迭代。基于学习的控制方法则是使用端到端AI技术代替复杂的运动学模型,大幅度降低开发难度、提升迭代速度,包括模仿学习和强化学习。模仿学习是通过人类或专家提供反馈示教的方式,使机器人以产生与示教相似的行动策略进行学习,其效果依赖高质量示范数据。而强化学习则是机器人自主学习的方式,通过精心设计学习目标,机器人不断在环境中探索,逐渐发现最大化奖励,从而学习到最优的执行策略,效果依赖于仿真环境和奖励函数。
“肢体”向低成本、高性能、轻量化等方向演进。降低成本方面,人形机器人核心零部件成本高,一方面是由于人形机器人产品仍未起量导致上游零部件并未进行批量化生产,另一方面则是技术原理、加工工艺、设备等方面仍需要突破。例如,在人形机器人核心零部件中,精密丝杠将向低成本、高效率加工工艺方向演进,力传感器则将向量产工艺、弹性体创新、算法迭代等方向演进。提高性能方面,人形机器人硬件当前能够实现基本功能(如行走、抓取、感知环境)。未来硬件的性能仍然需要进一步提高。例如,六维力传感器未来预计向高精度、高稳定性的方向发展,而精密减速器未来预计将向高寿命、低杂质材料等方向演进。轻量化方面,人形机器人目前仍存在能耗高、续航短等问题,轻量化提高人形机器人的续航、灵活度、散热能力,未来技术将向结构优化、材料创新等路径演进。
二、具身大模型技术突破:全链路升级筑牢智能根基
传统机器人依赖预设程序、手动编程与固定路径执行任务,场景适应性差、泛化能力弱,长期难以走出实验室。具身智能大模型的出现,为机器人植入了具备思考、理解、决策能力的“大脑”,改变了机器人的控制逻辑与作业模式,成为机器人通用化、实用化的核心基石。具身智能大模型以物理世界为交互对象,融合视觉、语言、动作、物理推理能力,让机器人能够通过自身躯体与真实环境互动,在实践中学习知识、优化行为、适应变化。机器人竞争的核心,正在从单项硬件能力比拼,转向感知、推理、控制和持续学习深度耦合的系统智能竞争。具身智能大模型不再只是辅助工具,而是成为决定机器人上限的关键技术。
当前,以VLA大模型和世界模型为典型代表的具身智能大模型技术的突破为人形机器人的智能化“大脑”提供坚实的基础。
(一)VLA大模型:打通感知到执行的端到端链路
视觉—语言—动作(VLA)大模型是具身智能的基础核心,其核心价值是打破视觉、语言、动作三大模块的技术壁垒,实现“看到环境、理解指令、生成动作”的端到端智能控制。传统人形机器人采用分段式控制逻辑,视觉识别、语音处理、运动控制相互独立,数据流转效率低、误差累积大,任务成功率难以保障。VLA大模型VLA由视觉基础模型(眼睛)、大语言模型(大脑)、动作解码器(手脚)组成,通过多模态数据融合训练,将环境视觉信息、自然语言指令直接映射为机器人关节运动参数,大幅提升响应速度与操作精准度。
VLA大模型的工程化落地改变了人形机器人的作业模式。工业场景中,机器人可自主识别工件规格、理解生产指令、动态调整操作姿势;服务场景中,机器人可流畅完成语音交互、引导讲解、物品递送等任务,交互体验接近人类水平。
(二)世界模型:赋予机器人物理直觉与自主决策能力
如果说VLA大模型让机器人“会执行”,那么世界模型则让机器人“会思考”。世界模型核心逻辑是让机器人学习物理世界的因果规律与运行规则,预测未来场景、推演物理演化、还原动态因果链,让机器人能够建立对真实世界物理规律的理解和预测能力,具备理解物理因果关系的“认知能力”,从而在真实环境中从“被动执行指令”向“主动探索优化”转变。世界模型通过海量物理交互数据训练,能够预判未来场景变化、推演动作执行结果、还原动态因果关系,提前调整作业策略。例如在工业装配场景中,机器人可预判工件装配间隙、力控反馈结果,自主调整夹持力度与插入速度;在非结构化场景中,机器人可自主规避障碍物、优化行走路径,适应复杂环境变化。
2025年以来,国内头部企业相继推出自研世界模型,提高机器人在非结构化场景中的任务泛化能力,实现三大核心能力升级:一是物理推理能力,机器人开始能够理解重力、摩擦力、碰撞等物理规则,完成精细操作与稳定交互;二是任务泛化能力,将单一场景学到的技能快速迁移至新场景,任务适配率提升;三是自主优化能力,通过作业反馈持续迭代动作策略,任务成功率与作业效率不断提升。世界模型的成熟,为人形机器人走向家庭、户外等复杂非结构化场景奠定了核心技术基础。
三、商用落地提速:工业主导场景,应用价值凸显
在具身大模型技术的突破下,人形机器人产业正从技术展示阶段,逐步迈向以场景应用为核心的价值验证阶段,商业模式呈现“工业先行、多元延伸”的鲜明特征,订单量迎来爆发式增长,产业实用化进程持续加快。
(一)商业模式初现:工业主导,场景多元延伸
2025年,人形机器人的商业化落地路径呈现出由易到难、从结构化场景向非结构化场景拓展的特征,在工业制造、文娱表演、商业服务等场景中得到应用。
工业制造场景作为规模化落地的核心阵地,凭借任务明确、环境相对结构化的特点,成为人形机器人商业化的首选突破口。工业制造场景仍是当前最具现实性的突破口。相较于家庭等复杂开放场景,工厂环境任务更清晰、流程更稳定、评价标准更明确,更适合人形机器人从搬运、上下料、精密装配、巡检等环节切入。此类场景中,人形机器人的核心价值在于承担重复性较高、劳动强度较大、作业节奏较为稳定的任务,帮助降低疲劳误差和安全风险,提升生产效率与作业稳定性。例如,乐聚机器人在一汽红旗工厂实现多机部署,完成8小时稳定连续作业。当前,整机销售与运维服务是主流合作模式,部分企业探索按工时计费的灵活方案,进一步降低企业应用门槛。
文娱与商业服务场景实现轻量化快速渗透。2025年初宇树机器人亮相春晚舞台后,文娱表演场景催生机器人租赁新兴产业,人形机器人在展厅讲解、前台接待、营销客服等领域的应用逐步增多。此类场景对动作精度和复杂操作能力要求相对不高,更注重交互能力、展示效果和场景适配性。例如,智元机器人打造国内首个机器人租赁平台“擎天租”,构建覆盖全国的开放式租赁网络,服务商演、展会等各类场景,智元远征A2机器人凭借高噪环境下96%以上的识别率,在礼宾接待等多个服务行业实现规模化应用。
(二)订单迅速增长:头部企业引领,亿元级订单成常态
受益于多元场景的持续落地,2025年人形机器人行业订单量实现跨越式增长,市场对产业前景的信心进一步提升。根据《2025年人形机器人市场研究报告》,2025年全球人形机器人出货量约1.7万台,市场规模约28.8亿元。中国人形机器人出货量约1.44万台,占全球总出货量84.7%,市场规模约15.5亿元。
从企业表现看,头部企业在订单获取和产品落地方面进展较快。宇树、智元、乐聚、加速进化、松延动力、优必选等企业出货量位居全球前六位,分别出货5500台、4000台、1000台、1000台、1000台、600台,合计占据全球74.1%的出货量份额,反映出我国人形机器人企业在部分应用场景中的商业化探索已取得积极进展。
四、产业生态完善:创新要素集聚,发展根基夯实
随着商业化进程提速,人形机器人成为人工智能与高端装备制造领域的核心赛道,技术、资本、人才等创新要素加速集聚,产业链协同发展格局初步形成。
(一)融资热潮席卷全产业链,产业稳健发展
资本助力产业提质增效,产业融资活跃。据高工人形机器人,2025年全球人形机器人行业共完成286起融资,累计获得668亿人民币。其中,国内人形产业链共完成267起融资事件,以及2起被收购事件,累计获得445亿元,单笔平均值仅为1.65亿元;海外人形企业共完成15起融资事件,以及2起被收购事件,累计获得223亿元,单笔平均值为13.12亿元。从细分赛道来看,2025年国内人形机器人本体企业完成149起融资,关节模组、传感器、灵巧手企业分别完成22起、28起、27起融资。
互联网巨头战略卡位,推动产业进入资源整合阶段。融资热潮中,互联网巨头成为重要推手,围绕自身核心业务生态展开差异化投资布局。2025年,国内互联网巨头在具身智能赛道的投资次数合计达62次,投资金额区间覆盖10—34亿元,通过资本注入深度绑定产业链优质企业,抢占未来智能终端赛道先机。这一趋势标志着产业已进入“资源整合”新阶段,投资方不仅提供资金支持,更输出应用场景与订单资源,加速产业生态成熟。
(二)企业创新提速,资本化与产业化协同
行业头部企业加速创新迭代与资本化布局,多家企业启动上市筹备工作,聚焦技术研发与场景拓展,提升核心竞争力。部分企业通过市场化资本运作优化产业链布局,探索多元化产业化路径,推动技术创新与市场落地深度绑定。企业创新活力持续释放,产业链上下游协同发力,共同推动人形机器人从技术研发走向规模化量产。
2025年,人形机器人企业不仅是资本市场的被投资方,更以投资方身份积极布局,通过资本运作完善产业链布局并提升融资能力,企业加速与资本市场建立深度联结。多家机器人企业正式启动上市进程。例如,智元机器人通过协议转让与部分要约收购,正式成为A股上市公司上纬新材的控股股东,为国内其他估值较高但短期盈利困难的人形机器人初创公司开辟了新的资本化通道。
五、产业发展挑战:聚焦系统攻坚,破解落地难题
尽管人形机器人行业在场景落地、技术迭代方面已取得明显进展,但距离大规模应用仍有不小距离。大多数个人和企业用户真正关心的并非机器人能否完成后空翻等高难度动作,而是能否长时间稳定工作,能否在复杂环境下保持一致性,能否把综合成本降到可接受水平。归根结底,人形机器人面临的挑战并不只是单项技术制约,而是一体化系统工程能力的构建。
(一)商业化难题:成本与回报的平衡难题
从硬件看,关键零部件仍然是产业成熟度的重要基础。当前人形机器人硬件仍面临技术路线尚未完全收敛、核心零部件性能仍需提升、成本控制压力较大等现实问题,直接导致商业化落地节奏偏缓。
一方面,人形机器人整机制造仍处于产业化初期阶段,各类硬件方案持续迭代,尚未形成统一标准,同时面临技术基础待加强、制造成本待降低、场景验证难度大等多重难题。以核心部件灵巧手为例,其传动方式和传感器等技术方案仍未完全收敛,下游需求又存在较大不确定性,使得零部件厂商难以依靠大规模量产快速降本。
另一方面,工业场景商业模式尚未完全形成闭环。当前人形机器人仍难以全面替代人工,对于工厂而言,当前人形机器人的全生命周期成本仍明显高于人工劳动力成本,机器人的投资回收周期偏长,导致企业客户购买意愿不高,制约了行业规模化发展。
(二)智能化瓶颈:数据与算法的双重制约
随着硬件性能达到基础应用门槛,软件能力已成为制约通用人形机器人智能化水平的最大瓶颈,主要体现为大脑泛化能力较弱,通用场景应用难度大。现阶段大部分机器人的能力展示仍建立在预设场景的精确控制之上,泛化能力依然不足。当环境或任务超出先前训练范围时,人形机器人难以将已学知识与技能进行有效迁移和复用,导致任务完成率下降。
数据方面,物理数据缺乏是人形机器人泛化性不足的核心原因之一。当前机器人“大小脑”模型的训练高度依赖多模态物理交互数据,大量、优质、多样的物理数据是实现通用智能的基础。但目前可部署的人形机器人数量有限,高质量的真实物理世界数据较为缺乏,尤其是触觉感知较为初级。尽管部分人形机器人产品已搭载触觉传感器,技术指标达到人类皮肤灵敏度级别,但机器人训练数据源以网络文本或视频为主,如何让机器人“大脑”理解触觉与动作的关联仍是待解难题。此外,人形机器人数据集多基于厂商自主采集,存在“数据差异大”“单个厂商积累有限”等问题,且大规模真机数据采集需投入大量人力物力,物理世界的复杂性也导致数据完整性不足。
模型方面,世界模型的构建、训练与优化仍处于初级阶段。世界模型的核心价值在于让机器人具备“物理直觉”,能够预判环境变化,但世界模型的技术路线仍未定性,主流技术对物理因果关系仍然理解不深。另外,跨场景迁移能力薄弱,例如模型在工业装配场景的任务适配率可能较高,但迁移至家庭清洁场景后,因环境元素从少量工业零件变为大量家庭随机物体,适配率可能急剧下滑,核心原因在于模型的“环境抽象能力”不足,无法快速提取不同场景的共性规律。
六、未来展望:锚定新质生产力,打造全球竞争优势
2026年,人形机器人产业的核心竞争已从硬件制造开始向具身大模型技术与场景落地能力转变,大模型持续成为驱动产业进化的核心动力。具身智能大模型的突破,为人形机器人注入了灵魂与智慧,推动产业从技术验证走向价值兑现,从单点演示走向规模化商用。作为新质生产力的重要载体,人形机器人不仅是人工智能与高端制造融合的典型成果,更将成为赋能制造业升级、服务业创新的核心装备。
从技术趋势来看,未来3至5年,具身大模型有望实现三大突破:一是通用泛化能力质变,世界模型与VLA模型深度融合,机器人具备全场景自适应能力,可在工业、家庭、户外等多种场景下自由切换作业;二是端侧部署极致优化,模型体积更小、算力需求更低、功耗更优,成本降低,满足大规模量产需求;三是多模态交互升级,触觉、力觉、听觉、视觉全面融合,机器人交互体验接近人类,通用智能水平大幅提升。
展望未来,人形机器人有望成为继智能手机、新能源汽车之后的新一代超级终端,重塑全球制造业与服务业格局。我国凭借完备的制造体系、领先的大模型技术、活跃的创新生态、高效的供应链体系和广阔的应用市场,正站在全球人形机器人产业发展前沿,有望逐步构建“技术—产能—场景—数据”的正向循环,巩固在全球产业格局中的核心竞争力。
汇盈策略提示:文章来自网络,不代表本站观点。