Qzone
微博
微信
对中国科技界来说,具身智能不是平坦路,也不是遮羞布。
没有人会怀疑,2026年将是中国智能汽车史上的一道分水岭。
特斯拉FSD监督版(FSD Supervised),这只被念叨了多年的“狼”,终于要真刀真枪地踏上中国的土地。
北上广深等十座大城市,特斯拉中国正在急聘智驾测试技师;官方高层在财报会议上明确表态:力争2026年第三季度获得全面批准。时间表已定,箭在弦上。
这无疑是一场大考。对于中国所有智驾玩家而言,特斯拉FSD就像一面照妖镜——谁是真功夫,谁是花架子,届时一目了然。
然而,就在这场大考临近之际,一个诡异的现象却在中国汽车智能化圈子里蔓延开来:大量原本深耕智驾的企业和人才,正纷纷调转船头,涌向一个名为“具身智能”的新赛道。
仿佛一夜之间,智驾成了“旧世界”,具身智能才是“新大陆”。
这场景,像极了2015年O2O泡沫前夕,又像极了2021年元宇宙狂欢的前夜。
但我们需要问一个比追逐风口更本质的问题:当特斯拉FSD真的兵临城下,那些把重心转向机器人的中国智驾玩家,还能不能挺起腰杆正面迎战?具身智能,究竟是下一个黄金十年,还是又一个被资本吹大的泡沫?
要回答这个问题,得先从智驾人才的“大逃亡”说起。
另起炉灶,还是望风而逃?
中国智驾行业在过去五年里,经历了从“野蛮生长”到“卷无可卷”的完整周期。
曾几何时,智驾是汽车行业最性感的标签。小鹏、理想、蔚来们不惜重金自研算法,华为以“遥遥领先”的姿态横扫市场,地平线、禾赛科技等供应商更是成了资本市场的宠儿。“端到端”“VLA大模型”“自研芯片”——每个玩家都能讲出一套动听的技术故事。
但到了今天,这些故事已经很难再让投资人心跳加速了。
原因很简单:同质化。你能端到端,我也能;你用英伟达Orin,我也用;你发布城市NOA,我下周就OTA。技术路线趋同,核心指标拉不开差距,护城河越挖越浅。更要命的是,L4级别的完全自动驾驶迟迟无法兑现,资本对“远期故事”的耐心正在耗尽。
于是,智驾赛道从“风口”变成了“卷场”。人才开始外溢,资本开始撤退。
而具身智能,恰好在此时递上了一根稻草。
人形机器人这个概念,比自动驾驶更宏大、更有想象空间。它不再是“车在路上跑”,而是“机器人在任何地方干活”——家庭、工厂、商场、医院。它被包装成“AI的终极形态”,甚至被某些人誉为“第四次工业革命的标志”。
资本闻风而动。当人形机器人登上了春晚,跳起了秧歌;资本疯狂下注,单轮融资动辄数亿乃至十几亿美元。
宇树科技、智元机器人、银河通用……一家接一家公司拿到巨额融资。而智驾领域的技术骨干,因为技能高度相通(感知、规划、控制、深度学习),成了机器人公司最理想的挖角对象。
有猎头透露,从智驾跳槽到具身智能,30%的涨薪是起步价,稀缺算法岗直接翻倍,资深专家带团队过去,薪资翻三倍也不罕见。
智驾工程师们以30%到翻倍的涨薪幅度,跳槽去搞机器人。前小鹏副总裁李力耘去了众擎机器人,前地平线副总裁余轶南创立了维他动力,前百度Apollo总裁李振宇下场做人形机器人……
不仅打工人动心,连公司也在“换旗”。
全球最大的车载激光雷达厂商禾赛科技,宣布战略升级:从“空间感知”进化为“空间智能”,开始为人形机器人、割草机器人、无人配送车提供感知硬件。地平线(全称“地平线机器人”)将机器人事业部拆分为独立的地瓜机器人,专门做机器人芯片。轻舟智航更是直接修改公司使命,要成为“全球领先的通用物理AI公司”。
表面上看,这是技术自然的延伸——都是感知、决策、控制,换个载体而已。但深层次里,未尝不是一种对智驾主战场的“战略性撤退”。
FSD还没来,自己先乱了阵脚。这究竟是另起炉灶的远见,还是望风而逃的焦虑?
要看清这个问题,不能只看资本流向和人才流动,必须回到技术本身。具身智能真的比智驾更容易实现吗?答案可能恰恰相反。
具身智能,看起来很美
人形机器人在春晚舞台上整齐划一地跳舞,视频点击量动辄上亿。评论区里,人们激动地宣布:“机器人时代终于来了!”
然而,如果你有机会走进这些机器人公司的实验室,看到后台那些被剪辑掉的NG镜头——抓杯子滑脱、走路绊脚、识别错误导致的碰撞——你就会明白,从“demo”到“产品”,中间还隔着好几道物理世界的“天堑”。
这些天堑,恰好可以用四个字来概括:冷、硬、重、稠。它们也是L4自动驾驶至今未能真正落地的同一组瓶颈。
第一个字:“冷”。
这里的“冷”,不是温度,而是指空间感知必须是冷冰冰的精确数据,容不得半点模煳。
人类对空间的理解是模煳的、直觉的。你让我去餐桌上拿个杯子,我扫一眼就知道它在哪、怎么伸手,脑子里不需要知道杯口的精确朝向角度,也不需要知道把手的三维坐标。
但机器人不行。它必须拿到毫米级的精确数据:杯口中心点在世界坐标系中的位置,抓取点与杯壁的距离,把手的朝向矢量。少一个数,后面的规划和控利就没法做。
问题在于,当前的传感器给不出这么高精度的数据。透明玻璃杯,深度相机发出的红外光会直接穿透,或者产生大量噪点;激光雷达在近距离下的精度和分辨率也不够。
这不是换个算法模型能解决的问题,这是传感器物理原理的上限。
第二个字:“硬”。
“硬”是指物理推演是硬约束,不能靠“猜”或者“蒙”。
还是拿杯子。手伸过去,指尖碰到杯壁的那一瞬间,机器人必须在毫秒级时间内回答:杯子会滑吗?该用多大力?力加到这个值会不会捏碎?如果在滑,是增加摩擦力还是改变姿态?
人类做这件事几乎不消耗认知资源——这是几百万年进化刻进我们本能里的物理直觉。
但机器人没有这种本能。它只能走两条路:要么用显式物理引擎(比如MuJoCo、PhysX)在内部模拟,精确但计算量大,做不到实时;要么用神经网络从数据中学习一个“隐式物理模型”,速度快,但遇到训练集中没见过的材质(比如磨砂玻璃、带纹理的陶瓷),预测就会严重偏差。
第三个字:“重”。
“重”指的是触觉反馈和力控的重要性。这是外行最容易忽略、内行最头疼的瓶颈。
视觉能告诉机器人杯子的位置和姿态,但拿稳杯子的关键,在于指尖的触觉。当你拿起一个杯子时,你的手指在接触杯壁的瞬间,会感知到微小的滑移,然后自动微调力度;当你感觉到杯子已经稳固时,力度会保持在刚好不滑也不碎的临界点。这个过程每秒循环数十次,完全无意识。
机器人要做到这一点,需要三样东西:高分辨率的触觉传感器(能感知压力分布和滑移)、毫秒级的力控算法、以及将触觉信号与执行器指令实时闭环的模型。
遗憾的是,第一关就卡住了。目前市面上的触觉传感器,要么太贵(比如基于光学原理的),要么分辨率不够,要么可靠性差、用几次就漂移。
工业界的主流做法是干脆不用触觉——用位置控制“盲抓”,把机械爪开到比物体略小的间距,靠几何约束卡住。这也就是为什么几乎所有机器人demo都在抓方方正正的积木块,而不敢碰玻璃杯、鸡蛋、软质物体。
第四个字:“稠”。
“稠”是指真实环境的信息密度极高,远比实验室复杂。
在实验室里,机器人面对的是一张干净的桌子,上面孤零零地放着一个杯子。但在真实的厨房里,杯子旁边有碗、盘子、调料瓶、抹布;它们可能堆叠、倒扣、相互倚靠。机器人要从这一堆“乱七八糟”中精准地取出杯子,不能碰倒任何东西。
这不仅需要识别出每一个物体,还需要理解它们之间的空间关系和物理依赖:这个盘子是压在杯子上的吗?如果我抽走杯子,上面的碗会不会掉下来?如果我绕过这个调料瓶,手臂会不会碰到旁边的热水壶?
场景复杂度带来的不是线性增长,而是指数级增长。目前,没有任何一个系统能在这样的稠密场景中稳定完成操作。L4自动驾驶在高峰期的闹市区路口,面对乱窜的电动车、犹豫的行人、压线的公交车,同样是“稠”得令人窒息。
更关键的是,这四个字不是孤立的。没有“冷”的精确感知,“硬”的推演就没有可靠输入;推演出来了,没有“重”的触觉反馈,就不知道执行得对不对;前三者勉强过线,面对“稠”的复杂环境,算力和算法又会双双崩溃。
这是一串连环锁。解开它需要的不是更多的融资新闻,而是传感器、执行器、算法三个层面的根本性突破。而这,绝不是两三年内能完成的事。
前途,还是钱途?
历史总是押韵的。
过去十年,我们见证了区块链的狂热——技术极客们信誓旦旦地说“去中心化将重构世界”,摩根大通、高盛纷纷入场,加密货币市值一度突破三万亿美元。然后呢?泡沫破裂,一地鸡毛。除了比特币和以太坊等少数幸存者,绝大多数项目已经归零。
接着是元宇宙。Facebook直接改名Meta,扎克伯格在虚拟会议室里竖起大拇指的画面传遍全球。各大科技公司争先恐后发布VR/AR硬件,虚拟地产炒到天价。然后呢?出货量不及预期,用户留存率惨淡,Meta的元宇宙部门每年亏损上百亿美元,资本一哄而散。
具身智能身上,有着太多相似的气味。
当然,它比区块链和元宇宙更“实”——毕竟机器人是物理实体,不是纯虚拟概念。但“实物”不代表“商品”。波士顿动力就是一个绝佳的参照物。
论技术,它的机器人能跑酷、后空翻、跳舞,全球没有任何公司能比。但成立三十多年来,波士顿动力始终无法实现盈利,被谷歌卖、被软银卖,现代汽车接盘后仍在苦苦探索商业化路径。
为什么?因为没有任何个人或企业愿意花几十万美元,买一个在真实场景中经常摔倒、抓不住东西、续航只有几十分钟的“高科技玩具”。
资本可以吹起估值,但吹不动物理定律。
另一个值得注意的事实是:特斯拉也在做人形机器人(Optimus),但马斯克从来没有一刻放松过对智能驾驶和造车的主业投入。
FSD的迭代速度在加快,4680电池在扩产,德州工厂和墨西哥工厂在推进。对于马斯克来说,机器人是“远期期权”,而汽车是“当下命脉”——前者可以为后者增添想象空间,但绝不能以牺牲后者为代价。
反观国内某些企业,智驾的核心竞争力还没站稳,就忙着把公司定位改成“通用物理AI”,把最优秀的人才调去研发机器人抓取算法。这究竟是看到了更远的未来,还是被资本的叙事吹晕了头?
当特斯拉FSD真正进入中国市场,那些已经把资源和心力分散到机器人业务上的智驾团队,还能不能拿出足够强硬的产品来迎战?这个问题,比“人形机器人什么时候进家庭”更紧迫,也更有现实意义。
不要用语言模型的进化速度,去套物理世界的智能。 一个是在数据的海洋里找规律,一个是必须在牛顿力学的考场里拿满分。后者的每一分进步,都需要传感器、执行器、算法、功耗、成本的全面突破——没有捷径可走。
在真正看到那段“一镜到底、无剪辑”的视频之前——一个机器人走进一个从未去过的厨房,面对一堆从未见过的餐具,从容地拿起一个玻璃杯,没有捏碎,没有滑脱,也没有碰倒旁边的任何东西——我们不妨对具身智能的热潮,多保留几分冷静。
FSD的大考即将来临。先守好自己的阵地,比追逐下一个风口,更值得尊重。
延伸阅读: