服务热线:

13928851055

KAIYUN科技 | 大数据与人工智能 基础软件领导者

赋能数据未来,引领AI与大数据创新

KAIYUN(中国大陆)官方网站-创造最伟大的开云

企业新闻

具身智能的GPT时刻何时到来?王兴兴畅谈行业七大焦点话题

作者:小编 点击: 发布时间:2025-08-16 02:05

  为什么人形机器人没有得到大规模应用?具身智能的GPT时刻何时到来?是模型的问题,还是数据的问题?到底应该走何种技术路线?为什么具身智能必须解决Scaling law?未来2-5年智能机器人技术的重心是什么?为什么分布式算力是一个重要领域?

  8月9日,北京世界机器人大会。宇树科技创始人、CEO王兴兴,在演讲中谈及行业内外关注的这六大焦点话题。

  在谈及这六大话题时,他表示,今年上半年,整个机器人行业最大的特点是非常火爆。由于政策的相关支持,整个机器人这块的行情,包括整机厂商、零售厂商,平均至少每家企业有将近50%到100%的增长。这个增长还是非常吓人的,对行业来说还是非常少见的一件事情。需求端,拉动了整个行业的发展。

  海外也毋庸置疑,特斯拉机器人公司,今年要量产几千台人型机器人,大概还会发布他们第三代的人型机器人。全球范围内,大家对这块都保有热情。尤其海外的大公司,包括英伟达、苹果等,都非常持续地在推动这个领域的发展。

  王兴兴认为,目前的硬件是够用的,某种意义上完全是够用的。人形机器的硬件,哪怕灵巧手、整机,某种意义上完全是够用的,但当然不够好,要持续地把它做得更好,但它更大的问题是要把它量产。

  工程上的问题肯定很多,但从技术层面,或者从AI的角度来说,目前的硬件是完全是够用的,最大的挑战来自具身智能的AI、大模型,“它们还是完全不够用,这也是限制机器人尤其人形机器人大规模应用的一个最大的卡点”。

  王兴兴表示,目前人形机器人所处的状态,感觉有点像ChatGPT出来前1-3年左右的时间。

  他说,大家知道GPT做出来前的几年,语音AI已经做了十几二十年,但是大家一直觉得它很傻瓜、很弱智,根本没法用。GPT出来以后,大家认为性能达到了更好的阶段。目前业界已经发现了类似的方向以及技术路线,但是没人把它做出来。人形机器人还没有到达这个临界点。

  而如果具身AI达到这个临界点,会达到什么程度呢Kaiyun平台官方?他举例说,如果哪一天Kaiyun平台官方我们带一个人形机器到会场,而且这个会场他没有见过,我随便跟他说,让它帮忙把一瓶水带给某个观众,他可以比较顺畅地自己走过去,流畅地把这个事情干了,或者说它能自己把一个完全没有见过的房间整理好的时候,“我觉得就到达了人工智能的ChatGPT时刻”。

  如果加上一个时间的刻度呢?王兴兴表示,如果快的话,未来的一两年或者两到三年,还是很有可能实现的。最慢的话,我估计三到五年,也是有很大概率能实现这个概念。

  关于目前不太够用这件事情,没有达到应有的效果,到底是模型的问题还是数据的问题?

  王兴兴认为,全球范围对数据问题关注度,有点太高了。大家觉得有足够多的数据,尤其有足够多好的数据的时候,就能把模型训练得越来越好。现在最大的问题反而是模型的问题,并不是一个数据问题。

  他说,在具身智能机器领域,大家可以发现,很多情况下,你数据有了,会发现这个数据用不起来。就目前来说,具身智能机器人的模型架构不够好,也不够统一,很多情况下大家对模型的关注相对有点少。

  相对目前比较火的是VLA模型(注:Vision-Language-Action Model的简称,即视觉-语言-动作模型),一个相对比较傻瓜式的架构,王兴兴表示,他对VLA模型还持比较怀疑的态度。

  “在与真实世界交互的时候,它的数据质量和采集的数据,是不太够用。”他说。即便在VLA模型上加一个RL训练(注:强化学习训练) ,包括他们公司尝试下来,还是不够用,“模型本身还要再升级和优化”。

  他说,大家会有一个很自然的想法,如果我控制一个视频生成模型,跟他说,让它帮我生成一个机器人去整理一下房间的视频。如果它能生成的这个视频就已经让一个机器人去做好的时候,我是不是能让这个视频生成模型,直接去驱动一个机器人去做?

  他认为这想法非常直接简单,而早在去年,宇树就已经做过这个事情。“大家可以看到这个视频右上角有个小窗口的视频,这个视频就是生成出来的,不是用摄像头采集的,而是我们用一个预训练的视频生成模型,重新训练,让他先生成一个视频和动作,然后再控制一个机器人去做。这个技术是能实现的,包括谷歌的那个视频生成世界模型,他们也想实现这个效果。”

具身智能的GPT时刻何时到来?王兴兴畅谈行业七大焦点话题(图1)

  他认为,这个路线方向可能比VLA模型的收敛速度更快,概率更大,但是“我没有验证,不敢打包票”。

  这个路线很大的一个问题是,视频生成模型太关注视频生成的质量,导致对GPU的消耗有点大,但是“对于机器人干活来说,某种意义上你并不需要很高精度的视频生成质量,你只要驱动机器人去干活就行了”,他说。

  Scaling law?另外,王兴兴指出,目前还面临的一个大问题是,如果要进一步提升机器人模仿学习的能力,必须解决Scaling law,而这一点目前行业做得并不好。“

  目前大家看机器人跳跳舞、做一些格斗,效果还不错,但如果训练一个机器人动作,比如学一支新舞或干一项新的活儿时,往往需要从头开始训练,这非常低效。理想情况下,新的训练应该基于已有训练成果,让训练速度越来越快,学习新技能的效果越来越好。”

  王兴兴指出,这是一个非常值得深入研究的方向,Scaling law在语言模型上的成功已经得到验证,但在机器的运动控制上,大家做的还只是刚刚开始。

具身智能的GPT时刻何时到来?王兴兴畅谈行业七大焦点话题(图2)

  对于未来2-5智能机器人技术的重心,王兴兴表示,最大可以肯定的是,还是要做一个统一的端到端的提升智能的AI模型。智能体大模型当下及未来最关键的挑战是机器人大模型。模型本身是最重要的。

  第二,就是要有更低成本、更高寿命的硬件,及超大批量的制造,这个是毋庸置疑的。汽车行业已经100多年了,哪怕到今天,一家企业要做一辆很好的汽车出来,它的工程量还是非常大的。对于机器人行业未来,如果每年有几百万、几千万甚至几亿的人形机器人要生产制造出来,对其工程量的挑战是非常吓人的一件事情。

  在提及算力时,王兴兴表示,在人形机器或者在移动机器人本体上,没办法直接部署很大规模的算力。

  为什么呢?因为它的尺寸只有这么大,它的电池只有这么大,它可部署的算力和功耗是有限的。他个人感得,最多只能部署峰值功耗大概只有100瓦的算力,简单说就是只有大概几部手机的算力水平。

  他认为,未来人形机器人对大规模算力的需求,可能是一个分布式的算力。如果你在北京干活的机器人,数据中心或者算力中心却在上海或者在内蒙,这个延迟实在是太大了。

  所以,他提出的务实做法是,在机器人工厂里面装一个机器人的分布式服务器,把所有的机器人直接连接到工厂里的局部服务器就好,这让它整个服务器的安全性延迟和通讯延迟可以接受。

  而换在一个小区,如果每家每户都有一个机器人时,这个小区肯定要有一个分布式的集群算力中心。如果有新的客户想买人形机器人,他也不需要给这部分算力的建设花钱,人形机器人的成本就会降低更多。

相关新闻
最新产品
在线客服
联系方式

热线电话

13928851055

上班时间

周一到周五

公司电话

13928851055

二维码
线