作者丨邱晓芬股票线上配资开户
编辑丨苏建勋
在 2024 年的云栖大会上,作为 AGI 的一项重要支线,具身智能也成为了其中一大讨论焦点。
在"机器人的图灵时刻"论坛上,阿里特意邀请了四家当前炙手可热的人形机器人厂商——宇树科技、星动纪元、银河通用、逐迹动力,针对今年的机器人热潮的本质、发展历程、如何落地、技术难点等关键问题展开了讨论。
现货黄金最新上涨0.1%,报2,580.17美元/盎司。
质子治疗服务的营运将于完成若干部署后尽快开始。该公司将适时提供有关其计划中的质子治疗服务重大进展的更多最新资料。
不过,不像 AI 的论坛那么针锋相对,四位创始人对于机器人赛道的判断基本一致,大家认为:
本次机器人走向台前不是靠自我革命,而是靠大模型能力助推,具身智能将会是多模态大模型的 killer APP;通用机器人本质解决两件事:移动、操作;此次机器人行业变革两个关键词:泛化、从专用到通用;机器人领域发展历程:从规则驱动、到算法驱动、再到数据驱动对机器人落地的判断:5 年,在某些特定场景(工业 / 零售等)会有大规模落地;10 年,能进家庭;15 年,产生大千万级别市场;商业化落地的路径是: 先从单一场景 + 多任务 + 可移动做起;再做多场景 + 多任务,最后普及到全场景 + 全任务。
以下是星动纪元创始人陈建宇、银河通用创始人王鹤、宇树科技创始人王兴兴、逐迹动力创始人张巍的交流整理(略惊摘编)
主持人:通用机器人一定要做成人形吗?
王兴兴: 好几年前有投资人问我,我们做不做人形机器人?我说我坚决地反对做人形机器人,我当时在大一,09 年、10 年的时候,我自己就做过小的人形机器人。做过好以后,我发现全球当前的人类技术其实没办法驾驭这么复杂的机器人系统。
但是 2016 年开始,新的 AI 技术诞生了,在差不多在 22 年的时候,整个的大语言模型的效果已经非常惊艳,整个 AI 技术发展是远超我自己预计的,所以我们在 23 年初正式开始做人形机器人,目前取得的效果也非常惊艳。
机器人整个发展节奏,无论是硬件和软件,都是超过我自己预计的节奏 。
张巍:我觉得一定要做成人形,而且是有两条腿的人形机器人。
我简单说一下我对通用机器人的理解。我首先觉得机器人和 AI 的使命是不同的,AI 是代替人来思考决策的,而机器人本质上要代替人来运动。
大家看到各式各样的机器人非常多,本质上就在做两件事情,一件事情是要移动(Mobility),空间中从 a 到 b;另一件事情是,操作。
所谓的通用机器人,在这两个能力上都能达到跟人一样的环境适应能力和任务的泛化性。值得一提的是,通用的移动能力其实是不太需要双臂的,但是通用的操作能力反而是需要双腿的,不然你可能都没法到人能到的地方去干活。
我觉得 AGI 的发展最相比上一代最大的区别,就是从专用到通用的变化,在大模型出来之前,我感觉通用这个词是个贬义词,通用,就是证明它是没啥用。
但是大模型出来以后,大家发现,以前我们这种在专业领域里收集数据,去做专项任务的训练方式是有很大局限性的,反而我们要忽略专项的能力,要先构建通用的基础模型能力,再在上面长出专用的能力,这才是系统化解决泛化性的关键。
我觉得软件算法的通用性,就靠大模型技术;机器人跟物理世界交互的通用性,就靠人形机器人。
主持人:您怎么定义人形机器人形态?
王鹤:我们公司叫银河通用,我们从建立的第一天就是要达成通用机器人。当然通用有一个过程,他先做到单一场景、多任务、可移动,然后再做到多场景、多任务,最后做到全场景、全任务。在这个过程中,形态上在不同阶段也有它最适合、最经济、最稳定的载体。
通用机器人这个万亿市场刚刚开局的时候,我们选择了先从几个场景里头的多任务做起,比如零售商超场景上货下货,在工厂里去抱箱子,其实我们发现如果它是平地的话,轮子是够用的,也不能说我们没有腿,我们是把两只腿并在了一体。
那为什么要有双手呢?因为我们发现,比如说你在超市里头一只手拿篮子,一只手拿货,也是要两只手,所以我们的形态目前是 360 度轮,双腿并成一条腿,站直一米七三,够到二米四,蹲下来可以摸地,用最便宜的价格、最稳定的机器人技术率先实现可以落地的机器人。
主持人:具身智能和人形机器人,大家讨论的时候,总是把两个词语放在一块,您怎么看?
陈建宇:这个确实是比较容易混淆的两个概念,但是他们的侧重点是不太相同的。
对具身智能来说,我们主要关注智能性和软件。具身智能其实对形态其实是要求不高的,可以是人形的、四足的、轮式的、单个机械臂的,甚至就是一个桌子、椅子,只要它能动,都可以给他赋予具身智能,是一个更广泛的概念。
人形机器人顾名思义一定是人形的。
主持人:机器人现在有很多种类,怎么判断它的技术含量?
陈建宇:非常粗略的把人形机器人相关的技术分成三大块的话,其实就是大脑、小脑和本体。
我觉得这里面最关键的是小脑,它是最基础的部分,就如果你只有一个本体、大脑,缺了小脑的话,其实你只能成为一个会思考的一堆烂铁。
小脑是承接大脑思考、规划的,同时也是技术不确定性最高的,最没有收敛的。 但是我们是有蛮多的产业可以去借鉴,包括我们的工业机器人产业、电动车的产业。
对于小脑来说,我们发现大部分的机器人用的还是十几年前,甚至几十年前的扫地机这一类的技术去做。
王鹤:我认为人形机器人的技术含金量可以从这两个地方总结:
一,他的泛化性到底有多强?是不是真正能通向未来的通用?
二,它能不能跟人之间用自然语言来沟通,然后实现零代码的部署?不仅能干活,还能交流。
张巍:机器人就看两个关键词,一个叫泛化,一个叫通用,这是本次变革最关键的两个词。
我提供个我的角度,我觉得咱们先看腿,人形机器人之所以是一个新的物种,它不是一个传统机械臂公司的延续,它的本质就是要长出两条腿来。
那看腿也要看什么呢?主要看两点,一个就是腿,他能不能完成他本能的一些本职的工作,就是地形的泛化能力。第二点是看他能不能支撑双臂去完成全身协同的通用操作,这也是腿存在的一个重要的价值。
主持人:机器人到底什么时候能干活?
陈建宇:如果说我们不是特别严苛的定义,就是说它能初步去用起来的话,那我认为不管是工业还是商用,甚至是家用,一两年的时间就能有,根据罗杰斯的那个创新扩散的模型,都有一些早期的一些使用
工业的场景会更快一些,因为它是有边界的,你可以人为的制定一些规则,所以在它的图灵时刻还没到来之前,机器人可能就能逐步应用起来。
王鹤:以零售场景为例,现在的技术已经达到了产业化的边界了,我们预测就是从明年开始将会是商用的元年。
5 年,我们的目标是在这样的场景和车厂的抱箱子里头达到一万台;10 年,是我认为安全性可以进入家庭标准的;15 年,我预计可能会产生千万乃至大千万级别的市场。
王兴兴:我个人的话相对比较乐观,我觉得到明年,像一些工业场景,明年基本上该问题不大,我觉得三年左右至少全球范围内有通用型的 AI 出来,因为跟过去十年不一样了,现在整个机器人 AI 人才资金投入是巨量的,都是几百倍甚至上千倍的投入。五年应该会有天翻地覆的变化。
张巍:我认为用时间去衡量它,是一个比较难的事情,我管这个赛道的产业的发展叫事件驱动,而不是时间驱动。它更关键的是看这个 AI 技术、关键的开关什么时候能找到,而不能用时间去具体的衡量它。
我也是相对乐观的。只不过我也说,我们要避免过早的去做商业化,比如说在大模型 ChatGPT 2.0、3.0 的时候你要做个超级应用,那肯定要打一堆补丁,因为上一代人工智能和机器人落地的过程中也遇到了很多这种挑战,大家都调侃说"人工智能等于智能不够靠人工",所以是靠很多这个增加了部署的售后成本,最终商业逻辑还是挺难跑通的。
主持人:大模型对人形机器人的发展,起到了什么样的影响?
张巍:我觉得机器人这一波的发展不是自我革命,发展是靠大模型技术和大模型技术背后的技术,我甚至认为具身智能将会是多模态大模型的一个 killer APP。当然我把无人驾驶也算在我们具身智能赛道里边来了。
我觉得这几年由于受到大模型技术发展的一个启发,机器人领域的发展也经历了从规则驱动、到算法驱动、再到数据驱动的一个跳变啊。
以前你可能看你有什么算法,然后根据算法的需求来收数据来解决问题。现在的思维变了,我们要首先看你有什么数据,然后你获取新数据的方式和成本是怎么样?数据的分布是什么样的?
这就直接的决定了你采用什么样的算法去训练,所以我们公司有个口号叫,软件定义硬件,但数据定义软件。
王兴兴:我一直感觉,通用人机器人算是大模型的最好的一个落地的载体,二者是非常好的一个组合关系
王鹤:我觉得就是现在的通用机器人,几乎都是分立的小模型,所以大模型赋能技能有几步?
第一步是,大模型可以作为一个 agent 来调用这些 API ,进行长程的任务规划;
第二步是大模型可以作为一个 monitor,看小模型执行过程中有没有出任何错误,及时的去终止、挽救这些错误,比如药盒子掉在地上了,他立马说你也给他捡起来;
第三步是最有想象力的,就是端到端的 vision language action,把动作作为大模型输出的模态,像自动驾驶一样,做一个把通用感知、通用规划和通用执行融为一体的大模型。
陈建宇::我认为大模型这边带给我们最重要的启发就是,告诉我们有 scaling law 的存在,启发我们去思考怎么样去做机器人的 scaling law。
同时它也带着我们来一些语言模型领域的一些技术,比如说 Transformer 的架构。算法层面、模型层面,还是数据层面,其实都有很多的不同,需要我们去探索。
end股票线上配资开户