王兴兴:机器人最大的问题还是AI模型?大模型怎么不够用了?
作者:江瀚
这些年,伴随着人工智能和机器人的高速发展,AI驱动已经成为了大多数人的共识,然而就最近知名机器人公司宇树科技的创始人王兴兴却表示当前机器人最大的问题还是AI模型,这究竟是怎么回事?为啥如此蓬勃发展的大模型不够用了?
一、王兴兴:机器人最大的问题还是AI模型?
据澎湃新闻的报道,在2025外滩大会圆桌讨论环节,宇树科技创始人兼首席执行官王兴兴表示,在机器人领域,硬件和大脑不是同一层面的事,现阶段,机器人硬件完全足够用,“用一两年都可以”,最大的问题还是AI大模型本身能力不够用,在多模态融合方面表现还不够理想。
王兴兴表示,目前纯语言模型或纯视频模型的效果已经非常好,但如果要把语言和图像很好地结合起来,仍是一个较大的难点。在机器人领域,现阶段没有很好的办法把硬件用起来。比如如何用模型控制机器人灵巧手等,目前还存在一定挑战。他表示,虽然AI在信息处理、文字图像等领域,AI应用的表现已经非常好,但让AI干活的领域还是荒漠,只是长了几棵小草,爆发性增长的前夜还未到来。
“现在是对年轻人非常友好的时代,AI时代是一个非常公平的时代”,王兴兴认为,年轻人可以用AI模型自己学编程等。他鼓励大家可以对AI模型的认知更激进一些,可以不仅仅把AI仅仅当作一个工具,还可以把它当作一个全能型的工具,去重新学习和接受它,把它用得更好。
不过和王兴兴有类似看法的人其实并不少,网上曾经流传着一个段子“我想AI应该是帮我做洗衣和洗碗的活儿,好让我去玩艺术、搞创作;而不是AI去玩艺术搞创作让我来做洗衣洗碗的活儿”。
二、大模型是怎么不够用的?
随着人工智能技术的迅猛发展,机器人已经成为现代科技的重要组成部分。然而,尽管大模型的发展速度飞快,但其在实际应用中的表现却仍不尽如人意,尤其是在机器人赛道,这就是王兴兴表态的根源,我们该怎么看这件事呢?
首先,大模型虽发展迅猛,但大多仍处于发展的初级阶段。近年来,大模型领域可谓是风起云涌,众多科技巨头和科研团队纷纷投入大量资源进行研发。从早期的简单模型到如今参数规模庞大、功能日益复杂的大模型,其发展速度可谓令人叹为观止。然而,我们必须清醒地认识到,目前大部分大模型依然停留在逻辑推理的层面。它们能够根据输入的信息进行一定程度的逻辑分析和推理,输出看似合理的结果。但这种逻辑推理更多是基于已有的数据和预设的规则,缺乏真正的理解和创新能力。
以自然语言处理领域的大模型为例,它们可以生成流畅的文本,回答各种问题,但在处理一些具有深度和复杂性的语义理解时,往往会出现偏差。比如,对于一些隐晦的隐喻、双关语或者文化背景相关的表达,大模型可能无法准确把握其真正含义。可以说,大模型在理解人类语言的丰富内涵和微妙之处方面还有很长的路要走。而且,大模型目前的发展仍然处于初期阶段,需要不断地进行训练和优化。每一次的训练都需要海量的数据和强大的计算资源支持,这不仅成本高昂,而且训练过程也存在诸多不确定性。因此,从整体发展水平来看,大模型距离真正成熟还有很大的差距。
其次,机器人硬件虽然已经满足需要,但大模型思维方式与人类差异巨大。在机器人硬件方面,近年来取得了显著的进步。各种先进的传感器、执行器和机械结构使得机器人在感知环境、运动控制等方面具备了强大的能力。例如,一些工业机器人可以精确地完成复杂的装配任务,服务机器人能够在室内环境中自主导航、避障。然而,硬件的进步并没有完全转化为机器人智能水平的提升,关键问题在于大模型的思维方式与人类思维存在较大差异。
人类在处理问题时,往往能够凭借直觉、经验和创造力快速做出判断和决策。一些看似简单的事情,比如识别一个物体的用途、理解一个场景的氛围,对于人类来说可能是本能反应。但对于大模型来说,这些任务却需要相当长的一段时间来进行训练。以图像识别为例,虽然大模型在识别常见物体方面已经取得了很高的准确率,但对于一些不常见或者具有特殊含义的图像,大模型可能需要大量的标注数据进行训练才能准确识别。而且,大模型在处理问题时通常是基于统计规律和模式匹配,缺乏对事物本质的理解。这种思维方式上的差异导致大模型在面对复杂多变的现实场景时,往往表现出力不从心。
第三,大模型当前仅能替代基础工作,高难度任务面前力不从心。从当前大模型的实际应用来看,其能够替代和胜任的依然是大量基础性、重复性、规则明确的工作任务。例如,在客服领域,大模型可以高效处理标准化的问答;在内容创作中,可以生成新闻稿、营销文案等格式化文本;在工业自动化中,可执行预设程序的装配与检测。然而,一旦任务复杂度提升,涉及多步骤推理、跨领域知识整合或动态环境适应,大模型的表现便迅速下降。
以家庭服务机器人为例,简单的“播放音乐”“开关灯”等语音指令可以顺利完成,但我们要知道我们日常生活中的很多场景是模糊的,比如说:帮我找找昨天收到的快递,可能放在门口的鞋柜或者沙发底下等地方,这对于机器人来说就难度巨大了,机器人不仅需要理解时间、物品、空间位置等多重信息,还需具备视觉搜索、物体识别、路径规划和交互反馈等综合能力,这对当前的大模型而言仍是巨大挑战。因此,我们仍然需要知道,大模型目前仍处于“工具化”阶段,而非“智能体”阶段,其能力边界清晰,难以应对真实世界中普遍存在的模糊性与不确定性。
第四,具身智能离构建符合实际工作需求的大脑还有很长的一段路。具身智能作为人工智能的一个重要分支,旨在赋予机器人身体感知和行动的能力,使其能够在真实环境中自主完成任务。如今,越来越多的工具化机器人涌入市场,它们可以在特定场景下完成特定的操作,比如搬运货物、清扫地面等。
但要实现真正像人一样工作的机器人仍然面临巨大困难。以做家务为例,一个合格的家庭主妇不仅要知道如何打扫房间、洗衣服做饭,还要懂得根据家庭成员的习惯和喜好来安排日常事务,甚至在遇到突发情况时能够迅速做出反应。这对于机器人的大模型提出了极高的要求,它需要具备全面的生活常识、情感理解和社交沟通能力。
目前,虽然有些机器人已经学会了扭秧歌这样的表演性动作,但这距离真正意义上的家务劳动和助理角色还有很长的路要走。要让机器人真正融入人类生活,成为得力的帮手,就需要为其打造一个高度发达且符合实际工作需要的“大脑”,而这无疑需要大量的大模型训练和实践积累。
第五,人工智能的未来到底该向何处去?对于大模型的发展来说,目前简单低质量地卷参数已经意义不大。随着模型参数规模的不断扩大,虽然在一定程度上提升了模型的性能,但也带来了诸多问题,如训练成本高昂、模型推理速度慢、可解释性差等。而且,单纯追求参数规模的扩大并不能从根本上解决大模型在具身智能应用中面临的难题。
大模型们进化升级最该考虑的事情是如何能够真正帮助具身智能的落地。这需要从多个方面进行努力。一方面,要优化大模型的训练方法和算法,提高模型的训练效率和质量,使模型能够在更少的数据和计算资源下获得更好的性能。另一方面,要加强大模型与机器人硬件的深度融合,实现软硬件的协同优化。通过将机器人的传感器数据实时反馈给大模型,使大模型能够更好地感知环境、理解任务,从而做出更准确的决策和行动。
因此,王兴兴所提出的问题答案无疑是肯定的,而大模型的“不够用”,并非数量不足,而是智能深度与实用性尚待质的飞跃,这才是大模型该做的事情。
