张一鸣黄仁勋,想到一块儿了

字母榜 原创

2025-09-17 18:20

具身智能如今已成为最火的产业之一,中国行业龙头宇树科技上市正在紧锣密鼓进行,而中美科技巨头则在水下更深处进行宏大布局。

今年3月,在GTC 2025主题演讲中,英伟达CEO黄仁勋演示了挪威机器人公司1X 的NEO Gamma人形机器人。这款机器人运用了基于英伟达GR00T N1模型构建的后训练策略,并执行自主整理任务。

黄仁勋试图以此证明,人形机器人的未来在于适应性和学习能力。换言之,机器人到底行不行,关键要看“大脑”能否适应环境、能否学习新知识。

黄仁勋的话很快应验。几个月后,全球科技巨头在“机器人大脑”这件事上拿出了新成果。

8月,英伟达推出Jetson AGX Thor,一块能在机器人本体上同时运行多个生成式AI模型的边缘计算平台。它被行业公认为“机器人新大脑”。

Jetson AGX Thor(以下简称 Thor)是面向机器人和物理设备的新一代技术栈。这个全新的“机器人大脑”基于Blackwell GPU架构,峰值算力达到2070 FP4 TFLOPS,AI 性能较现有的Jetson AGX Orin模块提高多达7.5倍,同时能效提升3.5倍。

Thor最大的突破在于,它可以让过去依赖云端处理或多块芯片的机器人,在单一紧凑的模块上实现实时感知和决策。

目前,亚马逊仓储机器人和波士顿动力等早期用户,已经开始在自家产品上集成Thor,目标是打造出更智能、更独立的机器人产品。

地球的另一边,字节7月和9月先后推出自研的通用机器人模型GR-3和Robix,展示了在真实家庭场景下执行复杂任务的能力。

字节Seed团队7月底放出一条演示视频,一台机器人搭载了字节最新的机器人VLA成果GR-3。在演示视频中,它完成了将衣架插入衬衫并将其挂起来的任务。

上周,Seed又掏出了最新的机器人研究成果——Robix。它和GR-3一起,组成了字节新一代机器人模型矩阵。

此时距离黄仁勋在 GTC 2025 的感慨仅过去半年时间。两家巨头在机器人赛道的“同频”,也给人这样一种印象:黄仁勋和张一鸣,这次想到一块去了。

A

在Thor横空出世前,英伟达已经成为机器人赛道的领头羊。

英伟达Jetson平台在高端机器人和自主机器开发领域占据主导地位,其生态系统中拥有超过200万名开发人员,超过7000家公司使用上一代产品Orin系列。

今年8月,英伟达宣布Thor 正式开售。单从硬件性能和成熟度来看,它在同类产品中几乎处于绝对领先的地位。

目前,英特尔、高通等竞争对手的边缘AI(Edge AI,在设备端本地运行人工智能)产品相对落后,尚无法在单一模块中实现同等水平的集成计算。

更关键的是,英伟达将硬件与软件堆栈紧密绑定,并依托CUDA工具包的广泛应用,形成了生态护城河。

Thor可以直接调用英伟达完整的Isaac机器人软件平台、AI模型库和仿真工具,实现端到端的深度集成。其中包括英伟达针对机器人场景的最新模型——Isaac GR00T N1,一款开源、预训练且可定制的基础模型。

GR00T N1采用了受人类认知启发的双系统架构。一个系统是“快速思考行动模型”,其行为类似于人类的反应和直觉;另一个系统是“慢思考模型”,能够推理周围环境和收到的指令,从而规划行动。

GTC 2025上, 1X公司CEO Bernt Børnich表示:“在我们开发自主模型的同时,英伟达的GR00T N1显著提升了机器人的推理能力和技能。我们仅使用极少的后训练数据,就将NEO Gamma完全部署到位。”

然而,Thor并非完美无缺。

首先是价格。Jetson AGX Thor开发套件的售价为3499 美元,很难成为普通家用产品的选择。

此外,Thor平台有着更高的功率要求,这意味着其适配的产品需要稳定的供电能力,例如自动驾驶汽车、工厂机器人、送货机器人等。

B

在“机器人大脑”的赛道上,英伟达很快有了中国竞争对手。

7月底,字节发布全新一代机器人VLA模型GR-3。官方演示中,搭载着GR-3的机器人ByteMini将衣架插入衬衫并将其挂起来,还完成了拾取家居用品、放置在指定位置等高难度“副本”。

此外,ByteMini可以区分不同尺寸的物品,并成功执行拿起“较大的盘子”的指令。

拆解演示过程和技术报告可以发现,GR-3能够理解复杂、抽象的语言,比如“较大的盘子”“左边的椅子”等。

此外,GR-3少样本适配能力较强。据外媒报道,Seed采用混合方法训练:首先向 GR-3 输入大量图像和文本数据,随后借助虚拟现实环境中的人机交互进行微调;最后再让其学习并模仿现实世界中的机器人动作。这套训练策略,使 GR-3 具备了在复杂且难以预测的环境中保持适应性的能力。

据了解,GR-3相比GR00T系列有着更大的参数规模,实际应用中表现更好。

曾在Meta就职的AI科学家Chris Paxton在一篇关于机器人领域VLA的研究中披露,字节的40亿参数GR-3模型,表现似乎优于英伟达GR00T,后者参数量大约 20 亿。可以合理推测,一旦有足够的数据和算力支撑,“规模定律”(scaling laws)依然有效。

GR-3让字节在“机器人大脑”赛道有了一席之地,不过,VLA模型更多是用在执行层面,相比起“大脑”的定义,GR-3 更像是机器人肢体的“神经元”。

字节Seed团队的最新成果,补齐了“机器人大脑”的另一块拼图。

上周,Seed团队发布最新成果 Robix,在机器人系统中负责任务规划、推理、自然语言交互等任务。

Seed研究员董恒在个人主页上这样描述Robix:“这是一个集推理、规划和自然交互于一体的统一机器人大脑,其性能优于GPT-4o和Gemini 2.5 Pro。”

不过,Robix并不是“机器人大脑”完全体。

根据Robix 的技术文档,流程中“身体动作/执行”部分通常由低层控制器模型来完成,也就是对应的VLA模型,如GR-3或类似控制器。换言之,GR-3 和 Robix 需要在驱动机器人的场景中相互配合。

Robix的这套工作逻辑,和英伟达GR00T N1的双系统模式有共通之处,一个系统负责推理,另一个系统负责执行。

在官方测试中,搭载GR-3作为控制器的Robix,通过 ByteMini 机器人完成了餐桌清理、收银装袋和饮料筛选的任务;与其他模型横向对比,仅在饮料筛选项目上略微落后于 Gemini 2.5 Pro,其他项目均得分最高。

C

Robix和GR-3不是字节第一次在机器人VLM领域“秀肌肉”。很多人把字节看作互联网内容公司,但在机器人领域,它其实是一位低调的“隐形巨头”。

2023年12月,Seed团队推出GR-1,该模型也是Seed在机器人VLA领域的前瞻性实验。作为技术验证产品,GR-1采用了先用大规模视频生成式预训练,再无缝用机器人数据微调的模式。

基于GR-1的技术积累,Seed团队2024年推出GR-2。GR-2使用了3800万段视频、超500亿token的数据作为预训练的基础,然后再用机器人轨迹做动作/视频生成微调。它在超100个操控任务测试中的平均成功率高达97.7%。

GR-3 和 Robix,是字节在大模型时代研究领域延伸的最新一环。

《晚点LatePost》在 2023 年的报道中披露,字节的机器人探索始于 2020 年。当时张一鸣就对机器人表现出兴趣,此后会不定期参与机器人项目讨论。

两年时间过去,字节已经悄悄量产了1000 台以上的机器人。这些轮式物流机器人主要用于在仓库、产线上运输包裹与零件,聚焦于“仓储+自动搬运”的一体化方案,能自主学习、规划路线、移动到目的地,服务于自家的抖音电商仓以及顺丰、比亚迪等外部客户。

不过,这些物流机器人更多是早期的技术积累。从 Robix、GR-3和ByteMini的技术发展路径不难看出,字节致力于在具身智能领域取得领先地位。

近期,字节招聘官网涌现出一批机器人相关的岗位,其中有岗位明确提到“下一代通用机器人”。所有岗位都属于Seed团队,base在北京和上海。南华早报在7月的报道中披露,Seed团队今年人数预计超过300人。

另一方面,字节在机器人产业中也积极投入。

此前,国内具身智能头部企业宇树科技完成C轮融资,公司估值超百亿。该轮融资的金主名单中,除了阿里、腾讯系的名字,也出现了与字节渊源颇深的锦秋基金。

锦秋基金由原字节财务投资负责人杨洁2022年创立,团队核心成员多来自字节的投资体系。其名称“锦秋”源自张一鸣和字节的创业时的发源地——位于北京海淀区的锦秋家园。

D

字节正在公司内外加速布局机器人领域。不过,目前字节的技术积累主要是模型侧的“机器人大脑”层面;而英伟达的最新芯片方案,似乎和字节形成优势互补。

多年以来,字节是英伟达在中国最重要的客户之一,而黄仁勋也深知中国企业在具身智能市场的重要地位。

今年7月,他现身北京链博会开幕式,并在发言中表示:“AI的下一波浪潮将是机器人,未来的机器人不仅能够推理和执行,还能真正理解物理世界。”

对黄仁勋而言,中国市场在这条路径上具有不可替代的意义。

英伟达官方博客显示,多家国内公司已经使用Thor,包括联影医疗、万集科技、优必选、银河通用、宇树科技、众擎机器人和智元机器人等。不过,在这一长串名字中,尚未见到字节的身影。

英伟达博客还引述了宇树科技CEO王兴兴的发言:“Jetson Thor带来了计算能力的巨大飞跃,赋能机器人更强的敏捷性、更快的决策制定以及更高的自主水平,这对于机器人在现实世界中实现导航与交互至关重要。”

2025年1月,在CES全球消费电子展上,黄仁勋与14家合作的人形机器人公司一同登台,其中6家来自中国,包括宇树科技和小鹏等企业。

另一方面,字节 Seed 团队并非只聚焦机器人模型领域。

在测试 GR-3 和 Robix 的过程中,字节同步推出了ByteMini。尽管看起来更像是测试用途的实验性产品,但浏览 Seed 团队的技术报告可以发现,这款机器人的技术规格并不低,包含 22 个自由度,手腕采用球形腕设计,在狭小空间/高灵巧任务中有较高的操作能力。

可以说,ByteMini的出现,已经显示出字节打造下一代具身智能产品的野心。而随着英伟达拿出了新一代机器人芯片方案,想到一块去的黄仁勋和张一鸣,似乎有望在机器人领域,延续这两家头部企业的合作关系。

特别声明
本文为正观号作者或机构在正观新闻上传并发布,仅代表该作者或机构观点,不代表正观新闻的观点和立场,正观新闻仅提供信息发布平台。
最新评论
打开APP查看更多精彩评论

微信扫一扫
在手机上浏览