OpenAI还没发布的视频对话，又被国产厂商先做出来了正观新闻

OpenAI还没发布的视频对话，又被国产厂商先做出来了

2024-09-02 10:28

在三个月前的 OpenAI 发布会上，相信大家多少已经见识过了 GPT-4o 那跟真人一样丝滑的视频对话能力了。

还有谷歌紧跟着推出的 Project Astra ，实力看着也丝毫不输 GPT-4o 。

那段时间，几乎全网都在感慨 AI 的交互能力进化得有多强，但 GPT-4o 的视频通话功能是一拖再拖， Project Astra 也是好几个月也没见着个影子，连内测都不见有。

不过，AI 圈好像有个定律，就是好东西不能让人等太久。比如 Sora 遮遮捂捂大半年，结果可灵、Luma AI、智谱清影都冒头发布了。

这两天，我们发现智谱清言 App 突然又来了波大的更新，上线了那个传说中的 AI 视频通话功能。功能推出之后，知危编辑部也在第一时间申请到了内测资格。

之前 GPT-4o 之所以被说得天花乱坠，很重要的一个原因，就是它对视频的理解能力非常强悍。

所以，我们首先测试了一把清言的视频理解能力。

我们给清言扫了一眼编辑部平时脑暴的会议室，看它能不能根据周围的环境猜出来我在做什么，还特意晃了晃镜头，没有保持视频画面的完全静止。

坐在会议室的桌子旁倒是没说错，桌上的纸杯、遥控器，旁边的电视也都描述得挺准确。

再把镜头往后期同事的电脑上一放，也能看出来这是在剪辑视频。

这种对周围整体环境的感知能力，我们之前只在 OpenAI 和谷歌的 Demo 上见过，今天亲自体验到，还真有点科幻照进现实的意思。

而且，清言跟 GPT-4o 演示的一样，在对话的过程中随时都可以打断，时不时还会整点 “ 哎呀 ” “ 嗐 ” 的语气词，说话之前呵呵笑一下，就跟真人聊天差不多。

接着，我又试了试具体的物体识别功能。

从最简单的工位扫描开始，白色键盘、黑色鼠标还有显示器这些大件，基本没有遗漏，物体前后左右的方位也描述得清清楚楚，就连插线耳机、玻璃杯上的卡通人物这些细节，也没放过。

不能说 100% 吧，但这张桌子上至少 80%-90% 的东西，都被清言看到了。

而且清言还有个画圈识别的功能，把同事那台大音响给圈起来，品牌、型号，甚至连具体用途它都知道。

另外我还发现，清言对物体的识别不只是停留在简单的类别上。

就比如这个游戏手柄，你问到底是索尼的还是微软的，它能根据手柄的外形设计分析出来这是微软的 Xbox，而不是单纯告诉你这是一个游戏手柄，又或者干脆糊弄过去说不清楚。

还有这台古早的功能机，诺基亚、具体型号是 N95、2007 年经典款这些细节完全不在话下。

后边儿我们又让清言识别电脑系统、看托尼照片猜年龄、看名人照片猜人名，虽然免不了偶尔抽风的情况，但大多数情况下认得都挺准。

当然了好玩归好玩，像视频通话这种形式其实有很多实用的场景。

比如家长最头疼的作业辅导，以前的 AI 交互还是拍照上传题目那一套，但如果换成视频通话，就变成了线上家教一对一的逻辑。

我们试着让清言做了一些低难度的数学题，小学和初中一些简单的代数题勉强可以拿下。

在解题的时候，清言也不会一股脑把过程全说出来，而是一个步骤一个步骤引导着来，有一个思考的过程。

除了数学以外，语文和英语我们也简单试了试，清言不能说是资深教师级别，但平时写写作业、记记单词、背背古诗，够用了。

而除了作业辅导以外，清言也可以充当一个初级版的生活小百科。

第一次做饭没经验、房间灯泡坏了、不知道怎么养绿植。。。如果你在生活中遇到类似的事情又不知道该咋办，都可以问问它。

比如，很多小朋友可能暂时还分不清电池的正负极，我们就假装把计算器电池装反，清言一两句话就 get 到问题出在哪，还是很有生活常识的。

而且这小玩意儿还特别能提供情绪价值，让它讲故事、讲笑话，也句句有回应。

跟朋友玩 21 点，它甚至还能当裁判。

而且，与 GPT-4o 相似的时，智谱的视频通话功能也是带有一定记忆功能的，当我们测试完 21 点在找它聊别的事情时，它还会问我们 “ 刚才 21 点玩的怎么样 ”。

说实话，这次清言的大升级还是给我带来了不少惊喜，但小瑕疵仍然不少，有时候会说话嘴瓢、认错东西、输出一些胡言乱语，不过概率不大。

就比如 21 点的裁判，有一次把 9 认成了 4，黑桃认成了梅花。玩剪刀石头布，一个出石头一个出剪刀，它会判定出剪刀的赢。。。

槽点不少，我们在这也就不一一列举了。

不过，就凭抢在 OpenAI 和谷歌之前，先让国内用上 AI 视频通话这一点，已经是很不错了。

在这方面，知危编辑部还是抱着一贯的态度：用不到的概念品是 0 分，当下能用到的就是 10 分。

有些人可能觉得，视频对话与图文对话相比，看起来只是形式的变化，视频对话能做的都能用图文对话解决，这样意义不是很大。

但我们认为，AI 视频对话这种交互形式，越往后走应用场景的想象空间也就越大，因为它更接近人类的 “ 视觉+对话 ” 的原生交互方式。

比如把 AI 装到眼镜、项链上，以后可能连手机都不需要了，或者装到盲人的拐杖上，让 AI 帮忙引路，又或者是跟具身智能结合，让机器人真正理解所看到的东西。

借用智谱 CEO 张鹏的那句话：“ 至少我们现在还没有看到（AI）技术的天花板 ”。

未来的 AI 会进化到何种程度，又会创造出哪些价值，大家也不妨开个脑洞想想。

特别声明

本文为正观号作者或机构在正观新闻上传并发布，仅代表该作者或机构观点，不代表正观新闻的观点和立场，正观新闻仅提供信息发布平台。