实测阿里大模型最新产品,它甚至能看懂《甄嬛传》高能宫斗视频

知危

2023-06-02 16:49

今天上午,阿里云发布了一款接入了通义千问大模型能力的最新产品“通义听悟”。
自打大模型概念火了之后,厂商们除了抢着推出大模型,也都在争着做大模型的落地应用,想用 AI 重塑人们生活和工作中的各个角落。
不过,这些应用大部分都是概念产品,实际体验并不是很理想。那么,这次阿里的通义听悟,会不会有什么不一样呢?
听悟的官方文档,把听悟定义为了一个 “ 工作学习 AI 助手 ”,主要应用于工作学习中的音视频相关场景。 

而知危编辑部体验下来认为,它是一个还不错的 “ 提效工具 ” ,真的像官方定义的 “ 助手 ” 一样,可以帮你解决很多繁琐的事情,节省时间。
听悟现阶段主要是在网页端使用( 有移动端网页适配 ),打开听悟网页,整个操作界面比较简洁,主要分为两大模块,用户可以自行选择实时记录音频转写,还是自行上传音视频进行转写。
实时记录其实有些类似于市面上常见的在线会议记录功能,它能够在线记录语音并实时转为文字。但,它有一个好处是:它并不局限于某个特定会议软件,只要是能录音它就能实现记录转写。
点开后,在界面左半部分就是听悟实时录音转文字的部分,并且你能根据需求在开始记录前选择是否需要识别英文或者粤语,转写又是否需要翻译成中文。右半部分则是一个编辑器,支持你随时进行同步记录精华要点,或是一些偶然间的灵感随想。

转写后的文字,我们可以按照我们自己需求打上重点、问题、待办等标签。

经过手动打标签之后,可以一键提取转录后的原文或者按照标签提取到右侧,方便大家进一步总结汇总。

我们可以看到,它的编辑功能很完备合理,但,听悟听悟,顾名思义,就是擅听人言,能悟人意,那么听悟在这方面的能力如何呢?
接下来,我们就要先看看它到底能不能听懂人话。
我们特地选择在嘈杂的编辑部办公室进行测试,使用的测试素材是一段之前在网上很火的辩论赛 “ 熬夜是现代人的病还是药 ”。
最终测试下来,我们发现,即便辩论赛选手的发言速度比较快,但听悟还是相当准确地识别了这些对话。
只有一些类似于 “ 正方 ”、“ 老友赛主席 ” 的专有名词,或者是选手发言有吃字的情况才会出现一些小小纰漏,比如 “ 有请正方 ”,被识别成了 “ 有请郑芳 ”,这种小纰漏其实完全可以理解。

在记录完成后,听悟可以按照不同的发言人进行对话人的区分。

并且,在区分完成后,可以一键手动更改不同发言人的名称,从而更好地整理记录。

相较于实时录音转写,另一个音视频上传转文字的应用场景可能更广一些,比如我们平时在网上看一些网课、教程或是会议之类,都可以通过听悟进行快速提录。
和前面的录音识别不同,听悟的音视频转文字在上传音视频的时候就可以前置选择转写语言、是否翻译视频以及区分发言人。
转写速度我们也进行了测试,我们从之前的辩论赛视频里截取了一个 1 分钟长的片段,整个转写过程大概花了 15 秒左右,速度还是相当不错的。
不过,上传视频就意味着你要先下载视频,这么一下一上是有些费时间的,所以听悟也打通了阿里云盘,可以一键直接调用云盘里的内容,极大地省去了下载传输的时间,作为一个阿里云盘骨灰级用户,不少视频资料都在阿里云盘里的用户,认为这个功能打通是非常爽的。

对于音视频上传转写,在我们看来,由于没有了外部环境的干扰,相较于实时听录,识别率应该会有所提升。
所以,知危编辑部也加大难度更换了测试素材,特地挑了隔壁汽车编辑部的一场直播录像。

相较于前面的辩论赛,直播录像里大家聊天更放松也更口语化,对话中会有很多语气助词,而且聊的话题是汽车垂类相关的,通篇会有很多 P 挡、EDR 等专业术语,识别难度显然更高。
但测试下来,识别效果依旧很稳定,绝大部分都能完成,甚至一些语气词也照样一个不落。

在这个过程中,同样只是专业名词偶尔有些小瑕疵,但这也不是个棘手的问题,因为听悟还支持 “ 自定义专有词汇 ”,可以按照自己的需求自定义人名、地名和专业名词等,听悟学会了你提供的这些词,就能够大大提升相关对话中相应词语的识别准确率。

像前面将 “ 正方 ” 误识别成 “ 郑芳 ”,把 “ 博世 ” 误识别成 “ 博士 ”,把 “ 差友 ” 误识别成 “ 柴油 ”,在添加了专有词汇之后,识别都不会再出错了。

这么看起来,听悟 “ 擅听人言 ” 确实是没问题了,下面部分就要考考听悟关于 “ 能悟人意 ” 的能力了。
根据听悟方面向知危编辑部透露,目前听悟主要是接入的通义千问大模型的理解和摘要能力,所以在后续的测试里我们尽量以这两方面内容的测试为主。
说起理解和摘要能力,在我们看来,最实用的场景莫过于上网课了。
如今,在 B 站等平台上上网课的人越来越多,但在很多时候,一些公开资源并没有做时间轴和章节划分,如果大家傻傻地手动调进度条既不精准也很麻烦,其实不光网课,在很多科普类知识类博主视频评论区,常常就会有 “ 省流课代表 ” 出没。
而听悟,能够随时随地的当你的 “ 课代表 ”。
编辑部直接让听悟听了一节公考网课,课程主要是系统性地介绍公考里申论部分以及申论考试时的一些技巧。
我们可以看到,听悟课代表的关键词抓取得非常准确。
同时,他还能生成一个全文概要,会比较好地概括整个课程的各个组成部分,基本的一些模块都会被总结出来。
唯一美中不足的就是它容易头重脚轻,就是前半部分归纳总结得很好,后半部分急着结束不细说。

这点我们做个大胆的猜测,我们发现听悟的全文概要基本都是 200 字左右,而这个课程有 1 个小时左右的时长,用 200 个字概括比较难,出于字数限制的问题,听悟背后的模型会出现前面归纳得很好、洋洋洒洒有模有样,但写着写着突然发现字数要超了,就来了一个急刹车。
不过,这个问题变相地被听悟的另一个功能 “ 章节速览 ” 给弥补了。
“ 章节速览 ” 其实就是听悟转写完视频内容,一顿理解然后详细地分段总结。
像这次测试课程,听悟就把各个模块各个部分进行总结归纳成了 10 小节,我们根据视频内容一一对比了这 10 个小节的归纳和时间点的选取,可以说相当出色。

而且只要快速扫一眼章节速览,找到自己想要的章节后,就可以一键点击直接跳转到相应的时间段播放视频,非常的方便。
此外,针对多人对话场景,听悟还会针对每个人的不同发言进行归纳总结。有了之前的测试基础后,我们也懒得再来什么 1 对 1 对话这些小儿科内容,直接上了顶级难度,用《 甄嬛传 》里的名场面 “ 滴血认亲 ” 来当测试。
这个测试题的难度有多大?在我们截取的一段视频里,短短 16 分钟总共出场了 10 名角色,这 10 个人里有皇帝皇后贵妃嫔妃太监宫女,甚至尼姑都有一个,大家你一言我一语,非常考验识别和理解能力。

测试完成后,我们发现听悟识别得相当不错,除了皇后和尼姑两个配音嗓音着实有点像,其它人几乎全都识别区分了开来。

如果忽略掉静白其实是皇后+静白,然后一些宫内专用词汇的干扰,在总结发言这块,听悟做得也相当不错。

当然了,通义听悟接入的是通义千问的一些能力,所以也会继承通义千问这类大模型的问题:普遍比较难理解人类的反话。
听悟总结祺贵人发言里有一句 “ 要注意保护熹贵妃的身体 ”,原文其实祺贵人说的是 “ 如果不重刑拷打槿汐浣碧,再不然也只能委屈熹贵妃和温太医了。”

这个问题也是比较无伤大雅的小瑕疵,感觉等听悟背后的通义大模型再进化一阵子,也是可以解决的。
除了这些,听悟还针对一些特殊需求有了比较 “ 定制化 ” 的功能。
例如在通义听悟实验室里,有一个问题回顾功能,开启之后听悟会自动识别原文中的问题并且高亮显示,这样对于一些经常和甲方乙方沟通、经常要进行采访访谈的场景,是能大大提高效率的。

不仅如此,知危从近听悟相关人士获悉,听悟近期还会继续更新 “ 大模型一键提取 PPT、针对音视频内容向 AI 进行问答以及概括特定段落的功能,进一步提升听悟的 “ 悟性 ”。
最后,再说一个编辑部认为非常有用的一个 “ 小彩蛋 ”,未来除了听悟本身进化之外,听悟团队还有一个小惊喜会在不久后上线,那就是通义听悟的 Chrome 插件,这次公测暂不开放,但知危编辑部也想办法拿到了 demo 给大家展示一下。

这个插件可以实时识别 Chrome 浏览器任何一个标签页上发出的声音,并且可以进行实时翻译,在看一些无字幕视频时可以当作实时字幕来使用。
而在一些不适合外放音频却又需要录音转文字的场景下,使用听悟的 Chrome 插件又可以不占用音频通道的进行转录,非常方便( 开会摸鱼必备 )。

中肯地说,通义听悟现阶段的表现已经足够较大改变我们在学习、工作等场景中的效率了,也是国内极少可以即刻实现大模型“奔现”的 AI 助手,虽然还不算完美。
不过,这种不完美并不是一种缺憾,反而会让我们对未来更加期盼。
因为这种不完美,是一种 “ 远没到极限 ” 的感觉,它非常有潜力。
就像 iPhone 4 刚出现的时候,大家也觉得智能手机还没那么完美,但人们都对移动互联网时代充满遐想和希望。
我们,的确在见证历史。
特别声明
本文为正观号作者或机构在正观新闻上传并发布,仅代表该作者或机构观点,不代表正观新闻的观点和立场,正观新闻仅提供信息发布平台。
最新评论
打开APP查看更多精彩评论

微信扫一扫
在手机上浏览