试了阿里通义万相AI生视频，我觉得大厂们值得期待正观新闻

试了阿里通义万相AI生视频，我觉得大厂们值得期待

知危原创

2024-09-20 10:42

关注

今天下午，在云栖大会上，阿里云CTO周靖人宣布通义万相全面升级，并发布全新视频生成模型，通义万相正式杀入AI视频战场。

所以，咱也就是说，隔壁的Sora大厨还不上菜，大家可就得吃饱咯。

这次阿里带来的通义万相，用上了业界领先的核心架构——Diffusion+Transformer，可以生成影视级高清视频。

他们还和知名说唱歌手宝石Gem合作，用通义万相AI生视频参与制作，直接给《江雪》整上了一个赛博国风的MV。

更重要的是，生成视频功能在通义万相官网以及通义App上都可以免费体验。

如果从发布前的一些宣传上来看，我们能猜测到通义的主要优势应该集中在国风上。

于是，在第一时间，我们就搞到了资格，想试试阿里的手艺。

为了看看通义万相的功力，我们也请来了其他两位国产视频生成大模型产品同台竞技。

我们使用了3个不同的提示词，分别测试这些模型生成视频的不同维度的能力。

提示词①：日照香炉生紫烟。

模型A和模型B都只是做到了照本宣科，真给了一个太阳照香炉，生成一阵紫色烟雾。

没能get到这句中国古诗句中“香炉”其实指的是“香炉峰”，并不是真正的香炉。

模型A生成的视频里，紫烟的动态很丝滑，香炉也更像个香炉；而模型B的视频里，香炉成了个大盘子，生成的紫烟还出现了褪色。

而模型C是唯一一个理解了提示词意境画出了一幅中国水墨画的，就冲这一手就得点个大大的赞了。

而且，我们仔细看了下，整体画面基本挑不出太大毛病，甚至让我觉得好像黄山的风景。

提示词②：江南水乡小镇，清晨的阳光透过薄雾，照亮了石桥和白墙黑瓦，水面波光粼粼，几只小船停泊在岸边。

模型A的视频整体有些偏脏，虽然清晨的感觉有了，但整体灰蒙蒙的，给人一种雾霾很严重的感觉，而且由于画质的原因，整体画面的细节几乎都看不清。

但你仔细凑近了瞧，就能发现桥中间有些“AI特色”的畸形，两边房屋也有些奇怪的变形。

模型B的视频就很强了，整体画面看起来很真实，它是3个模型里，唯一一个做到了只出阳光却不出太阳的，看起来就很高级，氛围营造一下就拉满了，整体画面质感也是3个视频里最好的。

硬要挑毛病，画面里的雾气过渡不是很自然，桥面栏杆也挤到一起，并不合常理。

模型C的视频整体看下来也没太大毛病，就是阳光更像是夕阳而非朝阳的味道了。

而且它的风格显然和前面两个对手不大一样，有一种黏土动画的感觉。

如果不是故意设置这个画风的话，整个画面就过于干净整洁，反而少了点真实感。

提示词③：一位身穿淡雅汉服的女子正沿河边款款散步，她的步伐轻盈，仿佛每一步都踏着古筝悠扬的旋律，手中摇曳着一把精美的油纸伞，上面绘有细腻的花卉图案，色彩鲜艳而不失柔和，每一笔都透露出画师的心思与技艺。河边古朴的中式茶楼，这些茶楼多为木质结构，白墙灰瓦，房檐挂着一只只大红灯笼，雨滴滴落在河水里振起层层涟漪，在水面上激起层层波纹，形成一幅生动的水墨画卷。

模型A的视频画面布局挺不错的，人物运动状态也很贴近现实，但一眼就能看出人物的脸整个垮掉，类似的问题也发生在了手上，而且人物直接练了手轻功水上漂。

不仅如此，在这次要素比较多、较为复杂的提示词里，模型A显然漏掉了“雨滴滴落在河水里振起层层涟漪”的画面。

模型B的视频氛围营造得不错，但和上一个类似，人物直接走在了水里，手部细节也出现了畸变，甚至油纸伞都有些奇怪的变形，茶楼的造型更看着破旧不堪，完全没有茶楼的感觉。

而且它也漏掉了提示词中的要素，虽然有了河水涟漪，但画面里一滴雨都没有。

模型C的视频是唯一一个展现了“雨滴滴落在河水里振起层层涟漪”的画面，所以在整体要素上基本都齐全了，甚至连手画的都比前两位好。

而且，它还相当聪明，我们的提示词里没有提到人物面部细节，它干脆也就不生成了，直接来了一出手持油纸伞半遮面的效果。

到了揭晓答案的时候，上面测试里：

模型A出自某短视频大厂，它比较擅长控制运动细节；

模型B出自某大模型新锐厂商，擅长把控画面的色彩和美学，塑造足够的氛围感和真实感；

而模型C就是今天刚推出的通义万相了，它能保证氛围营造和动态完整性，达到目前的第一梯队水平，在复杂提示词的准确性和中国味儿上还能做到更强。

从我们更多没放出的测试来看，在文生视频这块，通义万相最出色的特点就是“最听话”，基本能很好地理解我们给到的长文本、复杂提示词，把我们想要的关键要素都完整地表达出来。

也是凭借这个能力，在使用生成过程中，我们也试用了它自带的“灵感扩写”功能。

我们发现它和其它厂商不大一样，其他家的提示词优化，经常会改变我们想要的画面。

而通义万相扩写完成后的长提示词，基本都能很好地遵循本意，只是加入更详尽的描述，让最后生成的画面细节更丰富。

而且，通过一番测试，我们也能看出，对比其他文生视频产品，通义万相的确最懂中国风，比如几次古诗画面的生成，基本都只有它能够很好地理解古诗词的意境。

更有意思的是，通义万相生成的视频还能自动生成音频。

不仅如此，通义万相还有着同样出色的图生视频功能。

虽然图生视频相对来说比文生视频要简单些，但对一致性、想象力的要求还是很高的。

就像下面这个漂浮鲸鱼的例子。

通义万相生成的视频中，整个画面与原图能够保持高度一致，而且画面中不光鲸鱼运动轨迹合理，下方人物和船只也都有着很不错的动态表现。

当然，我们也发现通义万相没能突破行业的一些通病，比如在一些运动场景下，偶尔会出现不合常理的画面以及离谱物理效果，这也是整个 AI视频行业急需攻克的难题。

但总的来说，瑕不掩瑜，在我们看来，通义万相势必会成为本就竞争激烈的AI视频战场里的一个强有力的竞争者。

仔细想想，虽然7个月过去了，Sora依旧没能真正问世，但行业的竞争丝毫没有减速。

大家从时长、生成质量、生成速度等等方面不断开卷，有当年AlphaGo和自己对弈，几天就进化一个版本那味儿了。

今天之所以大家疯狂卷AI视频，知危编辑部认为，关键在于这个方向的饼着实够大。

从目前来看，广告公司、企业、媒体甚至每个人都能利用这个技术快速、廉价地制作视频。

哪怕就是眼下，AI视频需要不断调教、重复几百次才能得到一个让人比较满意的画面，但相较于真人拍摄所需要的时间、成本来说，都还是相当合算的。

根据东吴证券的测算，光是国内AI视频潜在行业空间就可能达到5800亿元人民币以上。

就拿影视剧制作来说，2018年，电视剧、电视动画片平均投资成本为7519万元/部、686万元/部；电影的制作成本（不含宣发）为2300万元~1.7亿元/部。

而全AI模式下，电影、长剧、动画片的制作成本分别为2.5/9.3/3.7万元人民币，相较于传统模式成本降低幅度能超过95%。

所以业内目前普遍认为，当下正是AI视频从“玩具”迭代升级为“生产力工具”的关键时刻。

而在这轮视频生成技术竞赛中，互联网大厂很可能会是主要的引领者之一。

所以在听到通义万相才发布时，我们第一反应是会不会有点晚，后来才了解到，原来通义万相AI视频，用的是阿里团队全自研视觉生成大模型。

它在模型框架、训练数据、标注方式和产品设计上，具备了业界领先的生产能力，所以也许印了那句古话，好饭不怕晚。

而且，从另一方面看，主流大厂们好像集体在文生视频模型里憋大招，大家伙都不约而同地把AI视频定义为P0项目，甚至有些直接让CEO挂帅。

但至今为止，不断冲锋的反而是那些此前被忽视的新锐厂商，从这个角度来看，阿里还真就是大厂里脚步最快的。

咱们也大胆地预测一波，在这次阿里的通义万相发布后，一大批互联网大厂们的AI视频潮恐怕马上就要来了。

特别声明

本文为正观号作者或机构在正观新闻上传并发布，仅代表该作者或机构观点，不代表正观新闻的观点和立场，正观新闻仅提供信息发布平台。

打开正观新闻客户端，阅读体验更佳