DSC第一季高清智谱加入 AI 视频竞赛：使用 DiT 架构，30 秒生成视频片断

发布日期：2024-07-28 18:56 点击次数：200

这两天DSC第一季高清，AI视频生成赛谈越来越吵杂了。

聚色网电影

7月24日，快手可灵全面通达内测；兼并天，创企爱诗科技发布家具PixVerse V2，可生成多达40秒的高质地短视频；26日，独角兽智谱AI上线AI视频生奏效用“清影”。

“清影”复古时长6s的文生视频/图生视频，显着度为1440x960。跟其他家不同，智谱AI此次径直推出付费版块——付费5元，解锁一天24小时的高速权力，付费199元，解锁一年的付费高速权力。

虽然，扫数东谈主照旧不错免费使用，无须列队，也不限次数。

一年的AI视频生成付费高速权力只好199元，跟不少互联网家具的会员包年用度收支无几，AI视频生成好像的确离平时用户越来越近了。

一：一天5元，免费也行

当今，「清影」已上线清言App，面向扫数效户免费通达。在智谱清言PC/APP上，点击「清影智能体」，就不错开玩了。

用户只需要输入一段笔墨，然后选拔我方心爱的作风，再配上清影自带的音乐，恭候30秒傍边，就不错生成一段视频。

若是念念要输出的视频更稳妥心中所念念，还不错按照结构性原则来写prompt（辅导词），清影使用手册里给出了两款公式结构：

简单公式：[录像机挪动]+[缔造场景]+[更多细节]

复杂公式：[镜头说话] + [光影] + [主体 (主体容貌)] + [主体泄漏] +[场景 (场景容貌)] +[热枕/氛围/作风]

笔者一步到位，按照复杂公式的条款输入了以下辅导词：照相机平移，一个红发小精灵睡在旋转木马的躺椅上，翻了个身。他浑身毛茸茸的，看起来很可儿，配景是妍丽星河，星光洒在精灵身上，跟着旋转木马的动掸，小精灵线路了重生的笑颜。

「清影」文生视频｜视频开始：极客公园

从生成恶果来看，照旧蛮稳妥设定也蛮可儿的。

文生视频以外，清影此次也通达了图生视频的才调，输入一张图片+相应的辅导词，或者只输入图片，清影就不错生成视频画面。

极客公园养有许多猫猫，笔者立时捏拍了一只眼睛瞪圆溜溜的小猫，把这张图片喂给清影，橘梨纱吧再输入辅导词：图中的猫咪给我方戴上墨镜，看成连贯当然且真实，画质高清。

极客公园的小猫「毛栗栗」｜图片开始：极客公园

「清影」图生视频｜视频开始：极客公园

智谱AI CEO 张鹏先容，清影（Ying）底座的视频生成模子是CogVideoX，它能将文本、时候、空间三个维度交融起来，参考了Sora的算法策画，它亦然一个DiT架构，通过优化，CogVideoX 比拟前代（CogVideo）推理速率进步了6倍。当今生成 6s 视频，模子破耗的表面时候只需要30s。

二、为什么智谱能作念到

为什么包括智谱AI在内的各家齐在作念多模态模子？

中枢是为了让机器梗概更好地模拟东谈主类的领路和感知机制，从而进步东谈主工智能系统的举座性能和应用范畴。

多模态模子梗概处理多种类型的数据，如说话、图像和声息等。这与东谈主类大脑的多模态信息处理才调相称相通，因为东谈主类大脑梗概同期领受和处理来自不同感官通谈的信息，举例视觉、听觉和触觉。

况且，在多模态模子中，耀认识机制被无为使用来识别和交融不同模态的信息，这种机制在东谈主类大脑中也存在。

因此，智谱AI在 all in 大模子阶梯之初，就运转多模态限制的研究布局，这亦然他们达成达周密系列家具矩阵对标 Open AI 的伏击一环。

从2021年运转，智谱AI先后研发了CogView（NeurIPS’21）、 CogView2（NeurIPS’22）、CogVideo（ICLR’23）、Relay Diffusion（ICLR’24）、CogView3 （2024）。

智谱AI的文生视频模子即是基于CogView而来的CogVideo，张鹏谈到了该模子的三大技巧秉性：最初，为了管理试验连贯性的问题，智谱AI自研了一个3D VAE结构，将原视频空间压缩至 2% 大小，大幅减少了视频扩散生成模子的试验本钱和试验的难度。

其次，在可控性上，智谱 AI 自研了一个端到端的视频和会模子，用于为海量的视频数据生成翔实的贴合试验的容貌文本，使得生成的视频梗概和会超长的、超复杂的 prompt 指示，更稳妥用户的输入。

临了，模子选择了将文本、时候、空间三个维度统统交融起来的 Transformer 的架构，可高效期骗模子参数将文本信息和视频信息进行羼杂。

张鹏也谈到，当今，多模态模子的发展还处于颠倒低级的阶段，一是从生成视频的恶果看，多模态模子对物理寰球法例的和会、高区别率、镜头看成连贯性以实时长等齐有好多方位需要进步；二是从模子自身而言，现存的模子架构还不可高效地压缩视频信息，若是多模态模子不竭发展，照旧需要有更更始的新模子架构出现。

他判断，改日大模子的技巧松懈办法之一照旧是原生多模态大模子DSC第一季高清，scaling law 将不竭推崇作用。