4月21日,生数科技全新视频大模型Vidu Q1官宣全球上线,凭借性能提升与全新功能,该模型一经上线即引发行业高度关注,力证其用实力再次搅动市场风云。据视频生成模型权威测评基准VBench-1.0以及VBench-2.0刚刚发布的测评结果,Vidu Q1在VBench系列的两个榜单上都超越了Runway 、OpenAI Sora、快手的Kling等国内外顶尖模型,拿下文生视频赛道榜单双第一。
VBench-1.0榜单
VBench-2.0榜单
参考:
此外在国内权威大模型测评机构SuperCLUE的图生视频榜中 ,Vidu Q1也在动漫风格、写实风格上均斩获双榜单第一的亮眼成绩。
Vidu Q1在VBench-1.0的视频质量、视频语义一致性以及VBench-2.0常识推理、物理理解等综合维度上达到SOTA水平(即当前最先进的模型),成为全球视频生成效果最强模型。
实际上,在提升创作者生产力和创作力上,生数Vidu 技术和产品上一直引领全球。
此次发布的 Q1 是Vidu 的新一代高质量模型,“Q”代表着模型具备更高画面质感、更强语义理解。目前Vidu Q1已支持生成5秒、1080P高质量视频,不断推进AI视频走向商业化。
Vidu Q1刚一发布,就获得了海外内视频创作者的连连点赞。有海外创作者表示,一致性与 1080p 质量相结合,达到顶级一流水准。
据了解,此次上线的Vidu Q1在“极致高质量”上进行了全面升级:
电影级高清画质:Vidu Q1 文生视频和图生视频支持1080P视频直出,无论是宏大的科幻叙事还是人物特写的细微表情,都可以清晰呈现;
首尾帧更全能:只需两张图,即可生成大师级运镜,电影镜头感UP,镜头语言理解能力大幅提升,即使是复杂场景运镜也能稳稳hold 住;
动画风格更惊艳:Vidu Q1在动画风格的生成效果上再度升级,高动态的运动表现力,更加多元化的动画风格;
上线AI音效功能:一句话就能生成精准专属音效,还可实现多种音效叠加,让AI视频生成进入“有声时代”;
目前Vidu Q1已陆续上线 网页与 App 端,无需邀请码,打开 App和网页即可一键体验,真正做到“顶级模型,全民可用”,而且每秒生成价格最低仅需0.3元,真正的“性价比之王”。
实测横评:效果全维度领先,“好用又惊艳”
此次Vidu Q1 登顶VBench 系列榜单,再一次证明了Vidu在全球视频生成领域的综合“硬”实力。在表面真实性、内在真实性两大方面均达到了行业SOTA 。
VBench系列是业内权威的第三方「视频生成模型的评测框架」,VBench-1.0从对视频模型进行表面真实性评估,而VBench-2.0侧重物理规律、常识推理等内在真实性。
具体来看,Vidu Q1 在表面真实性上遥遥领先,超过了国内外视频模型Runway、Kling 等,尤其在美学质量、对象生成、场景生成、视频语义一致性等方面表现出色。在内在真实性上Q1也取得了第一的亮眼成绩。
此外在SuperCLUE的图生视频榜单,Vidu Q1以动漫风格63.52、写实风格67.78拿下双榜单第一,展现了新模型在专项应用层面强劲而稳定的图生视频能力。
Vidu Q1 到底能不能打,小编直接上手实测一波。先说结论,可以说这波Vidu Q1 不仅实用,而且在光影细节、人物质感、镜头语言等方面的表现都超出预期,是一次真正意义上的进化。
更高清,从生成到商用仅需一步
优秀的导演能用“一眼万年”的镜头,展现人物性格、心理变化,推动剧情发展,而这一切都离不开高质量的画面表现。此次发布的 Vidu Q1,已支持 1080P 高分辨率,可直接生成用于动漫、短剧、电商、品牌广告的视频内容,实现“即生成、即商用”。
特写镜头最考验AI视频生成质量。如下方视频案例,一位饱经战火摧残的女战士从背后拔出刀刃。由Q1 生成的视频中,仅一个镜头就能向观众传达出这位女战士的勇气和战争的残酷。
如案例所示,从水转化为冰晶的过程,在 Q1 镜头下清晰可见——冰晶晶莹剔透,每一片都呈现出独特的花朵形态。过去需要专业摄像机长时间延时摄像才能实现的变化效果,如今在 Q1 上几分钟即可生成。
Q1 的极致高质量不仅可应用在电影、短片领域,同时也能帮助更多广告主传达产品的质感和调性。
如用Vidu Q1生成的一款香水的广告。溅出的透明色液体体现出香水的质感,透明的玻璃材质上印有品牌“Vidu ”的logo,旁边木质的装饰和琥珀色的暖色光线烘托出这款香水的高级感,向观众传达这是一款奢侈的原木调香水。
此外,Vidu Q1 在画面逼真度和细节丰富度上优势更加明显。如下面的例子,Runway Gen-4中女生运动非常不自然,Veo 2视频中的女生几乎没有运动,相对而言,Vidu 不仅很好的理解了运镜,而且也能看到卡车里冒出的火光和黑烟,画面细节非常到位。
Runway Gen-4
Veo 2
Vidu Q1
提示词:绿色头发的女生,走过拥挤车流和人群,远处的卡车冒出火光和黑烟,镜头推进拍摄,定格在女生的脸
即使在宏大的奇幻场景,Vidu Q1的表现也可圈可点。如下面的案例,一只恐龙在城堡上空快速飞翔。可以看到Runway Gen-4 生成的视频存在崩坏,Veo 2中的恐龙飞翔动作不是很自然,而Vidu Q1 不仅运动自然,而且整体镜头运动的幅度大且合理。
Runway Gen-4
Veo 2
Vidu Q1
快速飞翔
仅需两张图,实现百万运镜转场
Vidu 的首尾帧功能在创作者中广受欢迎,仅需两张图,就能自动生成流畅自然的中间镜头,大幅节省创作成本。Q1 在此基础上再升级——镜头更丝滑、语义理解更准确,达到从业10年的摄像师水平。
无论是推、拉、摇、移等镜头动作,Q1 都能直接生成,真实自然,哪怕首尾画面完全不同,也能自动“脑补”出逻辑清晰、电影质感的完整片段。
例如:首帧是一位女特工持枪,尾帧是子弹穿破玻璃爆炸的瞬间。Q1 自动生成中间过程——特工移动、连续开枪、镜头反打到玻璃碎裂,所有细节精准自然。更惊喜的是,Q1 还完整保留了吉恩·科兰的漫画风格,风格统一、毫无破绽。
首帧
尾帧
结果
提示词:女特工手持手枪,射出子弹,子弹穿破玻璃球瞬间爆炸,吉恩·科兰的漫画风格,紧张刺激的动画场景
过去,动画特效对角色师和动作指导的要求极高,如今,Q1 就是你的 24 小时“角色师”和“艺术指导”。
更让人惊喜的是,Q1首尾帧功能还可实现一系列镜头运动,衔接非常自然。
比如下面的例子,提示词只简单的要求推进镜头,Q1就生成了一系列高运动镜头,镜头不断推进直至主角的全脸,之后左移镜头,特写,逐渐看清主角的右脸。整个镜头运动相当丝滑,背后像是有一位熟练的摄像师在拿着镜头拍摄。
首帧
尾帧
结果
提示词:镜头越过飘浮的余烬向前推进,靠近人物的脸。
对比Runway Gen-3 Alpha Turbo,Veo 2等, Q1的镜头运动不仅更顺畅,而且更懂镜头语言的表现。以下面的首尾帧图片生成一段孤独战士在竹林中手持宝剑的画面,镜头从这位战士双眼拉开切换成俯视视角。
可以看到在首尾帧转换上,Runway Gen-3 Alpha Turbo出现了不符合真实规律的画面,人物侧脸在没有转头的情况下硬切换成人的背影了,Luma Ray2中间没有任何丝滑的转场过渡,相对来说Vidu Q1 表现惊艳,不仅运动符合物理规律,而且镜头语言理解非常到位,从人物特写切换成了高速运动镜头环绕主角,最后定格在主角的背影上,整体转场非常丝滑且高级。
首帧
尾帧
Runway Gen-3 Alpha Turbo
Luma Ray2
Vidu Q1
提示词:镜头缓缓从这位战士坚毅的双眼拉开,随着镜头继续后移,他身后郁郁葱葱的竹林渐渐映入眼帘。画面切换成俯视视角,只见这位孤独的战士全身披挂,手持宝剑,昂首挺立,四周是高耸的竹子,阳光从上方轻柔地洒下 。
此外,运用Q1首尾帧功能还可解锁“一镜到底”,不需要复杂的场面调度,再普通的图片也能变得酷炫起来。
下面的视频是由创作者@骆狮虎 利用Vidu 生成的一镜到底视频,简直太炸裂了!各类转场镜头让人眼花缭乱,Vidu首尾帧功能实在太全能。
有了Q1首尾帧的加持,小白用户也能秒变电影导演,专业创作者、从业者都能一个人完成视频创作全流程。
不仅如此,在性价比上,Q1也非常用户友好。一个1080P 5秒的转场镜头价格低至1.34元,每秒价格低至3毛钱,仅为其他同行的十分之一。用其他工具生成一段图生视频,可能一杯咖啡钱就没了,而 Q1 可以让你多生成10段视频,属实性价比之王。
更懂镜头语言,抽卡不再是“玄学”
"抽卡”几乎是每个创作者都经历过的难题。而决定抽卡效率的关键,在于模型是否真正“听得懂人话”。
在这方面,Vidu Q1 实现了质的飞跃,相比 Vidu 1.5,Q1的文生视频功能在理解提示词的语义和镜头逻辑方面大幅提升,极大降低了“抽不到理想镜头”的概率。
例如下面视频,提示词中包含"男子” “行人” “汽车” “街道”等多个元素,且有复杂的位置关系和光线描述,Q1 不仅精准理解了这些关系,还镜头感十足,宛如好莱坞导演的实拍作品。
提示词:镜头聚焦于一位身穿皮夹克的男子,他独自行走在白天的城市街道上。阳光在人行道上投射出逼真的阴影,背景中是汽车和行人,而模糊的画面则以电影般的照片写实风格呈现。
Vidu Q1 不仅能听懂“人话”,连专业镜头语言也拿捏得死死的。
比下面的例子,焦点从近处的粉色西装男子自然切换到他身后穿黑西装的男子,整个变焦过程流畅自然。
即使是大幅度运动,Vidu Q1也能很好遵从,AI视频生成常见的崩坏程度大幅降低。比如疾驰的日产天际线汽车在午夜时分疾驰,与其他家相比,Vidu Q1生成的视频日产汽车可以实现快速漂移,运动幅度大,同时又非常逼真。Runway Gen-3 Alpha画面出现大幅崩坏,Veo 2表现还算正常,场景还原也不错,但是运动幅度上不及Q1 。
提示词:富士胶片Portra 400H静态照片,急驰的日产天际线R33 GTR LM JGTC,大幅度运动效果,东京7-11便利店,午夜时分
更强风格表现力
前段时间,GPT 4O的吉卜力风格火爆全网,全网社交平台秒变吉卜力的世界。实际上在视频生成领域,Vidu也早已经在社交平台上刮起了一股AI动画风,无论是类似新海诚,宫崎骏,大友克洋风格的日本动画,还是类似迪斯尼、皮克斯、彼得.道格特风格的美国动画,Vidu统统都能稳定输出,表现惊艳。
有日本创作者在社交平台表示,目前只用Vidu来做动画。
而这次,Vidu 开始自己卷自己了。Q1相比Vidu 2.0又有了大幅提升,支持更加多元风格的视频输出,尤其在动画风格表现上,与同行拉开了显著差距。
先来感受一波Vidu Q1在动画风格上的实力。下面呈现的是一位梦幻少女视频,不仅人物细节丰富,美学表现出色,就连照在人物脸上时有时无的动态光影和梦幻的球体波光也表现得非常自然,只能说Vidu是懂老二次元的。
提示词:梦幻动漫女孩的特写镜头,有着闪闪发光的星系般的眼睛和飘逸的深绿色头发,被发光的球体和神奇的散景灯柔和地照亮,吉卜力和新海诚的灵感,16:9 的宽高比
即使在多主体复杂场景里,Vidu Q1依然很能打。下图是太空中宇宙飞船飞行的场景,整体画质高清,多艘宇宙飞船的运动轨迹合理且流畅自然,飞船飞行的后引擎光、远处的太阳光、以及周边的动态银色运动轨迹,让人仿佛有看科幻大片的即视感。
同行对比来看,Vidu Q1 更能理解多元动画风格,且在动画风格一致性上保持较好。
比如我们让各家生成80、90年代复古风格的可爱的动漫女孩。Veo 则直接生成了3D风格,Runway Gen-3 Alpha 虽然理解了复古动漫风,但是画面比较生硬、呆板,而Vidu Q1对于80、90年代复古风格理解精准,女孩的表情动作也非常自然。
Runway-Gen3 Alpha
Veo 2
Vidu Q1
此外,在动画风格表现力上,Q1的人物表现更加生动,高动态表现较为惊艳。
比如下面视频,可以看到Veo 2视频中的小狗运动不是很合理,Runway-Gen3 Alpha中的小狗则直接悬空了,Vidu Q1不仅很好理解了3D动漫风,而且镜头运动能很好体现小狗降落的极速感,以及随着降落不断变化的田园景色,非常逼真。
Runway Gen-3 Alpha
Veo 2
Vidu Q1
音效功能:一句话生成专属音效,承包专业创作全流程
Vidu Q1 发布同时,还推出了文生音效模型。只需一句话,即可生成最长 10 秒的专属音效,AI视频从此进入“有声时代”。
音效是视频氛围和真实感的关键。过去,创作者需在音效库中寻找素材,但常常面临版权风险、同质化问题及与视频长度不匹配的困扰。Vidu 的 AI 音效完美解决这些问题,生成的音效既独特又个性化,且无需担心版权。
某海外用户在体验完后表示,Vidu的文生音效提升了整体的创作效率,生成的音效质感非常棒。
此次 Vidu 发布的 AI 音效在技术创新方面有诸多亮点。
首先,用户可以精准控制生成音效的时间,音效可以在 10 秒内的任意时间点开始生成。这也是目前为止业内商业领域首个支持精细化时间控制的文生音效系统。
其次,Vidu 的文生音效功能还支持多段音效叠加,并以一个完整的音频文件输出。例如,下面的示例中,通过多段音效的叠加,成功还原了火车经过的真实感。
尤为值得一提的是,相比于业内普遍只能生成 16KHz或者32KHz,Vidu 的音效已经可以做到48KHz的音乐级采样率和保真度,这也是文生音效在商业化领域中首家做到48KHz的高保真音效。
来听一听效果,这个蟋蟀声是不是有种“一声入夏”,仿佛走入原始森林的感觉。
Hz是评判音频质量的标准,你在耳机中听的QQ音乐一般都是48KHz,其在听觉上会比较流畅,而16KHz、32KHz会存在压缩失真问题。
当然你也可以用Vidu的文生音效功能探索更多玩法,比如生成一段爵士风格的即兴音乐
亦或者来一段中国风纯音乐,古筝、笛子等乐器营造出了古典的山水意境。
Vidu的文生音效功能,打通了视频创作的整个工作流,从视频生成到音效生成,一个平台就能搞定。
拒绝画饼!App、网页端直接体验
Vidu Q1已全球同步上线,无需排队,也不用再申请内测,上线即可立刻体验。目前 Vidu APP 已在安卓和iOS市场上线,用户打开手机APP,或者登陆Vidu 网站即可立刻体验最新Q1模型带来的极致高质体验。此外,据了解,Q1可控等相关重磅功能未来也将陆续上线,值得狠狠期待一波。
天赋从不是定义创作的边界,Vidu Q1让你成为天生导演。