新浪新闻

对话生数科技骆怡航:Vidu Q1参考生重新定义叙事 行业已越商业化拐点

新浪AI

关注

近日,2025世界人工智能大会现场,我们探展来到了Vidu的展位。

Vidu是北京生数科技有限公司联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型,于2024年4月发布上线,模型采用团队原创的全球首个Diffusion与Transformer融合的架构U-ViT。

他们也于近日发布了全新Vidu Q1参考生视频功能,早在去年Vidu 在全球就首个提出了参考生功能。该功能也是生数科技此次展示的重点。现场,我们和生数科技CEO骆怡航聊了聊今年AIGC的发展。

据公开资料显示,骆怡航毕业于清华大学自动化系,在云计算及人工智能领域拥有超过十年的从业经验,曾担任字节跳动火山引擎AI应用产品线负责人,管理数百人团队并主导战略、产品及商业化工作。现任北京生数科技有限公司首席执行官(CEO),全面负责公司研发、产品、商业化及团队管理工作。

他向@新浪AI表示:作为AI视频领域的一线从业者,我认为今年AI视频行业已越过商业化拐点,目前处于商业化早期阶段。在广告电商、互联网等多产业虽然并没有100%渗透进去,行业生产效率、流程替代等问题还没有得到很好解决,但我们也看到AI视频已经在逐步解决这些行业痛点。

AIGC面临的行业痛点及原因

谈及行业痛点,他指出,AI视频常因“主角变脸”、“商品失真”的“李鬼”现象始终未能在广告电商行业得到大规模应用。

谈到这个现象不得不提现有的技术流程。原有的文生视频在一致性上是没法保持的。比如生成一个 5 秒片段的视频,里面的人物、道具、场景没法固定主体,所以文生视频很少在如广告、动漫、影视等商业场景里应用。 

对于图生视频来说,用户需要一张完整的首帧的图片或者尾帧的图片,前期需要通过P图、生图、融图来完成,而且图生视频的图已把视频里面的元素都固定了,很难让模型有更大发挥空间。

参考生如何主体保持一致性

参考生视频让用户回到了本身视频拍摄的本质,把人物、道具、场景等都定下来了,无需经过生图,图再生成视频,Vidu 参考生从参考图——视频生成——剪辑——成片,直接跳过中间复杂度较高的分镜制作环节,仅需上传人物、道具、场景等参考图,即可直接将多个参考元素生成为一段视频素材,真正实现零分镜生成。

相较于文生视频的不可控和图生视频对分镜的重度依赖,参考生兼具可控性与灵活性的双重优势。目前Vidu Q1可最多支持七个主体同时输入并始终保持一致,同时应用还提供了提示词专业模式,用户可以输入简单的提示词,模型就可以转为更专业的提示词的模式,帮助半专业创作者或者业余创作者都可以创作出更好的作品。

目前Vidu已在广告电商、互联网、动漫、影视、文旅、教育、游戏、广电等八大行业落地应用。

下一步:打造“好”“快”“省”

在解决了一致性问题之后,下一步就是提升视频的创意能力,视频生成效果,视频生成的速度,降低视频生成成本的下降,骆怡航将其总结为AI视频生成的“好”“快”“省”。

关于“快”和“省”的部分目前还有突破空间,现在做到了最快几秒钟生成视频片段,1080P 视频片段也做到了分钟级生成,未来还会推进AI视频实时生成。

实测Vidu Q1参考生功能

对话结束后,我们一起现场实测了Vidu Q1 参考生视频功能。仅需上传人物、道具、场景等参考图,再加上一句简单的提示词,1分钟时间就输出了多条1080p超高一致性的视频。

对话生数科技骆怡航:Vidu Q1参考生重新定义叙事 行业已越商业化拐点
加载中...