对话生数科技骆怡航：Vidu Q1参考生重新定义叙事行业已越商业化拐点

新浪AI

2025.07.3019:26

关注

近日，2025世界人工智能大会现场，我们探展来到了Vidu的展位。

Vidu是北京生数科技有限公司联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型，于2024年4月发布上线，模型采用团队原创的全球首个Diffusion与Transformer融合的架构U-ViT。

他们也于近日发布了全新Vidu Q1参考生视频功能，早在去年Vidu 在全球就首个提出了参考生功能。该功能也是生数科技此次展示的重点。现场，我们和生数科技CEO骆怡航聊了聊今年AIGC的发展。

据公开资料显示，骆怡航毕业于清华大学自动化系，在云计算及人工智能领域拥有超过十年的从业经验，曾担任字节跳动火山引擎AI应用产品线负责人，管理数百人团队并主导战略、产品及商业化工作。现任北京生数科技有限公司首席执行官（CEO），全面负责公司研发、产品、商业化及团队管理工作。

他向@新浪AI表示：作为AI视频领域的一线从业者，我认为今年AI视频行业已越过商业化拐点，目前处于商业化早期阶段。在广告电商、互联网等多产业虽然并没有100%渗透进去，行业生产效率、流程替代等问题还没有得到很好解决，但我们也看到AI视频已经在逐步解决这些行业痛点。

AIGC面临的行业痛点及原因

谈及行业痛点，他指出，AI视频常因“主角变脸”、“商品失真”的“李鬼”现象始终未能在广告电商行业得到大规模应用。

谈到这个现象不得不提现有的技术流程。原有的文生视频在一致性上是没法保持的。比如生成一个 5 秒片段的视频，里面的人物、道具、场景没法固定主体，所以文生视频很少在如广告、动漫、影视等商业场景里应用。

对于图生视频来说，用户需要一张完整的首帧的图片或者尾帧的图片，前期需要通过P图、生图、融图来完成，而且图生视频的图已把视频里面的元素都固定了，很难让模型有更大发挥空间。

参考生如何主体保持一致性

参考生视频让用户回到了本身视频拍摄的本质，把人物、道具、场景等都定下来了，无需经过生图，图再生成视频，Vidu 参考生从参考图——视频生成——剪辑——成片，直接跳过中间复杂度较高的分镜制作环节，仅需上传人物、道具、场景等参考图，即可直接将多个参考元素生成为一段视频素材，真正实现零分镜生成。

相较于文生视频的不可控和图生视频对分镜的重度依赖，参考生兼具可控性与灵活性的双重优势。目前Vidu Q1可最多支持七个主体同时输入并始终保持一致，同时应用还提供了提示词专业模式，用户可以输入简单的提示词，模型就可以转为更专业的提示词的模式，帮助半专业创作者或者业余创作者都可以创作出更好的作品。

目前Vidu已在广告电商、互联网、动漫、影视、文旅、教育、游戏、广电等八大行业落地应用。

下一步：打造“好”“快”“省”

在解决了一致性问题之后，下一步就是提升视频的创意能力，视频生成效果，视频生成的速度，降低视频生成成本的下降，骆怡航将其总结为AI视频生成的“好”“快”“省”。

关于“快”和“省”的部分目前还有突破空间，现在做到了最快几秒钟生成视频片段，1080P 视频片段也做到了分钟级生成，未来还会推进AI视频实时生成。

实测Vidu Q1参考生功能

对话结束后，我们一起现场实测了Vidu Q1 参考生视频功能。仅需上传人物、道具、场景等参考图，再加上一句简单的提示词，1分钟时间就输出了多条1080p超高一致性的视频。