AI视频大模型Vidu 1.5发布:首发“多主体一致性”,能理解记忆上下文
智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
智东西11月13日报道,今日,国内视频大模型创企生数科技发布Vidu 1.5新版本。该版本全新上线“多图参考”功能,突破了“一致性”难题,具备涵盖人物、物体、环境等融合的多主体一致性能力。
通过上传1~3张参考图,Vidu 1.5可实现对单主体100%的精确控制,同时实现多主体交互控制、主体与场景融合控制,能够无缝集成人物、道具和场景。
AI视频大模型Vidu 1.5发布:首发“多主体一致性”,能理解记忆上下文
在拥有处理更复杂任务能力的同时,Vidu 1.5延续了其业界领先的生成效率,不到30秒即可生成一段视频。
今日上新的Vidu 1.5版本首次展现出上下文学习的能力,告别了单点微调,体现出视觉模型与语言模型一样,在经过充分的训练后,具备对上下文的深刻理解、记忆等能力。这也标志着视觉模型进入全新的“上下文”时代。
直通车:www.vidu.studio
一、三大技术突破加成,攻克“多主体一致性”难题
视频生成的一个难题是“一致性控制”问题,即在不同的生成视频之间,模型往往难以确保主体的外观、特征、风格保持一致。尤其是在处理包含多个角色或物理的场景时,模型很难做到对多个主体同时控制,主体间的互动也难以保持自然连贯。
Vidu自上线以来就致力于解决“一致性”核心难题,起初具备“角色一致性”生成能力,确保了人物面部特征的一致性;9月又在全球率先发布了“主体一致性”功能,实现角色全身形象一致。此次“多图参考”进一步强化了Vidu在一致性方面的优势。
据介绍,目前除了Vidu,其他视频生成模型都无法有效控制面部一致性。少数模型通过大量相似图片的输入进行成本高昂的单点微调,才能实现基本的面部一致性。
Vidu直接提升了整体视频模型的可控性,通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。其技术突破具体体现在以下三个方面:
1、复杂主体的精准控制:无论是细节丰富的角色,还是复杂的物体,都能保证其在多个不同视角下的一致性。比如造型复杂的3D动画风格角色,在各种刁钻视角下,都能确保头型、服饰等细节一致。
AI视频大模型Vidu 1.5发布:首发“多主体一致性”,能理解记忆上下文
2、人物面部特征和动态表情的自然一致:在人物特写画面中,能确保人物面部特征细节和表情变化自然流畅,不会出现面部僵硬或失真现象。
AI视频大模型Vidu 1.5发布:首发“多主体一致性”,能理解记忆上下文
3、多主体一致性:Vidu支持上传多个主体图像,包括人物角色、道具物体、环境背景等,并在视频生成中实现这些元素的交互。例如,用户可以上传主体、客体和环境的图片,创建定制角色身穿特定服装、在定制空间内自由动作的场景。Vidu还支持多个主体之间的互动,用户可以上传多个自定义角色,让它们在指定空间内进行交互。此外,Vidu支持融合不同主体特征,例如将角色A的正面与角色B的反面无缝融合,创造出全新的角色或物体。
AI视频大模型Vidu 1.5发布:首发“多主体一致性”,能理解记忆上下文
据生数科技分享,以上这些能力目前业界其他视频模型均无法实现。
二、省去“炼丹”环节,一款“LoRA终结器”
上述突破性的工作源自于Vidu 1.5背后基础模型能力的全面提升,而非业界主流的LoRA微调方案,无需专门的数据采集、数据标注、微调训练环节,一键直出高一致性视频。
此前LoRA微调一直是业界解决一致性问题的主流方案。LoRA(Low-Rank Adaptation)方案,即在预训练模型的基础上,用特定主体的多段视频进行微调,让模型理解该主体的特征,从而能生成该主体在不同角度、光线和场景下的形象,保证其在若干次不同生成时的一致性。
比如创作一只卡通狗的形象,想生成连续一致的视频画面,但模型在预训练过程中并没有学习过该形象,所以需要拿卡通狗的多段视频,让模型进一步训练,直到认识这只卡通狗长什么样。
但通常LoRA需要20~100段的视频,数据构造繁琐,且需要一定的训练时间,通常需要数个小时甚至更久的时间,成本是单次视频生成的成百上千倍。
此外,LoRA微调模型容易产生过拟合,即在理解主体特征的同时,也会遗忘大量原先的知识。这导致对于动态的表情或肢体动作的变化,很难做到有效控制,容易产生僵硬或不自然的效果。在复杂动作或大幅度变换时,微调模型也无法很好地捕捉细节,导致主体特征不够精准。
因此,LoRA主要适用于大多数简单情形下的主体一致性需求,但对于高复杂的主体或问题场景,需要更多的微调数据和更复杂的模型微调策略。
而Vidu 1.5基于通用模型能力的提升,仅靠三张图就实现高可控的稳定输出,直接省去“炼丹”环节,堪称是“ LoRA终结器”。
三、视觉模型进入“上下文时代”
要实现类似的多主体一致性生成任务,需要模型能够同时理解“多图的灵活输入”,不仅是数量上的多图,还要图片不局限于特定的特征。
这与语言模型的“上下文学习”能力具有显著的相似性。
在语言模型中,理解上下文不仅仅是处理单一的文本输入信息,而是通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。
同样地,视频生成或多图生成任务中,模型需要能够理解多个输入图像的准确含义和它们之间的关联性,以及能够根据这些信息生成一致、连贯且有逻辑的输出。
秉承通用性的理念,Vidu有和大语言模型一致的设计哲学:
1、统一问题形式:大语言模型将所有问题统一为(文本输入,文本输出),Vidu则将所有问题统一为(视觉输入,视觉输出);
2、统一架构:大语言模型和Vidu均用单个Transformer统一建模变长的输入和输出;
3、压缩即智能:大语言模型从文本数据的压缩中获取智能,Vidu从视频数据的压缩中获取智能。
通过不断扩展上下文长度,Vidu从1.0迭代到1.5后出现了智能涌现效应,模型能够通过视觉上下文完成大量新任务的直接生成。从单输入主体的文/图生视频,到多输入参考信息,未来生数科技还将以更长、更丰富的上下文作为输入,进一步提升模型的能力表现。
结语:视觉模型将具备更强认知能力
当前的视觉模型尽管在文本生成视频等方面取得显著进展,但与语言模型在深层次智能上的突破相比,尚存在较大差距。
过往的视频模型如果想实现诸如一致性生成的能力,需要针对每一个场景设计相应的模型进行微调,而无法像语言模型一样,通过上下文学习基于少量的示例或提示快速适应新任务。
Vidu 1.5则展现了出色的上下文学习能力。这意味着视觉模型不仅具备了理解和想象的能力,还能够在生成过程中进行记忆管理。
同时,更出色的一致性控制,使Vidu 1.5在创作细腻、逼真的角色时具有显著优势,也进一步降低了对生成视频内容进行后期加工优化的负担。