Ditctrl : 探索多模态扩散变换器中的注意力控制，实现无需调优的多提示长视频生成

Ditctrl

视频生成 AI模型 #视频生成 #多模态 #扩散变换器 #无需训练 #多提示 #连贯性普通产品开源

简介 :

DiTCtrl是一种基于多模态扩散变换器（MM-DiT）架构的视频生成模型，它专注于无需额外训练即可生成具有多个连续提示的连贯场景视频。该模型通过分析MM-DiT的注意力机制，实现了在不同提示间精确的语义控制和注意力共享，从而生成具有平滑过渡和一致对象运动的视频。DiTCtrl的主要优点包括无需训练、能够处理多提示视频生成任务，并能展示电影风格的过渡效果。此外，DiTCtrl还提供了一个新基准MPVBench，专门用于评估多提示视频生成的性能。

需求人群 :

目标受众为视频制作者、内容创作者和研究人员，他们需要生成具有多个提示和动态场景的视频内容。DiTCtrl适合他们，因为它提供了一种无需复杂训练过程即可生成高质量、连贯视频内容的方法，同时还能进行视频编辑和长视频生成，极大地提高了视频制作的效率和灵活性。

总访问量： 0

本站浏览量： 48.0K

使用场景

生成一个关于‘一只猫看着一只黑色的老鼠’的视频，展示不同提示间的平滑过渡。

通过DiTCtrl生成一个长视频，内容为‘海洋中的鱼’，展示视频的连贯性和动态效果。

使用DiTCtrl进行视频编辑，将视频中的‘白色SUV’替换为‘红色跑车’，同时保持视频的原始构图。

产品特色

• 无需训练的多提示视频生成：DiTCtrl能够在无需额外训练的情况下，根据多个连续提示生成视频。

• 平滑过渡和一致性：视频生成过程中实现了对象运动的连贯性和场景之间的平滑过渡。

• 多模态扩散变换器架构：基于MM-DiT架构，DiTCtrl展现了与UNet类似的自注意力机制，并增强了时间建模能力。