genmoai
G
Genmoai
简介 :
genmoai/models 是一个开源的视频生成模型,代表了视频生成技术的最新进展。该模型名为 Mochi 1,是一个基于 Asymmetric Diffusion Transformer (AsymmDiT) 架构的10亿参数扩散模型,从零开始训练,是迄今为止公开发布的最大的视频生成模型。它具有高保真运动和强提示遵循性,显著缩小了封闭和开放视频生成系统之间的差距。该模型在 Apache 2.0 许可下发布,用户可以在 Genmo 的 playground 上免费试用此模型。
需求人群 :
目标受众为视频制作者、游戏开发者、动画师以及任何对视频生成技术感兴趣的研究人员和开发者。这款模型因其开源特性,特别适合那些希望在视频生成领域进行创新和实验的用户。
总访问量: 474.6M
占比最多地区: US(19.34%)
本站浏览量 : 52.7K
使用场景
视频制作者可以使用此模型生成具有特定动作和背景的定制视频内容。
游戏开发者可以利用模型在游戏内生成动态视频背景或剧情动画。
研究人员可以在此基础上进一步开发,探索视频生成技术的更多可能性。
产品特色
使用 Asymmetric Diffusion Transformer (AsymmDiT) 架构,具有10亿参数的扩散模型。
通过 AsymmVAE 模型实现视频的高效压缩,压缩比达到128倍。
支持从命令行直接生成视频或通过 Gradio 用户界面操作。
模型对用户提示的处理仅使用单个 T5-XXL 语言模型进行编码。
模型需要至少4个 H100 GPU 才能运行,社区正在努力降低这一要求。
在研究预览阶段,生成的视频分辨率为480p,可能在极端运动情况下出现轻微形变。
模型优化为照片般真实风格,不适合动画内容的生成。
使用教程
1. 使用 Git 克隆 genmoai/models 仓库到本地。
2. 安装并设置好虚拟环境。
3. 安装必要的依赖项。
4. 下载模型权重到本地目录。
5. 使用提供的命令行工具或 Gradio UI 启动视频生成过程。
6. 根据需要调整生成参数,如提示、种子值等。
7. 运行生成命令,模型将根据输入的提示生成视频。
8. 检查生成的视频是否满足要求,必要时进行微调。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase