文本到视频

# 文本到视频

Wan 2.1 AI

Wan 2.1 AI 是由阿里巴巴开发的开源大规模视频生成 AI 模型。它支持文本到视频（T2V）和图像到视频（I2V）的生成，能够将简单的输入转化为高质量的视频内容。该模型在视频生成领域具有重要意义，能够极大地简化视频创作流程，降低创作门槛，提高创作效率，为用户提供丰富多样的视频创作可能性。其主要优点包括高质量的视频生成效果、复杂动作的流畅展现、逼真的物理模拟以及丰富的艺术风格等。目前该产品已完全开源，用户可以免费使用其基础功能，对于有视频创作需求但缺乏专业技能或设备的个人和企业来说，具有很高的实用价值。

Wan2GP

Wan2GP 是基于 Wan2.1 的改进版本，旨在为低配置 GPU 用户提供高效、低内存占用的视频生成解决方案。该模型通过优化内存管理和加速算法，使得普通用户也能在消费级 GPU 上快速生成高质量的视频内容。它支持多种任务，包括文本到视频、图像到视频、视频编辑等，同时具备强大的视频 VAE 架构，能够高效处理 1080P 视频。Wan2GP 的出现降低了视频生成技术的门槛，使得更多用户能够轻松上手并应用于实际场景。

Wan2.1-T2V-14B

Wan2.1-T2V-14B 是一款先进的文本到视频生成模型，基于扩散变换器架构，结合了创新的时空变分自编码器（VAE）和大规模数据训练。它能够在多种分辨率下生成高质量的视频内容，支持中文和英文文本输入，并在性能和效率上超越现有的开源和商业模型。该模型适用于需要高效视频生成的场景，如内容创作、广告制作和视频编辑等。目前该模型在 Hugging Face 平台上免费提供，旨在推动视频生成技术的发展和应用。

FlashVideo

FlashVideo 是一款专注于高效高分辨率视频生成的深度学习模型。它通过分阶段的生成策略，首先生成低分辨率视频，再通过增强模型提升至高分辨率，从而在保证细节的同时显著降低计算成本。该技术在视频生成领域具有重要意义，尤其是在需要高质量视觉内容的场景中。FlashVideo 适用于多种应用场景，包括内容创作、广告制作和视频编辑等。其开源性质使得研究人员和开发者可以灵活地进行定制和扩展。

Magic 1-For-1

Magic 1-For-1 是一个专注于高效视频生成的模型，其核心功能是将文本和图像快速转换为视频。该模型通过将文本到视频的生成任务分解为文本到图像和图像到视频两个子任务，优化了内存使用并减少了推理延迟。其主要优点包括高效性、低延迟和可扩展性。该模型由北京大学 DA-Group 团队开发，旨在推动交互式基础视频生成领域的发展。目前该模型及相关代码已开源，用户可以免费使用，但需遵守开源许可协议。

STAR是一种创新的视频超分辨率技术，通过将文本到视频扩散模型与视频超分辨率相结合，解决了传统GAN方法中存在的过度平滑问题。该技术不仅能够恢复视频的细节，还能保持视频的时空一致性，适用于各种真实世界的视频场景。STAR由南京大学、字节跳动等机构联合开发，具有较高的学术价值和应用前景。

ClipVideo AI

ClipVideo AI是一个专业的AI视频生成平台，它利用人工智能技术将照片或简单的文本提示转换成引人入胜的视频。该平台以其快速的视频生成工具、企业级的安全性和支持、以及被众多团队信赖而著称。ClipVideo AI提供了从基础到专业的不同定价计划，满足不同用户的需求。

VideoVAEPlus

这是一个视频变分自编码器（VAE），旨在减少视频冗余并促进高效视频生成。该模型通过观察发现，将图像VAE直接扩展到3D VAE会引入运动模糊和细节失真，因此提出了时间感知的空间压缩以更好地编码和解码空间信息。此外，该模型还集成了一个轻量级的运动压缩模型以实现进一步的时间压缩。通过利用文本到视频数据集中固有的文本信息，并在模型中加入文本指导，显著提高了重建质量，特别是在细节保留和时间稳定性方面。该模型还通过在图像和视频上进行联合训练来提高其通用性，不仅提高了重建质量，还使模型能够执行图像和视频的自编码。广泛的评估表明，该方法的性能优于最近的强基线。

Zebracat

Zebracat是一个利用人工智能技术，帮助用户将文本、博客内容快速转换成专业视频的平台。它通过AI视频生成器，提供文本到视频、博客到视频、AI场景生成等功能，极大地简化了视频制作流程，提高了内容创作的效率。Zebracat的主要优点包括快速生成视频、无需专业编辑技能、支持多种语言和AI配音，以及提供高影响力的营销视频。产品背景信息显示，Zebracat受到超过50,000名AI创作者的喜爱，并在Product Hunt上获得高度评价。

Pollo AI

Pollo AI是一个创新的AI视频生成器，它允许用户轻松创建令人惊叹的视频。用户可以通过简单的文本提示或静态图片，快速生成具有特定风格和内容的视频。Pollo AI以其用户友好的界面、广泛的定制选项和高质量的输出而脱颖而出，是初学者和经验丰富的创作者的首选。它不仅支持文本到视频的生成，还可以根据图片内容和用户需求生成视频，拥有多种模板，包括AI拥抱视频生成器，可以轻松制作温馨感人的拥抱视频。Pollo AI以其快速的视频生成能力、高质量的输出和无需技术视频编辑技能即可使用的易用性，为用户提供了无限的创作可能性。

ConsisID

ConsisID是一个基于频率分解的身份保持文本到视频生成模型，它通过在频域中使用身份控制信号来生成与输入文本描述一致的高保真度视频。该模型不需要针对不同案例进行繁琐的微调，并且能够保持生成视频中人物身份的一致性。ConsisID的提出，推动了视频生成技术的发展，特别是在无需调整的流程和频率感知的身份保持控制方案方面。

Allegro-TI2V

Allegro-TI2V是一个文本图像到视频生成模型，它能够根据用户提供的提示和图像生成视频内容。该模型以其开源性、多样化的内容创作能力、高质量的输出、小巧高效的模型参数以及支持多种精度和GPU内存优化而受到关注。它代表了当前人工智能技术在视频生成领域的前沿进展，具有重要的技术价值和商业应用潜力。Allegro-TI2V模型在Hugging Face平台上提供，遵循Apache 2.0开源协议，用户可以免费下载和使用。

Pyramid Flow miniFLUX

Pyramid Flow Miniflux

Pyramid Flow miniFLUX是一个基于流匹配的自回归视频生成方法，专注于训练效率和开源数据集的使用。该模型能够生成高质量的10秒768p分辨率、24帧每秒的视频，并自然支持图像到视频的生成。它是视频内容创作和研究领域的一个重要工具，尤其在需要生成连贯动态图像的场合。

CogVideoX1.5-5B-SAT

Cogvideox1.5 5B SAT

CogVideoX1.5-5B-SAT是由清华大学知识工程与数据挖掘团队开发的开源视频生成模型，是CogVideoX模型的升级版。该模型支持生成10秒视频，并支持更高分辨率的视频生成。模型包含Transformer、VAE和Text Encoder等模块，能够根据文本描述生成视频内容。CogVideoX1.5-5B-SAT模型以其强大的视频生成能力和高分辨率支持，为视频内容创作者提供了一个强大的工具，尤其在教育、娱乐和商业领域有着广泛的应用前景。

Hailuo AI.org

Hailuo AI是由MiniMax开发的一款先进的人工智能生产力工具，旨在改变视频内容创作的方式。这一创新平台允许用户通过简单的文字提示生成高质量的视频，特别适合营销人员、教育工作者和内容创作者使用。Hailuo AI以其快速的处理时间和广泛的艺术风格而表现出色，结合文本和图像提示的功能可实现高度个性化的输出，因此对追求灵活性的创作者很有吸引力。

Viral Video

Viral Video是一个利用人工智能技术帮助用户快速创建病毒式视频的在线平台。它通过文本到视频的转换、文本到语音的转换、AI视频编辑和AI场景生成等功能，简化了视频制作流程，降低了成本，并提高了视频的吸引力和传播潜力。该平台特别适合内容创作者、营销人员和社交媒体运营者，帮助他们以更低的成本和更快的速度制作出高质量的视频内容，从而在社交媒体上获得更多的关注和互动。

Mochi 1

Mochi 1 是 Genmo 公司推出的一款研究预览版本的开源视频生成模型，它致力于解决当前AI视频领域的基本问题。该模型以其无与伦比的运动质量、卓越的提示遵循能力和跨越恐怖谷的能力而著称，能够生成连贯、流畅的人类动作和表情。Mochi 1 的开发背景是响应对高质量视频内容生成的需求，特别是在游戏、电影和娱乐行业中。产品目前提供免费试用，具体定价信息未在页面中提供。

Allegro

Allegro是由Rhymes AI开发的高级文本到视频模型，它能够将简单的文本提示转换成高质量的短视频片段。Allegro的开源特性使其成为创作者、开发者和AI视频生成领域研究人员的强大工具。Allegro的主要优点包括开源、内容创作多样化、高质量输出以及模型体积小且高效。它支持多种精度（FP32、BF16、FP16），在BF16模式下，GPU内存使用量为9.3 GB，上下文长度为79.2k，相当于88帧。Allegro的技术核心包括大规模视频数据处理、视频压缩成视觉令牌以及扩展视频扩散变换器。

Dream Machine API

Dream Machine API

Dream Machine API是一个创意智能平台，它提供了一系列先进的视频生成模型，通过直观的API和开源SDKs，用户可以构建和扩展创意AI产品。该平台拥有文本到视频、图像到视频、关键帧控制、扩展、循环和相机控制等功能，旨在通过创意智能与人类合作，帮助他们创造更好的内容。Dream Machine API的推出，旨在推动视觉探索和创造的丰富性，让更多的想法得以尝试，构建更好的叙事，并让那些以前无法做到的人讲述多样化的故事。

AI Youtube Shorts Generator

AI Youtube Shorts Generator

AI Youtube Shorts Generator 是一个利用GPT-4和Whisper技术的Python工具，它可以从长视频中提取最有趣的亮点，检测演讲者，并将内容垂直裁剪，以适应短片格式。这个工具目前处于0.1版本，可能存在一些bug。

CogVideo

CogVideo是由清华大学团队开发的文本到视频生成模型，它通过深度学习技术将文本描述转换为视频内容。该技术在视频内容创作、教育、娱乐等领域具有广泛的应用前景。CogVideo模型通过大规模预训练，能够生成与文本描述相匹配的视频，为视频制作提供了一种全新的自动化方式。

CogVideoX-5B

CogVideoX是一个开源的视频生成模型，由清华大学团队开发，支持从文本描述生成视频。它提供了多种视频生成模型，包括入门级和大型模型，以满足不同质量和成本需求。模型支持多种精度，包括FP16和BF16，推荐使用与模型训练时相同的精度进行推理。CogVideoX-5B模型特别适用于需要生成高质量视频内容的场景，如电影制作、游戏开发和广告创意。

Dream Machine AI.online

Dream Machine AI.online

Dream Machine AI是一个利用尖端技术将文字和图片转化为高质量视频的AI平台。它由Luma AI驱动，使用先进的变换模型快速生成具有复杂时空运动的物理准确和一致的视频内容。主要优点包括生成速度快、运动逼真连贯、角色一致性高、相机运动自然。产品定位为视频创作者和内容制作者提供快速高效的视频生成解决方案。

CogVideoX

CogVideoX是一个开源的视频生成模型，与商业模型同源，支持通过文本描述生成视频内容。它代表了文本到视频生成技术的最新进展，具有生成高质量视频的能力，能够广泛应用于娱乐、教育、商业宣传等领域。

Open-Sora Plan v1.2

Open Sora Plan V1.2

Open-Sora Plan v1.2是一个开源的视频生成模型，专注于文本到视频的转换任务。它采用3D全注意力架构，优化了视频的视觉表示，并提高了推理效率。该模型在视频生成领域具有创新性，能够更好地捕捉联合空间-时间特征，为视频内容的自动生成提供了新的技术路径。

AsyncDiff

AsyncDiff 是一种用于并行化扩散模型的异步去噪加速方案，它通过将噪声预测模型分割成多个组件并分配到不同的设备上，实现了模型的并行处理。这种方法显著减少了推理延迟，同时对生成质量的影响很小。AsyncDiff 支持多种扩散模型，包括 Stable Diffusion 2.1、Stable Diffusion 1.5、Stable Diffusion x4 Upscaler、Stable Diffusion XL 1.0、ControlNet、Stable Video Diffusion 和 AnimateDiff。

Kling

Kling AI是由快手科技开发的文本到视频生成模型，能够根据文本提示生成高度逼真的视频。它具有高效的视频生成能力，长达2分钟的30帧每秒视频，以及3D时空联合注意机制和物理世界模拟等先进技术，使其在AI视频生成领域具有显著的竞争优势。

ShareGPT4Video

ShareGPT4Video系列旨在通过密集且精确的字幕来促进大型视频-语言模型(LVLMs)的视频理解以及文本到视频模型(T2VMs)的视频生成。该系列包括：1) ShareGPT4Video，40K GPT4V注释的密集视频字幕，通过精心设计的数据过滤和注释策略开发而成。2) ShareCaptioner-Video，一个高效且功能强大的任意视频字幕模型，由其注释的4.8M高质量美学视频。3) ShareGPT4Video-8B，一个简单但卓越的LVLM，其在三个先进的视频基准测试中达到了最佳性能。

VideoTetris

VideoTetris是一个新颖的框架，它实现了文本到视频的生成，特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术，精确地遵循复杂的文本语义，并通过操作和组合去噪网络的空间和时间注意力图来实现。此外，它还引入了一种新的参考帧注意力机制，以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。

Dream Machine AI

Dream Machine AI

Dream Machine是由Luma Labs开发的一款先进的人工智能模型，旨在快速从文本和图片生成高质量的、逼真的视频。这个高度可扩展且高效的变换模型直接在视频上训练，使其能够产生物理上准确、一致且充满事件的镜头。Dream Machine AI是朝着创建通用想象力引擎迈出的重要一步，使每个人都能轻松访问。它可以生成带有平滑动作、电影质量和戏剧元素的5秒视频片段，将静态快照转化为动态故事。该模型理解物理世界中人与人之间、动物和物体之间的互动，允许创建具有极佳角色一致性和准确物理的视频。此外，Dream Machine AI支持广泛的流畅、电影化和自然主义的摄像机运动，与场景的情感和内容相匹配。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase