视频生成

# 视频生成

ASMR.so

ASMR.so是基于先进的 VEO3 AI 技术的平台，用户可以快速生成专业的 ASMR 视频。该产品支持多种 ASMR 类型，包括耳语、敲击、自然声音等，旨在为用户提供放松和享受的体验。其主要优势在于视频生成速度快（通常在 2 分钟内完成），高清质量以及用户友好的操作流程。适合视频创作者、ASMR 爱好者以及需要放松内容的用户。该平台还提供灵活的信用系统，用户可根据需求选择套餐。产品价格方面，有免费试用和付费套餐可供选择。

FakeYou

FakeYou 是一个使用 AI 技术生成名人声音和视频的在线平台。用户可以通过选择不同的名人声音，生成他们想要的台词，体验独特的互动乐趣。这个平台的主要优点在于其提供了大量的名人声音选择，并且操作简单，适合各类用户进行娱乐和创作。FakeYou 不断更新其声音库，并且支持多个语言，使其适用范围更广泛。

Veo 3 video generator

Veo 3 Video Generator

Veo 3是最新的AI视频生成工具，能够添加声音效果、对话和环境噪音，帮助用户生动展现故事情节。该产品背景信息丰富，价格合理，定位于提供高质量视频生成服务。

AI ASMR

AI ASMR Generator是一款利用AI技术生成ASMR视频的工具。它可以帮助用户快速创建高质量的ASMR视频，提供更丰富的体验和刺激。

UnificAlly

UnificAlly是一家AI API服务平台，提供创新的AI模型和API服务，价格优惠。用户可以访问平台并选择各种先进的AI模型，如GPT 4.1、Suno、Higgsfield等，用于视频生成、图像创作、音乐作曲等。UnificAlly致力于提供高性价比的AI服务，并以快速可靠的API响应、简单易集成的REST API和详尽的文档和示例著称。

A2E Free and Uncensored AI Videos

A2E Free And Uncensored AI Videos

a2e.ai是一款AI工具，提供AI头像、唇形同步、语音克隆、文字生成视频等功能。该产品具有高清晰度、高一致性、高效生成速度等优点，适用于各种场景，提供完整的头像AI工具集。

FlyAgt.ai

FlyAgt是一个AI图像和视频生成平台，提供先进的AI工具，从创建到编辑再到增强图像。它的主要优点在于价格实惠，提供多种专业工具，并保护用户隐私。

Vidduo

AI视频生成器采用领先行业的图像到视频AI技术，智能选择最佳模型，生成1080p视频，支持多镜头拍摄，样式多样，运动流畅。主要优点包括快速生成高质量视频，支持复杂场景和镜头运动控制，适用于设计师、内容创作者等用户。

DreamASMR

DreamASMR利用Veo3 ASMR技术创造令人放松的视频内容，提供先进的AI视频生成、双耳声音和巨细靡遗的视觉体验，是终极ASMR体验。

Veo3Video

Veo3 Video是一款利用Google Veo3模型生成高质量视频的平台。它采用先进的技术和算法，确保视频生成过程中音频与唇语同步，提供一致的视频质量。

Veo 3 AI

VEO3是Google最新的AI视频生成模型，可以将创意想法转化为令人惊叹的视频内容。其主要优点包括高质量视频输出、简单易用、无需技术技能、快速渲染、内容安全等。

Veo3

Veo 3是最新的AI视频生成工具，可添加音效、对话和环境噪音，将您的故事栩栩如生。

HunyuanCustom

HunyuanCustom 是一个多模态定制视频生成框架，旨在根据用户定义的条件生成特定主题的视频。该技术在身份一致性和多种输入模式的支持上表现出色，能够处理文本、图像、音频和视频输入，适合虚拟人广告、视频编辑等多种应用场景。

PixVerse-MCP

PixVerse-MCP 是一个工具，允许用户通过支持模型上下文协议（MCP）的应用程序访问 PixVerse 最新的视频生成模型。该产品提供了文本转视频等功能，适用于创作者和开发者，能够在任何地方生成高质量的视频。PixVerse 平台需要 API 积分，用户需自行购买。

AvatarFX

AvatarFX 是一个尖端的 AI 平台，专注于互动故事讲述。用户可以通过上传图片和选择声音，快速生成生动、真实的角色视频。其核心技术是基于 DiT 的扩散视频生成模型，能够高效生成高保真、时序一致的视频，特别适合需要多个角色和对话场景的创作。产品定位在为创作者提供工具，帮助他们实现想象力的无限可能。

Vidu Q1

Vidu Q1 是由生数科技推出的国产视频生成大模型，专为视频创作者设计，支持高清 1080p 视频生成，具备电影级运镜效果和首尾帧功能。该产品在 VBench-1.0 和 VBench-2.0 评测中位居榜首，性价比极高，价格仅为同行的十分之一。它适用于电影、广告、动漫等多个领域，能够大幅降低创作成本，提升创作效率。

SkyReels-V2

SkyReels-V2 是昆仑万维 SkyReels 团队发布的全球首个使用扩散强迫框架的无限时长电影生成模型。该模型通过结合多模态大语言模型、多阶段预训练、强化学习和扩散强迫框架来实现协同优化，突破了传统视频生成技术在提示词遵循、视觉质量、运动动态和视频时长协调上的重大挑战。它不仅为内容创作者提供了强大的工具，还开启了利用 AI 进行视频叙事和创意表达的无限可能。

Wan2.1-FLF2V-14B

Wan2.1 FLF2V 14B

Wan2.1-FLF2V-14B 是一个开源的大规模视频生成模型，旨在推动视频生成领域的进步。该模型在多项基准测试中表现优异，支持消费者级 GPU，能够高效生成 480P 和 720P 的视频。它在文本到视频、图像到视频等多个任务中表现出色，具有强大的视觉文本生成能力，适用于各种实际应用场景。

FramePack

FramePack 是一个创新的视频生成模型，旨在通过压缩输入帧的上下文来提高视频生成的质量和效率。其主要优点在于解决了视频生成中的漂移问题，通过双向采样方法保持视频质量，适合需要生成长视频的用户。该技术背景来源于对现有模型的深入研究和实验，以改进视频生成的稳定性和连贯性。

Pusa

Pusa 通过帧级噪声控制引入视频扩散建模的创新方法，能够实现高质量的视频生成，适用于多种视频生成任务（文本到视频、图像到视频等）。该模型以其卓越的运动保真度和高效的训练过程，提供了一个开源的解决方案，方便用户进行视频生成任务。

SkyReels-A2

SkyReels-A2 是一个基于视频扩散变换器的框架，允许用户合成和生成视频内容。该模型通过利用深度学习技术，提供了灵活的创作能力，适合多种视频生成应用，尤其是在动画和特效制作方面。该产品的优点在于其开源特性和高效的模型性能，适合研究人员和开发者使用，且目前不收取费用。

OmniTalker

OmniTalker 是由阿里巴巴 Tongyi 实验室提出的一种统一框架，旨在实时生成音频和视频，提升人机交互体验。其创新之处在于解决了传统文本到语音及语音驱动的视频生成方法中常见的音视频不同步、风格不一致及系统复杂性等问题。OmniTalker 采用双分支扩散变换器架构，能够在保持高效的同时实现高保真的音视频输出。其实时推理速度可达每秒 25 帧，适用于各种交互式视频聊天应用，提升了用户体验。

DreamActor-M1

DreamActor-M1 是一个基于扩散变换器 (DiT) 的人类动画框架，旨在实现细粒度的整体可控性、多尺度适应性和长期时间一致性。该模型通过混合引导，能够生成高表现力和真实感的人类视频，适用于从肖像到全身动画的多种场景。其主要优势在于高保真度和身份保留，为人类行为动画带来了新的可能性。

GAIA-2

GAIA-2 是 Wayve 开发的先进视频生成模型，旨在为自动驾驶系统提供多样化和复杂的驾驶场景，以提高安全性和可靠性。该模型通过生成合成数据来解决依赖现实世界数据收集的限制，能够创建各种驾驶情境，包括常规和边缘案例。GAIA-2 支持多种地理和环境条件的模拟，帮助开发者在没有高昂成本的情况下快速测试和验证自动驾驶算法。

AccVideo

AccVideo 是一种新颖的高效蒸馏方法，通过合成数据集加速视频扩散模型的推理速度。该模型能够在生成视频时实现 8.5 倍的速度提升，同时保持相似的性能。它使用预训练的视频扩散模型生成多条有效去噪轨迹，从而优化了数据的使用和生成过程。AccVideo 特别适用于需要高效视频生成的场景，如电影制作、游戏开发等，适合研究人员和开发者使用。

Video-T1

Video-T1 是一个视频生成模型，通过测试时间缩放技术（TTS）显著提升生成视频的质量和一致性。该技术允许在推理过程中使用更多的计算资源，从而优化生成结果。相较于传统的视频生成方法，TTS 能够提供更高的生成质量和更丰富的内容表达，适用于数字创作领域。该产品的定位主要面向研究人员和开发者，价格信息未明确。

vivago.ai

vivago.ai 是一个免费的 AI 生成工具和社区，提供文本转图像、图像转视频等功能，让创作变得更加简单高效。用户可以免费生成高质量的图像和视频，支持多种 AI 编辑工具，方便用户进行创作和分享。该平台的定位是为广大创作者提供易用的 AI 工具，满足他们在视觉创作上的需求。

长上下文调优（LCT）

长上下文调优（LCT）

长上下文调优（LCT）旨在解决当前单次生成能力与现实叙事视频制作之间的差距。该技术通过数据驱动的方法直接学习场景级一致性，支持交互式多镜头开发和合成生成，适用于视频制作的各个方面。

MM_StoryAgent

MM_StoryAgent 是一个基于多智能体范式的故事视频生成框架，它结合了文本、图像和音频等多种模态，通过多阶段流程生成高质量的故事视频。该框架的核心优势在于其可定制性，用户可以自定义专家工具以提升每个组件的生成质量。此外，它还提供了故事主题列表和评估标准，便于进一步的故事创作和评估。MM_StoryAgent 主要面向需要高效生成故事视频的创作者和企业，其开源特性使得用户可以根据自身需求进行扩展和优化。

Flat Color - Style

Flat Color Style

Flat Color - Style是一款专为生成扁平色彩风格图像和视频设计的LoRA模型。它基于Wan Video模型训练，具有独特的无线条、低深度效果，适合用于动漫、插画和视频生成。该模型的主要优点是能够减少色彩渗出，增强黑色表现力，同时提供高质量的视觉效果。它适用于需要简洁、扁平化设计的场景，如动漫角色设计、插画创作和视频制作。该模型是免费提供给用户使用的，旨在帮助创作者快速实现具有现代感和简洁风格的视觉作品。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase