图像到视频

# 图像到视频

Wan 2.1 AI

Wan 2.1 AI 是由阿里巴巴开发的开源大规模视频生成 AI 模型。它支持文本到视频（T2V）和图像到视频（I2V）的生成，能够将简单的输入转化为高质量的视频内容。该模型在视频生成领域具有重要意义，能够极大地简化视频创作流程，降低创作门槛，提高创作效率，为用户提供丰富多样的视频创作可能性。其主要优点包括高质量的视频生成效果、复杂动作的流畅展现、逼真的物理模拟以及丰富的艺术风格等。目前该产品已完全开源，用户可以免费使用其基础功能，对于有视频创作需求但缺乏专业技能或设备的个人和企业来说，具有很高的实用价值。

Wan2GP

Wan2GP 是基于 Wan2.1 的改进版本，旨在为低配置 GPU 用户提供高效、低内存占用的视频生成解决方案。该模型通过优化内存管理和加速算法，使得普通用户也能在消费级 GPU 上快速生成高质量的视频内容。它支持多种任务，包括文本到视频、图像到视频、视频编辑等，同时具备强大的视频 VAE 架构，能够高效处理 1080P 视频。Wan2GP 的出现降低了视频生成技术的门槛，使得更多用户能够轻松上手并应用于实际场景。

Wan2.1-T2V-14B

Wan2.1-T2V-14B 是一款先进的文本到视频生成模型，基于扩散变换器架构，结合了创新的时空变分自编码器（VAE）和大规模数据训练。它能够在多种分辨率下生成高质量的视频内容，支持中文和英文文本输入，并在性能和效率上超越现有的开源和商业模型。该模型适用于需要高效视频生成的场景，如内容创作、广告制作和视频编辑等。目前该模型在 Hugging Face 平台上免费提供，旨在推动视频生成技术的发展和应用。

Magic 1-For-1

Magic 1-For-1 是一个专注于高效视频生成的模型，其核心功能是将文本和图像快速转换为视频。该模型通过将文本到视频的生成任务分解为文本到图像和图像到视频两个子任务，优化了内存使用并减少了推理延迟。其主要优点包括高效性、低延迟和可扩展性。该模型由北京大学 DA-Group 团队开发，旨在推动交互式基础视频生成领域的发展。目前该模型及相关代码已开源，用户可以免费使用，但需遵守开源许可协议。

Ruyi-Models

Ruyi-Models是一个图像到视频的模型，能够生成高达768分辨率、每秒24帧的电影级视频，支持镜头控制和运动幅度控制。使用RTX 3090或RTX 4090显卡，可以无损生成512分辨率、120帧的视频。该模型以其高质量的视频生成能力和对细节的精确控制而受到关注，尤其在需要生成高质量视频内容的领域，如电影制作、游戏制作和虚拟现实体验中具有重要应用价值。

Ruyi-Mini-7B

Ruyi-Mini-7B是由CreateAI团队开发的开源图像到视频生成模型，具有约71亿参数，能够从输入图像生成360p到720p分辨率的视频帧，最长5秒。模型支持不同宽高比，并增强了运动和相机控制功能，提供更大的灵活性和创造力。该模型在Apache 2.0许可下发布，意味着用户可以自由使用和修改。

ComfyUI-HunyuanVideoWrapper-IP2V

Comfyui HunyuanVideoWrapper IP2V

ComfyUI-HunyuanVideoWrapper-IP2V是一个基于HunyuanVideo的视频生成工具，它允许用户通过图像提示生成视频（IP2V），即利用图像作为生成视频的条件，提取图像的概念和风格。这项技术主要优点在于能够将图像的风格和内容融入视频生成过程中，而不仅仅是作为视频的第一帧。产品背景信息显示，该工具目前处于实验阶段，但已经可以工作，且对VRAM有较高要求，至少需要20GB。

Allegro-TI2V

Allegro-TI2V是一个文本图像到视频生成模型，它能够根据用户提供的提示和图像生成视频内容。该模型以其开源性、多样化的内容创作能力、高质量的输出、小巧高效的模型参数以及支持多种精度和GPU内存优化而受到关注。它代表了当前人工智能技术在视频生成领域的前沿进展，具有重要的技术价值和商业应用潜力。Allegro-TI2V模型在Hugging Face平台上提供，遵循Apache 2.0开源协议，用户可以免费下载和使用。

Pyramid Flow miniFLUX

Pyramid Flow Miniflux

Pyramid Flow miniFLUX是一个基于流匹配的自回归视频生成方法，专注于训练效率和开源数据集的使用。该模型能够生成高质量的10秒768p分辨率、24帧每秒的视频，并自然支持图像到视频的生成。它是视频内容创作和研究领域的一个重要工具，尤其在需要生成连贯动态图像的场合。

Hailuo AI.org

Hailuo AI是由MiniMax开发的一款先进的人工智能生产力工具，旨在改变视频内容创作的方式。这一创新平台允许用户通过简单的文字提示生成高质量的视频，特别适合营销人员、教育工作者和内容创作者使用。Hailuo AI以其快速的处理时间和广泛的艺术风格而表现出色，结合文本和图像提示的功能可实现高度个性化的输出，因此对追求灵活性的创作者很有吸引力。

PhysGen

PhysGen是一个创新的图像到视频生成方法，它能够将单张图片和输入条件（例如，对图片中物体施加的力和扭矩）转换成现实、物理上合理且时间上连贯的视频。该技术通过将基于模型的物理模拟与数据驱动的视频生成过程相结合，实现了在图像空间中的动态模拟。PhysGen的主要优点包括生成的视频在物理和外观上都显得逼真，并且可以精确控制，通过定量比较和全面的用户研究，展示了其在现有数据驱动的图像到视频生成工作中的优越性。

Dream Machine API

Dream Machine API

Dream Machine API是一个创意智能平台，它提供了一系列先进的视频生成模型，通过直观的API和开源SDKs，用户可以构建和扩展创意AI产品。该平台拥有文本到视频、图像到视频、关键帧控制、扩展、循环和相机控制等功能，旨在通过创意智能与人类合作，帮助他们创造更好的内容。Dream Machine API的推出，旨在推动视觉探索和创造的丰富性，让更多的想法得以尝试，构建更好的叙事，并让那些以前无法做到的人讲述多样化的故事。

AI Youtube Shorts Generator

AI Youtube Shorts Generator

AI Youtube Shorts Generator 是一个利用GPT-4和Whisper技术的Python工具，它可以从长视频中提取最有趣的亮点，检测演讲者，并将内容垂直裁剪，以适应短片格式。这个工具目前处于0.1版本，可能存在一些bug。

Vchitect 2.0

Vchitect 2.0（筑梦2.0）是一款由上海人工智能实验室开发的高级视频生成模型，旨在赋予视频创作新的动力。它支持20秒视频生成，灵活的宽高比，生成空间时间增强，以及长视频评估。Vchitect 2.0通过其先进的技术，能够将静态图像转换为5-10秒的视频，使用户能够轻松地将照片或设计转换为引人入胜的视觉体验。此外，Vchitect 2.0还支持长视频生成模型的评估，通过VBench平台，提供全面且持续更新的评估排行榜，支持多种长视频模型，如Gen-3、Kling、OpenSora等。

Generative Keyframe Interpolation with Forward-Backward Consistency

Generative Keyframe Interpolation With Forward Backward Consistency

该产品是一个图像到视频的扩散模型，通过轻量级的微调技术，能够从一对关键帧生成具有连贯运动的连续视频序列。这种方法特别适用于需要在两个静态图像之间生成平滑过渡动画的场景，如动画制作、视频编辑等。它利用了大规模图像到视频扩散模型的强大能力，通过微调使其能够预测两个关键帧之间的视频，从而实现前向和后向的一致性。

ComfyUI-CogVideoXWrapper

Comfyui CogVideoXWrapper

ComfyUI-CogVideoXWrapper 是一个基于Python的视频处理模型，它通过使用T5模型进行视频内容的生成和转换。该模型支持从图像到视频的转换工作流程，并在实验阶段展现出有趣的效果。它主要针对需要进行视频内容创作和编辑的专业用户，尤其是在视频生成和转换方面有特殊需求的用户。

CamCo

CamCo是一个创新的图像到视频生成框架，它能够生成具有3D一致性的高质量视频。该框架通过Plücker坐标引入相机信息，并提出了一种符合几何一致性的双线约束注意力模块。此外，CamCo在通过运动结构算法估计相机姿态的真实世界视频上进行了微调，以更好地合成物体运动。

MusePose

MusePose是由腾讯音乐娱乐的Lyra Lab开发的一款图像到视频的生成框架，旨在通过姿势控制信号生成虚拟人物的视频。它是Muse开源系列的最后一个构建块，与MuseV和MuseTalk一起，旨在推动社区向生成具有全身运动和交互能力的虚拟人物的愿景迈进。MusePose基于扩散模型和姿势引导，能够生成参考图像中人物的舞蹈视频，并且结果质量超越了当前几乎所有同一主题的开源模型。

I2VEdit

I2VEdit是一种创新的视频编辑技术，通过预训练的图像到视频模型，将单一帧的编辑扩展到整个视频。这项技术能够适应性地保持源视频的视觉和运动完整性，并有效处理全局编辑、局部编辑以及适度的形状变化，这是现有方法所不能实现的。I2VEdit的核心包括两个主要过程：粗略运动提取和外观细化，通过粗粒度注意力匹配进行精确调整。此外，还引入了跳过间隔策略，以减轻多个视频片段自动回归生成过程中的质量下降。实验结果表明，I2VEdit在细粒度视频编辑方面的优越性能，证明了其能够产生高质量、时间一致的输出。

AnimateLCM-SVD-xt

Animatelcm SVD Xt

AnimateLCM-SVD-xt是一种新的图像到视频生成模型,可以在很少的步骤内生成高质量、连贯性好的视频。该模型通过一致性知识蒸馏和立体匹配学习技术,使生成视频更加平稳连贯,同时大大减少了计算量。关键特点包括:1) 4-8步内生成25帧576x1024分辨率视频;2) 比普通视频diffusion模型降低12.5倍计算量;3) 生成视频质量好,无需额外分类器引导。

ai sora tech

AI SORA TECH是一款革命性的内容创作工具，利用先进的视频生成技术，将文本和图像转化为动态视频，并支持视频到视频的创作。它可以根据输入的文本或图像生成整个视频或延长现有视频的长度，满足各种视频制作需求。AI SORA TECH的功能丰富，操作简便，适用于专业人士和初学者。

Stable Video Diffusion 1.1 Image-to-Video

Stable Video Diffusion 1.1 Image To Video

Stable Video Diffusion (SVD) 1.1 Image-to-Video 是一个扩散模型，通过将静止图像作为条件帧，生成相应的视频。该模型是一个潜在扩散模型，经过训练，能够从图像生成短视频片段。在分辨率为 1024x576 的情况下，该模型训练生成 25 帧视频，其训练基于相同大小的上下文帧，并从 SVD Image-to-Video [25 frames] 进行了微调。微调时，固定了6FPS和Motion Bucket Id 127的条件，以提高输出的一致性，而无需调整超参数。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase