开源模型

# 开源模型

CameraBench

CameraBench 是一个用于分析视频中相机运动的模型，旨在通过视频理解相机的运动模式。它的主要优点在于利用生成性视觉语言模型进行相机运动的原理分类和视频文本检索。通过与传统的结构从运动 (SfM) 和实时定位与*构建 (SLAM) 方法进行比较，该模型在捕捉场景语义方面显示出了显著的优势。该模型已开源，适合研究人员和开发者使用，且后续将推出更多改进版本。

HiDream-I1

HiDream-I1 是一款新型的开源图像生成基础模型，拥有 170 亿个参数，能够在几秒内生成高质量图像。该模型适用于研究和开发，并在多个评测中表现优异，具有高效性和灵活性，适合用于各种创意设计和生成任务。

Together Chat

Together Chat 是一个安全的 AI 聊天平台，提供 100 条免费消息每天，适合需要私密对话和高质量交互的用户。它以 North America 为服务器地点，确保用户信息安全。

聊天机器人

Wan 2.1 AI

Wan 2.1 AI 是由阿里巴巴开发的开源大规模视频生成 AI 模型。它支持文本到视频（T2V）和图像到视频（I2V）的生成，能够将简单的输入转化为高质量的视频内容。该模型在视频生成领域具有重要意义，能够极大地简化视频创作流程，降低创作门槛，提高创作效率，为用户提供丰富多样的视频创作可能性。其主要优点包括高质量的视频生成效果、复杂动作的流畅展现、逼真的物理模拟以及丰富的艺术风格等。目前该产品已完全开源，用户可以免费使用其基础功能，对于有视频创作需求但缺乏专业技能或设备的个人和企业来说，具有很高的实用价值。

CSM 1B

CSM 1B 是一个基于 Llama 架构的语音生成模型，能够从文本和音频输入中生成 RVQ 音频代码。该模型主要应用于语音合成领域，具有高质量的语音生成能力。其优势在于能够处理多说话人的对话场景，并通过上下文信息生成自然流畅的语音。该模型开源，旨在为研究和教育目的提供支持，但明确禁止用于冒充、欺诈或非法活动。

Gemma 3

Gemma 3 是 Google 推出的最新开源模型，基于 Gemini 2.0 的研究和技术开发。它是一个轻量级、高性能的模型，能够在单个 GPU 或 TPU 上运行，为开发者提供强大的 AI 能力。Gemma 3 提供多种尺寸（1B、4B、12B 和 27B），支持超过 140 种语言，并具备先进的文本和视觉推理能力。其主要优点包括高性能、低计算需求以及广泛的多语言支持，适合在各种设备上快速部署 AI 应用。Gemma 3 的推出旨在推动 AI 技术的普及和创新，帮助开发者在不同硬件平台上实现高效开发。

HunyuanVideo-I2V

Hunyuanvideo I2V

HunyuanVideo-I2V 是腾讯开源的图像到视频生成模型，基于 HunyuanVideo 架构开发。该模型通过图像潜在拼接技术，将参考图像信息有效整合到视频生成过程中，支持高分辨率视频生成，并提供可定制的 LoRA 效果训练功能。该技术在视频创作领域具有重要意义，能够帮助创作者快速生成高质量的视频内容，提升创作效率。

Wan2.1-T2V-14B

Wan2.1-T2V-14B 是一款先进的文本到视频生成模型，基于扩散变换器架构，结合了创新的时空变分自编码器（VAE）和大规模数据训练。它能够在多种分辨率下生成高质量的视频内容，支持中文和英文文本输入，并在性能和效率上超越现有的开源和商业模型。该模型适用于需要高效视频生成的场景，如内容创作、广告制作和视频编辑等。目前该模型在 Hugging Face 平台上免费提供，旨在推动视频生成技术的发展和应用。

Wan

Wan是阿里巴巴通义实验室开发的先进视觉生成模型，具备强大的视频生成能力。它能够根据文本、图像及其他控制信号生成视频。Wan2.1系列模型现已完全开源。其主要优点包括卓越的复杂运动生成能力，能够生成逼真的视频，涵盖广泛的身体动作、复杂旋转、动态场景转换和流畅的镜头运动；精准的物理模拟，生成符合真实物理规律的视频；电影质感的画面，提供丰富的纹理和多样化的风格化效果；可控的编辑功能，支持使用图像或视频参考进行精确编辑。该模型的开源为视频生成领域带来了新的可能性，降低了使用门槛，推动了相关技术的发展。

PIKE-RAG

PIKE-RAG 是微软开发的一种领域知识和推理增强生成模型，旨在通过知识提取、存储和推理逻辑增强大型语言模型（LLM）的能力。该模型通过多模块设计，能够处理复杂的多跳问答任务，并在工业制造、矿业和制药等领域显著提升了问答准确性。PIKE-RAG 的主要优点包括高效的知识提取能力、强大的多源信息整合能力和多步推理能力，使其在需要深度领域知识和复杂逻辑推理的场景中表现出色。

SkyReels-V1-Hunyuan-I2V

Skyreels V1 Hunyuan I2V

SkyReels V1 是一个基于 HunyuanVideo 微调的人类中心视频生成模型。它通过高质量影视片段训练，能够生成具有电影级质感的视频内容。该模型在开源领域达到了行业领先水平，尤其在面部表情捕捉和场景理解方面表现出色。其主要优点包括开源领先性、先进的面部动画技术和电影级光影美学。该模型适用于需要高质量视频生成的场景，如影视制作、广告创作等，具有广泛的应用前景。

SkyReels-V1

SkyReels-V1 是一个开源的人类中心视频基础模型，基于高质量影视片段微调，专注于生成高质量的视频内容。该模型在开源领域达到了顶尖水平，与商业模型相媲美。其主要优势包括：高质量的面部表情捕捉、电影级的光影效果以及高效的推理框架 SkyReelsInfer，支持多 GPU 并行处理。该模型适用于需要高质量视频生成的场景，如影视制作、广告创作等。

DeepScaleR-1.5B-Preview

Deepscaler 1.5B Preview

DeepScaleR-1.5B-Preview 是一个经过强化学习优化的大型语言模型，专注于提升数学问题解决能力。该模型通过分布式强化学习算法，显著提高了在长文本推理场景下的准确率。其主要优点包括高效的训练策略、显著的性能提升以及开源的灵活性。该模型由加州大学伯克利分校的 Sky Computing Lab 和 Berkeley AI Research 团队开发，旨在推动人工智能在教育领域的应用，尤其是在数学教育和竞赛数学领域。模型采用 MIT 开源许可，完全免费供研究人员和开发者使用。

Lumina-Video

Lumina-Video 是 Alpha-VLLM 团队开发的一个视频生成模型，主要用于从文本生成高质量的视频内容。该模型基于深度学习技术，能够根据用户输入的文本提示生成对应的视频，具有高效性和灵活性。它在视频生成领域具有重要意义，为内容创作者提供了强大的工具，能够快速生成视频素材。目前该项目已开源，支持多种分辨率和帧率的视频生成，并提供了详细的安装和使用指南。

Zonos-v0.1

Zonos-v0.1 是 Zyphra 团队开发的实时文本转语音（TTS）模型，具备高保真语音克隆功能。该模型包含一个 1.6B 参数的 Transformer 模型和一个 1.6B 参数的混合模型（Hybrid），均在 Apache 2.0 开源许可下发布。它能够根据文本提示生成自然、富有表现力的语音，并支持多种语言。此外，Zonos-v0.1 还可以通过 5 到 30 秒的语音片段实现高质量的语音克隆，并且可以根据说话速度、音调、音质和情绪等条件进行调整。其主要优点是生成质量高、支持实时交互，并且提供了灵活的语音控制功能。该模型的发布旨在推动 TTS 技术的研究和发展。

Hibiki

Hibiki 是一款专注于流式语音翻译的先进模型。它通过实时积累足够的上下文信息来逐块生成正确的翻译，支持语音和文本翻译，并可进行声音转换。该模型基于多流架构，能够同时处理源语音和目标语音，生成连续的音频流和时间戳文本翻译。其主要优点包括高保真语音转换、低延迟实时翻译以及对复杂推理策略的兼容性。Hibiki 目前支持法语到英语的翻译，适合需要高效实时翻译的场景，如国际会议、多语言直播等。模型开源免费，适合开发者和研究人员使用。

Qwen2.5-1M

Qwen2.5-1M 是一款开源的人工智能语言模型，专为处理长序列任务而设计，支持最多100万Token的上下文长度。该模型通过创新的训练方法和技术优化，显著提升了长序列处理的性能和效率。它在长上下文任务中表现出色，同时保持了短文本任务的性能，是现有长上下文模型的优秀开源替代。该模型适用于需要处理大量文本数据的场景，如文档分析、信息检索等，能够为开发者提供强大的语言处理能力。

BEN2

BEN2（Background Erase Network）是一个创新的图像分割模型，采用了Confidence Guided Matting（CGM）流程。它通过一个细化网络专门处理模型置信度较低的像素，从而实现更精确的抠图效果。BEN2在头发抠图、4K图像处理、目标分割和边缘细化方面表现出色。其基础模型是开源的，用户可以通过API或Web演示免费试用完整模型。该模型训练数据包括DIS5k数据集和22K专有分割数据集，能够满足多种图像处理需求。

YuE

YuE 是由香港科技大学和多模态艺术投影团队开发的开源音乐生成模型。它能够根据给定的歌词生成长达 5 分钟的完整歌曲，包括人声和伴奏部分。该模型通过多种技术创新，如语义增强音频标记器、双标记技术和歌词链式思考等，解决了歌词到歌曲生成的复杂问题。YuE 的主要优点是能够生成高质量的音乐作品，并且支持多种语言和音乐风格，具有很强的可扩展性和可控性。该模型目前免费开源，旨在推动音乐生成技术的发展。

Llasa-1B

Llasa-1B 是一个由香港科技大学音频实验室开发的文本转语音模型。它基于 LLaMA 架构，通过结合 XCodec2 代码本中的语音标记，能够将文本转换为自然流畅的语音。该模型在 25 万小时的中英文语音数据上进行了训练，支持从纯文本生成语音，也可以利用给定的语音提示进行合成。其主要优点是能够生成高质量的多语言语音，适用于多种语音合成场景，如有声读物、语音助手等。该模型采用 CC BY-NC-ND 4.0 许可证，禁止商业用途。

文本转声音

Llasa-3B

Llasa-3B 是一个强大的文本到语音（TTS）模型，基于 LLaMA 架构开发，专注于中英文语音合成。该模型通过结合 XCodec2 的语音编码技术，能够将文本高效地转换为自然流畅的语音。其主要优点包括高质量的语音输出、支持多语言合成以及灵活的语音提示功能。该模型适用于需要语音合成的多种场景，如有声读物制作、语音助手开发等。其开源性质也使得开发者可以自由探索和扩展其功能。

文本转声音

MiniRAG

MiniRAG是一个针对小型语言模型设计的检索增强生成系统，旨在简化RAG流程并提高效率。它通过语义感知的异构图索引机制和轻量级的拓扑增强检索方法，解决了小型模型在传统RAG框架中性能受限的问题。该模型在资源受限的场景下具有显著优势，如在移动设备或边缘计算环境中。MiniRAG的开源特性也使其易于被开发者社区接受和改进。

模型训练与部署

MatterGen

MatterGen是微软研究院推出的一种生成式AI工具，用于材料设计。它能够根据应用的设计要求直接生成具有特定化学、机械、电子或磁性属性的新型材料，为材料探索提供了新的范式。该工具的出现有望加速新型材料的研发进程，降低研发成本，并在电池、太阳能电池、CO2吸附剂等领域发挥重要作用。目前，MatterGen的源代码已在GitHub上开源，供公众使用和进一步开发。

Kokoro-82M

Kokoro-82M是一个由hexgrad创建并托管在Hugging Face上的文本到语音（TTS）模型。它具有8200万参数，使用Apache 2.0许可证开源。该模型在2024年12月25日发布了v0.19版本，并提供了10种独特的语音包。Kokoro-82M在TTS Spaces Arena中排名第一，显示出其在参数规模和数据使用上的高效性。它支持美国英语和英国英语，可用于生成高质量的语音输出。

文本转声音

Llama-3-Patronus-Lynx-8B-Instruct

Llama 3 Patronus Lynx 8B Instruct

Llama-3-Patronus-Lynx-8B-Instruct是由Patronus AI开发的一个基于meta-llama/Meta-Llama-3-8B-Instruct模型的微调版本，主要用于检测在RAG设置中的幻觉。该模型训练于包含CovidQA、PubmedQA、DROP、RAGTruth等多个数据集，包含人工标注和合成数据。它能够评估给定文档、问题和答案是否忠实于文档内容，不提供文档之外的新信息，也不与文档信息相矛盾。

模型训练与部署

Meta Video Seal

Meta Video Seal

Meta Video Seal是一个先进的开源视频水印模型，能够在视频编辑后仍嵌入持久、不可见的水印。随着AI生成内容的增加，验证视频来源变得至关重要。Video Seal通过嵌入隐形水印，即使在视频被编辑后，也能保持水印的完整性，这对于版权保护和内容验证具有重要意义。

OLMo-2-1124-13B-Instruct

Olmo 2 1124 13B Instruct

OLMo-2-1124-13B-Instruct是由Allen AI研究所开发的一款大型语言模型，专注于文本生成和对话任务。该模型在多个任务上表现出色，包括数学问题解答、科学问题解答等。它是基于13B参数的版本，经过在特定数据集上的监督微调和强化学习训练，以提高其性能和安全性。作为一个开源模型，它允许研究人员和开发者探索和改进语言模型的科学。

聊天机器人

OLMo-2-1124-7B-Instruct

Olmo 2 1124 7B Instruct

OLMo-2-1124-7B-Instruct是由Allen人工智能研究所开发的一个大型语言模型，专注于对话生成任务。该模型在多种任务上进行了优化，包括数学问题解答、GSM8K、IFEval等，并在Tülu 3数据集上进行了监督微调。它是基于Transformers库构建的，可以用于研究和教育目的。该模型的主要优点包括高性能、多任务适应性和开源性，使其成为自然语言处理领域的一个重要工具。

聊天机器人

Allegro-TI2V

Allegro-TI2V是一个文本图像到视频生成模型，它能够根据用户提供的提示和图像生成视频内容。该模型以其开源性、多样化的内容创作能力、高质量的输出、小巧高效的模型参数以及支持多种精度和GPU内存优化而受到关注。它代表了当前人工智能技术在视频生成领域的前沿进展，具有重要的技术价值和商业应用潜力。Allegro-TI2V模型在Hugging Face平台上提供，遵循Apache 2.0开源协议，用户可以免费下载和使用。

Llama-3.1-Tulu-3-70B-DPO

Llama 3.1 Tulu 3 70B DPO

Llama-3.1-Tulu-3-70B-DPO是Tülu3模型家族的一部分，专为现代后训练技术提供全面指南。该模型家族旨在除了聊天之外的多种任务上实现最先进的性能，如MATH、GSM8K和IFEval。它是基于公开可用的、合成的和人为创建的数据集训练的模型，主要使用英语，并遵循Llama 3.1社区许可协议。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase