开源

# 开源

OmniAvatar

OmniAvatar 是一种先进的音频驱动视频生成模型，能够生成高质量的虚拟形象动画。其重要性在于结合了音频和视觉内容，实现高效的身体动画，适用于各种应用场景。该技术利用深度学习算法，实现高保真的动画生成，支持多种输入形式，定位于影视、游戏和社交领域。该模型是开源的，促进了技术的共享与应用。

Dyad

Dyad是一款强大的应用构建工具，采用开源技术，用户可以自由定制和构建AI应用。其主要优点包括灵活性高、功能强大、支持本地开发和定制化。

开发与工具

NativeMind

NativeMind是一个在设备上运行的私密AI助手，通过连接到Ollama本地LLMs，将最新的AI功能带到您喜爱的浏览器中，无需向云服务器发送任何数据。它完全开源，具有审计能力、透明度和社区支持。NativeMind旨在提供高效的本地AI支持，使用户能够获得最新的智能技术，保持数据安全和控制权。

OmniGen2

OmniGen2 是一个高效的多模态生成模型，结合了视觉语言模型和扩散模型，能够实现视觉理解、图像生成及编辑等功能。其开源特性为研究人员和开发者提供了强大的基础，助力个性化和可控生成 AI 的探索。

Kimi-Dev

Kimi-Dev 是一款强大的开源编码 LLM，旨在解决软件工程中的问题。它通过大规模强化学习优化，确保在真实开发环境中的正确性和稳健性。Kimi-Dev-72B 在 SWE-bench 验证中实现了 60.4% 的性能，超越其他开源模型，是目前最先进的编码 LLM 之一。该模型可在 Hugging Face 和 GitHub 上下载和部署，适合开发者和研究人员使用。

PandaWiki

PandaWiki 是一款基于 AI 大模型的开源知识库搭建系统，旨在帮助用户快速构建智能化的产品文档和技术文档。它的主要优势在于能够通过 AI 技术提供智能创作、问答和搜索能力，极大提升了文档管理和用户体验。适合希望利用 AI 提升工作效率的团队和企业。

Chatterbox AI

Chatterbox 是 Resemble AI 推出的第一个开源生产级文本转语音 (TTS) 模型，具有卓越的性能和稳定性。它经过与顶尖闭源系统的比较，展现出更优的效果。该模型的独特之处在于它支持情感夸张控制，适用于制作视频、游戏、AI 代理等多种场景。Chatterbox 的价格竞争力强，同时提供超低延迟，适合生产使用。

文本转声音

DeepSeek R1-0528

Deepseek R1 0528

DeepSeek R1-0528 是知名开源大模型平台 DeepSeek 发布的最新版本，具有高性能的自然语言处理和编程能力。它的发布引起了广泛关注，因其在编程任务中表现出色，能够准确回答复杂问题。该模型支持多种应用场景，是开发者和 AI 研究者的重要工具。预计后续将发布更详细的模型信息和使用指南，增强其功能和应用广度。

Unmute

Unmute 是一款创新的语音识别与合成工具，旨在使用户能够通过自然语言与 AI 进行高效的互动。其低延迟技术确保用户体验流畅，适合需要实时反馈的场景。该产品将以开源形式发布，推动更多开发者和用户的参与。当前尚未公布价格，预计将采取免费和付费相结合的模式。

DMind

DMind-1 和 DMind-1-mini 是针对 Web3 任务的领域专用大型语言模型，提供比其他通用模型更高的领域准确性、指令跟随能力及专业理解。DMind-1 经过专家策划的 Web3 数据微调，并通过强化学习与人类反馈对齐，适合复杂指令和多轮对话，适用于区块链、DeFi 和智能合约等领域。DMind-1-mini 作为更轻量的版本，旨在满足实时和资源高效的应用场景，特别适合代理部署和链上工具。产品定价及具体信息需进一步确认。

Minion Agent

Minion Agent 是一个简单而强大的代理框架，能够与浏览器交互，支持深度研究、自动规划等功能，适用于需要进行复杂任务和研究的用户。它提供了一种灵活的工具集，使开发者能够轻松集成不同的模型和工具。该框架不仅提高了工作的效率，还为用户提供了便捷的使用体验，适合各类科研和商业应用。该产品是开源的，用户可以自由使用和修改。

开发与工具

OpenMemory MCP

OpenMemory 是一个开放源代码的个人记忆层，为大型语言模型（LLMs）提供私密、可携带的记忆管理。它确保用户对自己的数据拥有完全的控制权，能够在构建 AI 应用程序时保持数据的安全性。此项目支持 Docker、Python 和 Node.js，适合开发者进行个性化的 AI 体验。OpenMemory 尤其适合希望在不泄露个人信息的情况下使用 AI 的用户。

AgentCPM-GUI

AgentCPM-GUI 是一款开源的手机端大型语言模型（LLM）代理，专为操作中英文应用程序而设计，能够根据用户的屏幕截图自动执行任务。其主要优点在于高效的 GUI 元素理解、增强的推理能力以及对中文应用的精准支持。此技术的开发背景是为了提升移动设备上智能代理的用户体验，特别是在复杂任务处理方面。该产品定位于提高移动端的生产力，适用于各类用户。

SurfSense

SurfSense 是一款开源的 AI 研究助手，它将多种外部资源（如搜索引擎、Slack、Notion 等）整合在一起，帮助用户高效地进行研究和信息管理。该产品支持多种文件格式的上传与搜索，具备自然语言交互能力，并能快速生成内容。SurfSense 旨在提升研究效率，适合对知识管理有高需求的用户。

Seed-Coder

Seed-Coder 是字节跳动 Seed 团队推出的开源代码大型语言模型系列，包含基础、指令和推理模型，旨在通过最小的人力投入，自主管理代码训练数据，从而显著提升编程能力。该模型在同类开源模型中表现优越，适合于各种编码任务，定位于推动开源 LLM 生态的发展，适用于研究和工业界。

DeerFlow

DeerFlow 是一个深度研究框架，旨在结合语言模型与如网页搜索、爬虫及 Python 执行等专用工具，以推动深入研究工作。该项目源于开源社区，强调贡献回馈，具备多种灵活的功能，适合各类研究需求。

NoteLLM

NoteLLM 是一款专注于用户生成内容的可检索大型语言模型，旨在提升推荐系统的性能。通过将主题生成与嵌入生成相结合，NoteLLM 提高了对笔记内容的理解与处理能力。该模型采用了端到端的微调策略，适用于多模态输入，增强了在多样化内容领域的应用潜力。其重要性在于能够有效提升笔记推荐的准确性和用户体验，特别适用于小红书等 UGC 平台。

Agent-as-a-Judge

Agent As A Judge

Agent-as-a-Judge 是一种新型的自动化评估系统，旨在通过代理系统的互相评估来提高工作效率和质量。该产品能够显著减少评估时间和成本，同时提供持续的反馈信号，促进代理系统的自我改进。它被广泛应用于 AI 开发任务中，特别是在代码生成领域。该系统具备开源特性，便于开发者进行二次开发和定制。

开发与工具

Excel MCP Server

Excel MCP Server

Excel MCP Server 是一个无须安装 Microsoft Excel 即可操作 Excel 文件的服务器，用户可以创建、读取和修改 Excel 工作簿。该工具的主要优点在于它的易用性和灵活性，支持多种 Excel 功能，并可通过 AI 代理进行文件操作。此产品适合需要频繁处理 Excel 文件的用户，如数据分析师、财务人员等。此工具是开源的，使用 Python 开发，便于在本地或远程服务器上运行。

Ubicloud

Ubicloud是一个开源云平台，可在任何地方运行。它提供弹性计算、块存储、负载均衡器、防火墙、托管PostgreSQL和GitHub Actions运行器。通过自托管软件或使用托管服务，可将云成本降低3-10倍。

Zarin

Zarin是一个开源AI平台，汇聚了200多个热门和最新的AI多模型，为用户提供生成图片、视频、音频、代码、学术论文等功能。该平台的主要优点是打破了不同AI平台之间切换的障碍，使用户能够在一个平台上完成多种任务。Zarin的背景信息是由Ibrohim Abdivokhidov开发。

DeepSeek-Prover-V2-671B

Deepseek Prover V2 671B

DeepSeek-Prover-V2-671B 是一个先进的人工智能模型，旨在提供强大的推理能力。它基于最新的技术，适用于多种应用场景。该模型是开源的，旨在促进人工智能技术的民主化与普及，降低技术壁垒，使更多开发者和研究者能够利用 AI 技术进行创新。通过使用该模型，用户可以提升他们的工作效率，推动各类项目的进展。

F Lite

F Lite 是由 Freepik 和 Fal 开发的一个大型扩散模型，具有 100 亿个参数，专门训练于版权安全和适合工作环境 (SFW) 的内容。该模型基于 Freepik 的内部数据集，包含约 8000 万张合法合规的图像，标志着公开可用的模型在这一规模上首次专注于合法和安全的内容。它的技术报告提供了详细的模型信息，并且使用了 CreativeML Open RAIL-M 许可证进行分发。该模型的设计旨在推动人工智能的开放性和可用性。

Simular

Simular 是一款领先的开放源代码计算机使用代理，通过人类般的计算机操作来自动化多种数字任务，提升工作效率。该产品由来自 DeepMind、Google 和 Baidu 等顶尖 AI 研究机构的专家团队开发，旨在通过开放的代理框架实现透明且可控的业务集成。

自动化工作流

Step1X-Edit

Step1X-Edit 是一种实用的通用图像编辑框架，利用 MLLMs 的图像理解能力解析编辑指令，生成编辑令牌，并通过 DiT 网络解码为图像。其重要性在于能够有效满足真实用户的编辑需求，提升了图像编辑的便捷性和灵活性。

RepoCloud

RepoCloud是一个开源应用云市场，让用户能够轻松部署和扩展他们喜爱的开源应用。它提供一键部署功能，并且价格仅为主流云主机的一半，旨在降低用户的部署和运营成本。

Kimi-Audio

Kimi-Audio 是一个先进的开源音频基础模型，旨在处理多种音频处理任务，如语音识别和音频对话。该模型在超过 1300 万小时的多样化音频数据和文本数据上进行了大规模预训练，具有强大的音频推理和语言理解能力。它的主要优点包括优秀的性能和灵活性，适合研究人员和开发者进行音频相关的研究与开发。

deepwiki

devops-exercises 是一个旨在帮助求职者准备 DevOps 面试的资源库。它包含了各种技术和工具的练习题，帮助用户提高自己的技能和面试表现。该项目是开源的，适合所有希望在 DevOps 领域发展的人员。它涵盖了包括 Docker、Kubernetes、AWS 等热门技术，适合初学者和有经验的专业人士。该项目的使用完全免费，促进了社区的学习与成长。

Flex.2-preview

Flex.2 是当前最灵活的文本到图像扩散模型，具备内置的重绘和通用控制功能。它是一个开源项目，由社区支持，旨在推动人工智能的民主化。Flex.2 具备 8 亿参数，支持 512 个令牌长度输入，并符合 OSI 的 Apache 2.0 许可证。此模型可以在许多创意项目中提供强大的支持。用户可以通过反馈不断改善模型，推动技术进步。

Dia AI

Dia 是一个由 Nari Labs 开发的文本到语音（TTS）模型，具有 1.6 亿参数，能够直接从文本生成高度逼真的对话。该模型支持情感和语调控制，并能够生成非言语交流，如笑声和咳嗽。它的预训练模型权重托管在 Hugging Face 上，适用于英语生成。此产品对于研究和教育用途至关重要，能够推动对话生成技术的发展。

文本转声音

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase