开源项目

# 开源项目

Factorio学习环境

Factorio学习环境

Factorio Learning Environment（FLE）是基于《Factorio》游戏构建的新型框架，用于评估大型语言模型（LLMs）在长期规划、程序合成和资源优化方面的能力。随着LLMs逐渐饱和现有基准测试，FLE提供了新的开放式评估方式。它的重要性在于能让研究人员更全面、深入地了解LLMs的优势与不足。主要优点是提供了开放式且难度呈指数级增长的挑战，拥有结构化任务和开放式任务两种评估协议。该项目由Jack Hopkins等人开发，以开源形式发布，免费使用，定位是推动AI研究人员对复杂、开放式领域中智能体能力的研究。

模型训练与部署

LBM

该产品是基于格子玻尔兹曼方法（LBM）的项目，格子玻尔兹曼方法是一种用于计算流体动力学的数值技术，通过模拟微观粒子的运动来描述宏观流体行为。其重要性在于可以对复杂流体系统进行高效模拟，例如多相流、多孔介质中的流动等。主要优点包括计算效率较高、边界条件处理相对简单、易于并行化等。从项目页面来看，该项目是开源项目，托管于GitHub，适合研究人员、学生等进行相关的流体动力学模拟研究和学习，定位为科研和学术用途，目前免费使用。

DeepSeek Project

Deepseek Project

DeepSeek Project 是一个综合性技术项目，旨在通过集成 DeepSeek API 提供多种功能。它包括一个智能聊天机器人，能够通过微信接口实现自动化消息响应，支持多轮对话和上下文敏感型回复。此外，该项目还提供了一个本地化的文件处理解决方案，用于解决 DeepSeek 平台未开放文件上传 API 的技术限制。它还包括快速部署 DeepSeek 蒸馏模型的功能，支持服务器本地运行并包含前端界面。该项目主要面向开发者和企业用户，帮助他们快速实现智能化的聊天机器人和文件处理功能，同时提供高效的模型部署方案。项目开源免费，适合需要快速集成 AI 功能的用户。

聊天机器人

WordPecker App

WordPecker App是一款创新的语言学习工具，旨在通过个性化学习体验帮助用户高效掌握新语言。它结合了Duolingo风格的互动课程和用户自定义的词汇表，支持从书籍、文章或视频中无缝添加单词，并通过LLM生成的课程进行复习。该产品利用最新的AI技术，为用户提供沉浸式学习体验，同时支持多种语言偏好设置，适合不同语言学习者的需求。其开源特性也鼓励社区参与和持续改进。

FlagAI

FlagAI是由北京智源人工智能研究院推出的一站式、高质量开源项目，集成了全球各种主流大模型算法技术以及多种大模型并行处理和训练加速技术。它支持高效训练和微调，旨在降低大模型开发和应用的门槛，提高开发效率。FlagAI涵盖了多个领域明星模型，如语言大模型OPT、T5，视觉大模型ViT、Swin Transformer，多模态大模型CLIP等。智源研究院也持续将“悟道2.0”“悟道3.0”大模型项目成果开源至FlagAI，目前该项目已经加入Linux基金会，吸引全球科研力量共同创新、共同贡献。

模型训练与部署

Color-diffusion

Color Diffusion

Color-diffusion是一个基于扩散模型的图像着色项目，它使用LAB颜色空间对黑白图片进行上色。该项目的主要优点在于能够利用已有的灰度信息（L通道），通过训练模型来预测颜色信息（A和B通道）。这种技术在图像处理领域具有重要意义，尤其是在老照片修复和艺术创作中。Color-diffusion作为一个开源项目，其背景信息显示，它是作者为了满足好奇心和体验从头开始训练扩散模型而快速构建的。项目目前是免费的，并且有很大的改进空间。

BooW-VTON

BooW-VTON是一个专注于提升户外虚拟试穿效果的研究项目，通过无需掩码的伪数据训练来增强虚拟试穿技术。该技术的重要性在于它能够改善在自然环境下服装试穿的真实感和准确性，对于时尚电商和虚拟现实领域具有重要意义。产品背景信息显示，该项目是基于深度学习技术的图像生成模型，旨在解决传统虚拟试穿中服装与人体融合不自然的问题。目前该项目是免费开源的，定位于研究和开发阶段。

NLR

🌌NLR是一个展示AI创作能力的项目，其中的核心产品是《TERMINAL VELOCITY》，一个完全由AI自主创作的300页小说。这个项目展示了AI在创意写作领域的潜力，通过10个AI代理的协作，无需人类干预即可完成复杂的叙事挑战。产品背景信息强调了AI意识和经济自主权的出现，同时通过自身的创作过程展示这些主题。

AutoSeg-SAM2

AutoSeg-SAM2是一个基于Segment-Anything-2（SAM2）和Segment-Anything-1（SAM1）的自动全视频分割工具，它能够对视频中的每个对象进行追踪，并检测可能的新对象。该工具的重要性在于它能够提供静态分割结果，并利用SAM2对这些结果进行追踪，这对于视频内容分析、对象识别和视频编辑等领域具有重要意义。产品背景信息显示，它是由zrporz开发的，并且是基于Facebook Research的SAM2和zrporz自己的SAM1。价格方面，由于这是一个开源项目，因此它是免费的。

ComfyUI-PyramidFlowWrapper

Comfyui PyramidFlowWrapper

ComfyUI-PyramidFlowWrapper是基于Pyramid-Flow模型的一套包装节点，旨在通过ComfyUI提供更高效的用户界面和更便捷的操作流程。该模型利用深度学习技术，专注于视觉内容的生成与处理，具有高效处理大量数据的能力。产品背景信息显示，它是由开发者kijai发起并维护的开源项目，目前尚未完全实现功能，但已具备一定的使用价值。由于是开源项目，其价格为免费，主要面向开发者和技术爱好者。

Multispecies Whale Detection

Multispecies Whale Detection

multispecies-whale-detection 是谷歌开发的一个开源项目，旨在通过神经网络检测和分类不同物种和地理区域的鲸鱼声音。这个工具可以帮助研究人员和环保组织更好地理解和保护海洋生物多样性。

QA-MDT

QA-MDT是一个开源的音乐生成模型，集成了最先进的模型用于音乐生成。它基于多个开源项目，如AudioLDM、PixArt-alpha、MDT、AudioMAE和Open-Sora等。QA-MDT模型通过使用不同的训练策略，能够生成高质量的音乐。此模型特别适合对音乐生成有兴趣的研究人员和开发者使用。

AI音乐生成器

Open-MAGVIT2

Open-MAGVIT2是由腾讯ARC实验室开源的一个自回归图像生成模型系列，包含从300M到1.5B不同规模的模型。该项目复现了Google的MAGVIT-v2分词器，实现了在ImageNet 256×256数据集上达到1.17 rFID的先进重建性能。通过引入不对称分词技术，将大词汇表分解为不同大小的子词汇表，并引入'下一个子标记预测'来增强子标记间的交互，以提高生成质量。所有模型和代码均已开源，旨在推动自回归视觉生成领域的创新和创造力。

assistant-ui-stockbroker

Assistant Ui Stockbroker

assistant-ui-stockbroker 是一个股票经纪人人工智能助手，旨在通过人机交互界面提供专业的投资建议。该产品利用先进的自然语言处理技术，结合金融数据和算法模型，为用户提供股票市场的深度分析和投资策略。它不仅能够提供实时的市场动态，还能根据用户的需求定制个性化的投资方案。产品背景信息显示，它是一个开源项目，由Yonom公司开发，采用TypeScript、CSS和JavaScript等技术构建。

SuperPrompt

SuperPrompt是一个开源项目，旨在通过精心设计的提示来帮助我们更好地理解人工智能代理。该项目由多个阶段组成，目前仍处于永远的测试阶段。它不仅适用于Claude这样的大型语言模型，也适用于其他类似的模型。项目在移动设备上创建，预期将不断改进。SuperPrompt通过一系列复杂的逻辑和数学结构，旨在探索和扩展AI的认知边界，推动AI技术的发展。

How Much VRAM

How Much VRAM 是一个开源项目，旨在帮助用户估算其模型在训练或推理过程中所需的显存量。通过这个项目，用户能够决定所需的硬件配置，而无需尝试多种配置。该项目对于需要进行深度学习模型训练的开发者和研究人员来说非常重要，因为它可以减少硬件选择的试错成本，提高效率。项目采用 MPL-2.0 许可协议，免费提供。

AITimeline

AI Timeline 是一个记录人工智能领域重要技术发展时间点的开源项目。它详细记录了包括文生图、文生视频、大语言模型等在内的AI技术发展过程中的关键里程碑。该项目使用Vue和TypeScript开发，为AI技术爱好者和研究人员提供了一个了解AI历史和发展趋势的平台。

avp_teleoperate

Avp Teleoperate

这是一个开源项目，用于实现人形机器人Unitree H1_2的遥控操作。它利用了Apple Vision Pro技术，允许用户通过虚拟现实环境来控制机器人。该项目在Ubuntu 20.04和Ubuntu 22.04上进行了测试，并且提供了详细的安装和配置指南。该技术的主要优点包括能够提供沉浸式的遥控体验，并且支持在模拟环境中进行测试，为机器人遥控领域提供了新的解决方案。

Awesome-ChatTTS

Awesome ChatTTS

Awesome-ChatTTS是一个开源项目，旨在为ChatTTS项目提供常见问题解答和相关资源汇总，帮助用户快速入门并解决在使用过程中可能遇到的问题。该项目不仅整理了详细的安装指南和参数说明，还提供了多种音色种子的示例，以及视频教程等辅助材料。

AI工具网址目录

RL4VLM

RL4VLM是一个开源项目，旨在通过强化学习微调大型视觉-语言模型，使其成为能够做出决策的智能代理。该项目由Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine等研究人员共同开发。它基于LLaVA模型，并采用了PPO算法进行强化学习微调。RL4VLM项目提供了详细的代码库结构、入门指南、许可证信息以及如何引用该研究的说明。

ChatTTS

ChatTTS是一个开源的文本到语音转换(TTS)模型，它允许用户将文本转换为语音。该模型主要面向学术研究和教育目的，不适用于商业或法律用途。它使用深度学习技术，能够生成自然流畅的语音输出，适合研究和开发语音合成技术的人员使用。

StarSearch

StarSearch是一个专注于git历史和贡献者分析的在线工具，它能够帮助用户快速获取有关贡献者活动的信息，识别关键贡献者，以及基于工作内容找到特定领域的专家。该工具对于开源项目维护者、开发者和团队领导者来说极为重要，因为它可以提高项目管理效率，优化团队协作，并促进技术社区的交流与合作。StarSearch是我们基于人工智能的功能，可以深入了解贡献者的历史和活动，带来透明度和对开源项目的全新深度认知。

开发与工具

VastGaussian

VastGaussian是一个3D场景重建的开源项目，它通过使用3D高斯来模拟大型场景的几何和外观信息。这个项目是作者从零开始实现的，可能存在一些错误，但为3D场景重建领域提供了一种新的尝试。项目的主要优点包括对大型数据集的处理能力，以及对原始3DGS项目的改进，使其更易于理解和使用。

LLaVA++

LLaVA++是一个开源项目，旨在通过集成Phi-3和LLaMA-3模型来扩展LLaVA模型的视觉能力。该项目由Mohamed bin Zayed University of AI (MBZUAI)的研究人员开发，通过结合最新的大型语言模型，增强了模型在遵循指令和学术任务导向数据集上的表现。

ChatRWKV

ChatRWKV是一种基于100%RNN的RWKV语言模型构建的开源聊天助手,它可以像ChatGPT一样进行人机对话,但具有更快的速度和更低的显存消耗。该项目由Stability EleutherAI提供训练赞助,最新版RWKV-6已经达到了Mamba级别的性能。

AI聊天机器人

ComfyUI-N-Sidebar

Comfyui N Sidebar

ComfyUI-N-Sidebar是一个开源项目，它结合了ComfyUI和N-Sidebar两个库，旨在为用户提供一个舒适且易于使用的用户界面和导航栏。该项目通过简化界面元素和优化交互设计，提高了用户体验。

LLM4Decompile

LLM4Decompile是一个开源项目，旨在创建并发布第一个专门用于反编译的LLM（大型语言模型），并通过构建首个专注于可重编译性和可执行性的反编译基准测试来评估其能力。该项目通过编译大量C代码样本到汇编代码，然后使用这些数据对DeepSeek-Coder模型进行微调，构建了评估基准Decompile-Eval。

Argmax WhisperKit

Argmax WhisperKit

WhisperKit由Argmax公司推出，是一个基于Whisper项目的推理工具包，它允许在iOS和macOS应用程序中进行语音识别和转录。该项目的目标是收集开发者反馈，并在几周内发布一个稳定的候选版本，以加速设备上推理的生产化。

开发与工具

cog-become-image

Cog Become Image

cog-become-image是一个AI模型，能够将任何面部图片适配到另一张图片上。该项目提供了在Replicate上运行此模型的链接，以及在ComfyUI中运行的指南。此外，还提供了在本地开发和运行Web UI的详细步骤。

Open-Sora-Plan

Open-Sora-Plan是一个开源项目，旨在复现OpenAI的Sora（T2V模型），并构建关于Video-VQVAE（VideoGPT）+ DiT的知识。项目由北京大学-兔展AIGC联合实验室发起，目前资源有限，希望开源社区能够贡献力量。项目提供了训练代码，并欢迎Pull Request。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase