模型训练

# 模型训练

Labelbox

Labelbox是一个为AI团队设计的数据工厂，旨在提供构建、运营和数据标注的解决方案。其主要优点包括灵活的标注工具、自动化数据流程、丰富的数据管理功能等。背景信息：Labelbox致力于帮助AI团队提高数据标注效率和模型训练质量，定位于提供全面的数据管理和标注平台。

Genie Studio

Genie Studio 是智元机器人专为具身智能场景打造的一站式开发平台，具备数据采集、模型训练、仿真评测、模型推理的全链路产品能力。它为开发者提供从‘采’到‘训’到‘测’再到‘推’的标准化解决方案，极大地降低了开发门槛，提升了开发效率。该平台通过高效的数据采集、灵活的模型训练、精准的仿真评测和无缝的模型推理，推动了具身智能技术的快速发展和应用。Genie Studio 不仅提供了强大的工具，还为具身智能的规模化落地提供了支持，加速了行业向标准化、平台化、量产化的新阶段跃进。

EaseVoice Trainer

Easevoice Trainer

EaseVoice Trainer 是一个后端项目，旨在简化和增强语音合成与转换训练过程。该项目基于 GPT-SoVITS 进行改进，注重用户体验和系统的可维护性。其设计理念不同于原始项目，旨在提供更模块化和定制化的解决方案，适用于从小规模实验到大规模生产的多种场景。该工具可以帮助开发者和研究人员更高效地进行语音合成和转换的研究与开发。

开发与工具

Firecrawl LLMs.txt generator

Firecrawl LLMs.txt Generator

LLMs.txt生成器是一个由Firecrawl提供支持的在线工具，旨在帮助用户从网站生成用于LLM训练和推理的整合文本文件。它通过整合网页内容，为训练大型语言模型提供高质量的文本数据，从而提高模型的性能和准确性。该工具的主要优点是操作简单、高效，能够快速生成所需的文本文件。它主要面向需要大量文本数据进行模型训练的开发者和研究人员，为他们提供了一种便捷的解决方案。

模型训练与部署

MLGym

MLGym是由Meta的GenAI团队和UCSB NLP团队开发的一个开源框架和基准，用于训练和评估AI研究代理。它通过提供多样化的AI研究任务，推动强化学习算法的发展，帮助研究人员在真实世界的研究场景中训练和评估模型。该框架支持多种任务，包括计算机视觉、自然语言处理和强化学习等领域，旨在为AI研究提供一个标准化的测试平台。

模型训练与部署

kg-gen

kg-gen 是一个基于人工智能的工具，能够从普通文本中提取知识图谱。它支持处理小到单句话、大到长篇文档的文本输入，并且可以处理对话格式的消息。该工具利用先进的语言模型和结构化输出技术，能够帮助用户快速构建知识图谱，适用于自然语言处理、知识管理以及模型训练等领域。kg-gen 提供了灵活的接口和多种功能，旨在简化知识图谱的生成过程，提高效率。

Steev

Steev 是一款专为 AI 模型训练设计的工具，旨在简化训练流程，提升模型性能。它通过自动优化训练参数、实时监控训练过程，并提供代码审查和建议，帮助用户更高效地完成模型训练。Steev 的主要优点是无需配置即可使用，适合希望提高模型训练效率和质量的工程师和研究人员。目前处于免费试用阶段，用户可以免费体验其全部功能。

模型训练与部署

Kolosal AI

Kolosal AI 是一款用于本地设备训练和运行大型语言模型（LLMs）的工具。它通过简化模型训练、优化和部署流程，使用户能够在本地设备上高效地使用 AI 技术。该工具支持多种硬件平台，提供快速的推理速度和灵活的定制能力，适合从个人开发者到大型企业的广泛应用场景。其开源特性也使得用户可以根据自身需求进行二次开发。

模型训练与部署

Open Thoughts

Open Thoughts 是一个由 Bespoke Labs 和 DataComp 社区主导的项目，旨在整理高质量的开源推理数据集，用于训练先进的小模型。该项目汇集了来自斯坦福大学、加州大学伯克利分校、华盛顿大学等多所高校和研究机构的研究人员与工程师，致力于通过优质数据集推动推理模型的发展。其背景是当前推理模型在数学和代码推理等领域的应用需求日益增长，而高质量的数据集是提升模型性能的关键。该项目目前免费开放，主要面向研究人员、开发者以及对推理模型感兴趣的专业人士，其数据集和工具的开源性使其成为推动人工智能教育和研究的重要资源。

RWKV-6 Mixture of Experts

RWKV 6 Mixture Of Experts

Flock of Finches 37B-A11B v0.1是RWKV家族的最新成员，这是一个实验性模型，拥有11亿个活跃参数，尽管仅训练了1090亿个token，但在常见基准测试中的得分与最近发布的Finch 14B模型大致相当。该模型采用了高效的稀疏混合专家(MoE)方法，在任何给定token上仅激活一部分参数，从而在训练和推理过程中节省时间和减少计算资源的使用。尽管这种架构选择以更高的VRAM使用为代价，但从我们的角度看，能够低成本训练和运行具有更大能力模型是非常值得的。

E2M

E2M是一个Python库，能够解析并转换多种文件类型到Markdown格式。它采用了解析器-转换器架构，支持包括doc、docx、epub、html、htm、url、pdf、ppt、pptx、mp3和m4a等多种文件格式的转换。E2M项目的最终目标是为检索增强生成(RAG)和模型训练或微调提供高质量的数据。

开发与工具

TRELLIS

TRELLIS是一个基于统一结构化潜在表示和修正流变换器的原生3D生成模型，能够实现多样化和高质量的3D资产创建。该模型通过整合稀疏的3D网格和从强大的视觉基础模型提取的密集多视图视觉特征，全面捕获结构（几何）和纹理（外观）信息，同时在解码过程中保持灵活性。TRELLIS模型能够处理高达20亿参数，并在包含50万个多样化对象的大型3D资产数据集上进行训练。该模型在文本或图像条件下生成高质量结果，显著超越现有方法，包括规模相似的最近方法。TRELLIS还展示了灵活的输出格式选择和局部3D编辑能力，这些是以前模型所没有提供的。代码、模型和数据将被发布。

prime

PrimeIntellect-ai/prime是一个用于在互联网上高效、全球分布式训练AI模型的框架。它通过技术创新，实现了跨地域的AI模型训练，提高了计算资源的利用率，降低了训练成本，对于需要大规模计算资源的AI研究和应用开发具有重要意义。

模型训练与部署

MM1.5

MM1.5是一系列多模态大型语言模型（MLLMs），旨在增强文本丰富的图像理解、视觉指代表明和接地以及多图像推理的能力。该模型基于MM1架构，采用以数据为中心的模型训练方法，系统地探索了整个模型训练生命周期中不同数据混合的影响。MM1.5模型从1B到30B参数不等，包括密集型和混合专家（MoE）变体，并通过广泛的实证研究和消融研究，提供了详细的训练过程和决策见解，为未来MLLM开发研究提供了宝贵的指导。

RECE

RECE是一种文本到图像扩散模型的概念擦除技术，它通过在模型训练过程中引入正则化项来实现对特定概念的可靠和高效擦除。这项技术对于提高图像生成模型的安全性和控制性具有重要意义，特别是在需要避免生成不适当内容的场景中。RECE技术的主要优点包括高效率、高可靠性和易于集成到现有模型中。

Flux Gym

Flux Gym是一个为FLUX LoRA模型训练设计的简洁Web UI，特别适合只有12GB、16GB或20GB VRAM的设备使用。它结合了AI-Toolkit项目的易用性和Kohya Scripts的灵活性，使得用户无需复杂的终端操作即可进行模型训练。Flux Gym支持用户通过简单的界面上传图片和添加描述，然后启动训练过程。

Easy Voice Toolkit

Easy Voice Toolkit

Easy Voice Toolkit是一个基于开源语音项目的AI语音工具箱，提供包括语音模型训练在内的多种自动化音频工具。该工具箱能够无缝集成，形成完整的工作流程，用户可以根据需要选择性使用这些工具，或按顺序使用，逐步将原始音频文件转换为理想的语音模型。

Civita Green

Civita Green是一个面向AI爱好者、艺术家和开发者的社区平台，提供AI模型训练、图像和视频创作、以及艺术作品分享。平台支持用户创建、分享和使用各种AI模型，推动AI艺术创作的发展。

AI模型训练与部署

ai-toolkit

ai-toolkit是一个研究性质的GitHub仓库，由Ostris创建，主要用于Stable Diffusion模型的实验和训练。它包含了各种AI脚本，支持模型训练、图像生成、LoRA提取器等。该工具包仍在开发中，可能存在不稳定性，但提供了丰富的功能和高度的自定义性。

x-flux

x-flux是由XLabs AI团队发布的深度学习模型训练脚本集，包括LoRA和ControlNet模型。这些模型使用DeepSpeed进行训练，支持512x512和1024x1024图片尺寸，并且提供了相应的训练配置文件和示例。x-flux模型训练旨在提高图像生成的质量和效率，对于AI图像生成领域具有重要意义。

aimo-progress-prize

Aimo Progress Prize

这个GitHub仓库包含了训练和推理代码，用于复制我们在AI数学奥林匹克（AIMO）进展奖1中的获胜解决方案。我们的解决方案由四个主要部分组成：一个用于微调DeepSeekMath-Base 7B以使用工具集成推理（TIR）解决数学问题的配方；两个约100万个数学问题和解决方案的高质量训练数据集；一个自洽解码算法，用于生成具有代码执行反馈的解决方案候选项（SC-TIR）；四个来自AMC、AIME和MATH的精心选择的验证集，以指导模型选择并避免对公共排行榜的过拟合。

AI模型推理训练

DCLM

DataComp-LM (DCLM) 是一个为构建和训练大型语言模型（LLMs）而设计的综合性框架，提供了标准化的语料库、基于open_lm框架的高效预训练配方，以及超过50种评估方法。DCLM 支持研究人员在不同的计算规模上实验不同的数据集构建策略，从411M到7B参数模型。DCLM 通过优化的数据集设计显著提高了模型性能，并且已经促成了多个高质量数据集的创建，这些数据集在不同规模上表现优异，超越了所有开放数据集。

Prime Intellect

Prime Intellect

Prime Intellect是一个致力于AI开发规模化民主化的平台，提供全球计算资源的发现、模型训练以及共同拥有智能创新的能力。它通过分布式训练跨集群，使得用户能够训练最前沿的模型，并且共同拥有由此产生的开放AI创新成果，包括语言模型和科学突破。

Prov-GigaPath

Prov-GigaPath是一个用于数字病理学研究的全切片基础模型，它通过真实世界数据进行训练，旨在支持AI研究人员在病理学基础模型和数字病理幻灯片数据编码方面的研究。该模型由多位作者共同开发，并在Nature期刊上发表。它不适用于临床护理或任何临床决策制定目的，仅限于研究使用。

CoreNet

CoreNet 是一个深度神经网络工具包，使研究人员和工程师能够训练标准和新颖的小型和大型规模模型，用于各种任务，包括基础模型（例如 CLIP 和 LLM）、对象分类、对象检测和语义分割。

CameraCtrl

CameraCtrl 致力于为文本生成视频模型提供精准相机姿态控制，通过训练相机编码器实现参数化相机轨迹，从而实现视频生成过程中的相机控制。产品通过综合研究各种数据集的效果，证明视频具有多样的相机分布和相似外观可以增强可控性和泛化能力。实验证明 CameraCtrl 在实现精确、领域自适应的相机控制方面非常有效，是从文本和相机姿态输入实现动态、定制视频叙事的重要进展。

LlamaParse

llama_parse是LLAMA项目的一部分，用于解析和处理相关数据。LLAMA是一个用于机器学习模型的库，专注于提供易于使用的接口和高效的数据处理能力。

DataDreamer

DataDreamer是一个强大的开源Python库，用于提示、生成合成数据和训练工作流。它旨在简单易用，极其高效，且具有研究级质量。DataDreamer支持创建提示工作流、生成合成数据集、对齐模型、微调模型、指令调优模型和模型蒸馏。它具有简单、研究级、高效、可复现的特点，并简化了数据集和模型的共享。

V-JEPA

Meta 发布了 Video Joint Embedding Predictive Architecture (V-JEPA) 模型，这是推进机器智能的关键一步，带来对世界更具实地认识。

StemGen

StemGen是一款端到端音乐生成模型，训练成能够聆听音乐背景并做出适当回应的模型。它建立在非自回归语言模型类型的架构上，类似于SoundStorm和VampNet。更多细节请参阅论文。该页面展示了该架构模型的多个示例输出。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase