PyTorch

# PyTorch

Bytedance Flux

Flux 是由字节跳动开发的一个高性能通信重叠库，专为 GPU 上的张量和专家并行设计。它通过高效的内核和对 PyTorch 的兼容性，支持多种并行化策略，适用于大规模模型训练和推理。Flux 的主要优点包括高性能、易于集成和对多种 NVIDIA GPU 架构的支持。它在大规模分布式训练中表现出色，尤其是在 Mixture-of-Experts (MoE) 模型中，能够显著提高计算效率。

模型训练与部署

Profiling Data in DeepSeek Infra

Profiling Data In DeepSeek Infra

DeepSeek Profile Data 是一个专注于深度学习框架性能分析的项目。它通过 PyTorch Profiler 捕获训练和推理框架的性能数据，帮助研究人员和开发者更好地理解计算与通信重叠策略以及底层实现细节。这些数据对于优化大规模分布式训练和推理任务至关重要，能够显著提升系统的效率和性能。该项目是 DeepSeek 团队在深度学习基础设施领域的重要贡献，旨在推动社区对高效计算策略的探索。

模型训练与部署

InspireMusic

InspireMusic 是一个专注于音乐、歌曲和音频生成的 AIGC 工具包和模型框架，采用 PyTorch 开发。它通过音频标记化和解码过程，结合自回归 Transformer 和条件流匹配模型，实现高质量音乐生成。该工具包支持文本提示、音乐风格、结构等多种条件控制，能够生成 24kHz 和 48kHz 的高质量音频，并支持长音频生成。此外，它还提供了方便的微调和推理脚本，方便用户根据需求调整模型。InspireMusic 的开源旨在赋能普通用户通过音乐创作提升研究中的音效表现。

OLMo-2-1124-7B-DPO

Olmo 2 1124 7B DPO

OLMo-2-1124-7B-DPO是由Allen人工智能研究所开发的一个大型语言模型，经过特定的数据集进行监督式微调，并进一步进行了DPO训练。该模型旨在提供在多种任务上，包括聊天、数学问题解答、文本生成等的高性能表现。它是基于Transformers库构建的，支持PyTorch，并以Apache 2.0许可发布。

聊天机器人

RMBG-2.0

RMBG-2.0是由BRIA AI开发的背景移除模型，旨在有效分离图像中的前景和背景。该模型在包括通用库存图像、电子商务、游戏和广告内容的精选数据集上进行了训练，适合商业用例，能够大规模驱动企业内容创作。其准确性、效率和多功能性可与领先的开源模型相媲美。RMBG-2.0是作为源代码可用的模型，用于非商业用途。

LLaMA-O1

LLaMA-O1是一个大型推理模型框架，它结合了蒙特卡洛树搜索（MCTS）、自我强化学习、PPO等技术，并借鉴了AlphaGo Zero的双重策略范式以及大型语言模型。该模型主要针对奥林匹克级别的数学推理问题，提供了一个开放的平台用于训练、推理和评估。产品背景信息显示，这是一个个人实验项目，与任何第三方组织或机构无关。

Sparsh

Sparsh是一系列通过自监督算法（如MAE、DINO和JEPA）训练的通用触觉表示。它能够为DIGIT、Gelsight'17和Gelsight Mini生成有用的表示，并在TacBench提出的下游任务中大幅度超越端到端模型，同时能够为新下游任务的数据高效训练提供支持。Sparsh项目包含PyTorch实现、预训练模型和与Sparsh一起发布的数据集。

Meta Lingua

Meta Lingua 是一个轻量级、高效的大型语言模型（LLM）训练和推理库，专为研究而设计。它使用了易于修改的PyTorch组件，使得研究人员可以尝试新的架构、损失函数和数据集。该库旨在实现端到端的训练、推理和评估，并提供工具以更好地理解模型的速度和稳定性。尽管Meta Lingua目前仍在开发中，但已经提供了多个示例应用来展示如何使用这个代码库。

模型训练与部署

torchao

torchao是PyTorch的一个库，专注于自定义数据类型和优化，支持量化和稀疏化权重、梯度、优化器和激活函数，用于推理和训练。它与torch.compile()和FSDP2兼容，能够为大多数PyTorch模型提供加速。torchao旨在通过量化感知训练（QAT）和后训练量化（PTQ）等技术，提高模型的推理速度和内存效率，同时尽量减小精度损失。

FluxMusic

FluxMusic是一个基于PyTorch实现的文本到音乐生成模型，它通过扩散式修正流变换器探索了一种简单的文本到音乐生成方法。这个模型可以生成根据文本提示的音乐片段，具有创新性和高度的技术复杂性。它代表了音乐生成领域的前沿技术，为音乐创作提供了新的可能。

zero_to_gpt

zero_to_gpt是一个旨在帮助用户从零基础学习深度学习，并最终实现训练自己的GPT模型的教程。随着人工智能技术走出实验室并广泛应用于各行各业，社会对于能够理解并应用AI技术的人才需求日益增长。本教程结合理论与实践，通过解决实际问题（如天气预测、语言翻译等）来深入讲解深度学习的理论基础，如梯度下降和反向传播。课程内容从基础的神经网络架构和训练方法开始，逐步深入到复杂主题，如变换器、GPU编程和分布式训练。

ml-mdm

ml-mdm是一个Python包，用于高效训练高质量的文本到图像扩散模型。该模型利用Matryoshka扩散模型技术，能够在1024x1024像素的分辨率上训练单一像素空间模型，展现出强大的零样本泛化能力。

AuraSR-v2

AuraSR-v2是一个基于生成对抗网络（GAN）的图像超分辨率模型，专为放大生成的图像而设计，是GigaGAN论文的一个变体。该模型的PyTorch实现基于非官方的lucidrains/gigagan-pytorch仓库。它能够显著提高图像的分辨率，同时保持图像质量，对于需要高清图像输出的应用场景尤为重要。

DiT-MoE

DiT-MoE是一个使用PyTorch实现的扩散变换器模型，能够扩展到160亿参数，与密集网络竞争的同时展现出高度优化的推理能力。它代表了深度学习领域在处理大规模数据集时的前沿技术，具有重要的研究和应用价值。

ComfyUI-Fast-Style-Transfer

Comfyui Fast Style Transfer

ComfyUI-Fast-Style-Transfer是一个基于PyTorch框架开发的快速神经风格迁移插件，它允许用户通过简单的操作实现图像的风格转换。该插件基于fast-neural-style-pytorch项目，目前只移植了基础的推理功能。用户可以自定义风格，通过训练自己的模型来实现独特的风格迁移效果。

ToucanTTS

ToucanTTS是由德国斯图加特大学自然语言处理研究所开发的多语言且可控的文本到语音合成工具包。它使用纯Python和PyTorch构建，以保持简单、易于上手，同时尽可能强大。该工具包支持教学、训练和使用最前沿的语音合成模型，具有高度的灵活性和可定制性，适用于教育和研究领域。

AI文本转语音

AudioLCM

AudioLCM是一个基于PyTorch实现的文本到音频生成模型，它通过潜在一致性模型来生成高质量且高效的音频。该模型由Huadai Liu等人开发，提供了开源的实现和预训练模型。它能够将文本描述转化为接近真实的音频，具有重要的应用价值，尤其是在语音合成、音频制作等领域。

AI文本转语音

kan-gpt

kan-gpt是一个基于PyTorch的Generative Pre-trained Transformers (GPTs) 实现，它利用Kolmogorov-Arnold Networks (KANs) 进行语言建模。该模型在文本生成任务中展现出了潜力，特别是在处理长距离依赖关系时。它的重要性在于为自然语言处理领域提供了一种新的模型架构，有助于提升语言模型的性能。

LeRobot

LeRobot 是一个旨在降低进入机器人领域的门槛，让每个人都能贡献并从共享数据集和预训练模型中受益的开源项目。它包含了在真实世界中经过验证的最先进的方法，特别关注模仿学习和强化学习。LeRobot 提供了一组预训练模型、带有人类收集演示的数据集和模拟环境，以便用户无需组装机器人即可开始。未来几周内，计划增加对最实惠和最有能力的真实世界机器人的支持。

stable-audio-tools

Stable Audio Tools

stable-audio-tools是一个开源的PyTorch库,提供了用于条件音频生成的生成模型的训练和推理代码。包括自动编码器、隐式扩散模型、MusicGen等。支持多GPU训练,可以生成高质量的音频。

honeybee

Honeybee是一个适用于多模态语言模型的局部性增强预测器。它能够提高多模态语言模型在不同下游任务上的性能,如自然语言推理、视觉问答等。Honeybee的优势在于引入了局部性感知机制,可以更好地建模输入样本之间的依赖关系,从而增强多模态语言模型的推理和问答能力。

MLX

MLX是一种类似NumPy的数组框架，专为在苹果芯片上进行高效灵活的机器学习而设计，由苹果机器学习研究团队提供。Python API与NumPy紧密相似，但也有一些例外。MLX还具有完整的C++ API，紧密遵循Python API。MLX与NumPy的主要区别包括：可组合的函数转换、惰性计算和多设备支持。MLX的设计灵感来自PyTorch、Jax和ArrayFire等框架。与这些框架不同的是，MLX采用统一内存模型。MLX中的数组位于共享内存中，可以在任何受支持的设备类型（CPU、GPU等）上执行操作，而无需执行数据复制。

YOLO-NAS Pose

YOLO-NAS Pose是一款免费的、开源的库，用于训练基于PyTorch的计算机视觉模型。它提供了训练脚本和快速简单复制模型结果的示例。内置SOTA模型，可以轻松加载和微调生产就绪的预训练模型，包括最佳实践和验证的超参数，以实现最佳的准确性。可以缩短训练生命周期，消除不确定性。提供分类、检测、分割等不同任务的模型，可以轻松集成到代码库中。

模型训练与部署

Lightning AI

Lightning AI是一个基于PyTorch的平台,可以帮助用户无痛地在本地机器和云环境之间进行AI模型的训练和部署。它支持各类热门AI模型如大型语言模型、Transformers、Stable Diffusion等的构建。关键特性包括对分布式多GPU训练的支持、内置MLOps功能、云端无服务器部署等。适用于AI研发团队、想要快速构建AI产品的公司以及拥有GPU资源的机构。

开发与工具

RunPod

RunPod是一个可扩展的云GPU基础设施，用于训练和推理。你可以租用云GPU，从0.2美元/小时起，支持TensorFlow、PyTorch和其他AI框架。我们提供可信赖的云服务、免费带宽、多种GPU选项、服务器端点和AI端点，适用于各种场景。

开发与工具

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase