PyTorch

# PyTorch

Bytedance Flux

Flux 是由字節跳動開發的一個高性能通信重疊庫，專為 GPU 上的張量和專家並行設計。它通過高效的內核和對 PyTorch 的兼容性，支持多種並行化策略，適用於大規模模型訓練和推理。Flux 的主要優點包括高性能、易於集成和對多種 NVIDIA GPU 架構的支持。它在大規模分佈式訓練中表現出色，尤其是在 Mixture-of-Experts (MoE) 模型中，能夠顯著提高計算效率。

模型訓練與部署

Profiling Data in DeepSeek Infra

Profiling Data In DeepSeek Infra

DeepSeek Profile Data 是一個專注於深度學習框架性能分析的項目。它通過 PyTorch Profiler 捕獲訓練和推理框架的性能數據，幫助研究人員和開發者更好地理解計算與通信重疊策略以及底層實現細節。這些數據對於優化大規模分佈式訓練和推理任務至關重要，能夠顯著提升系統的效率和性能。該項目是 DeepSeek 團隊在深度學習基礎設施領域的重要貢獻，旨在推動社區對高效計算策略的探索。

模型訓練與部署

InspireMusic

InspireMusic 是一個專注於音樂、歌曲和音頻生成的 AIGC 工具包和模型框架，採用 PyTorch 開發。它通過音頻標記化和解碼過程，結合自迴歸 Transformer 和條件流匹配模型，實現高質量音樂生成。該工具包支持文本提示、音樂風格、結構等多種條件控制，能夠生成 24kHz 和 48kHz 的高質量音頻，並支持長音頻生成。此外，它還提供了方便的微調和推理腳本，方便用戶根據需求調整模型。InspireMusic 的開源旨在賦能普通用戶通過音樂創作提升研究中的音效表現。

OLMo-2-1124-7B-DPO

Olmo 2 1124 7B DPO

OLMo-2-1124-7B-DPO是由Allen人工智能研究所開發的一個大型語言模型，經過特定的數據集進行監督式微調，並進一步進行了DPO訓練。該模型旨在提供在多種任務上，包括聊天、數學問題解答、文本生成等的高性能表現。它是基於Transformers庫構建的，支持PyTorch，並以Apache 2.0許可發佈。

聊天機器人

RMBG-2.0

RMBG-2.0是由BRIA AI開發的背景移除模型，旨在有效分離圖像中的前景和背景。該模型在包括通用庫存圖像、電子商務、遊戲和廣告內容的精選數據集上進行了訓練，適合商業用例，能夠大規模驅動企業內容創作。其準確性、效率和多功能性可與領先的開源模型相媲美。RMBG-2.0是作為源代碼可用的模型，用於非商業用途。

LLaMA-O1

LLaMA-O1是一個大型推理模型框架，它結合了蒙特卡洛樹搜索（MCTS）、自我強化學習、PPO等技術，並借鑑了AlphaGo Zero的雙重策略範式以及大型語言模型。該模型主要針對奧林匹克級別的數學推理問題，提供了一個開放的平臺用於訓練、推理和評估。產品背景信息顯示，這是一個個人實驗項目，與任何第三方組織或機構無關。

Sparsh

Sparsh是一系列通過自監督算法（如MAE、DINO和JEPA）訓練的通用觸覺表示。它能夠為DIGIT、Gelsight'17和Gelsight Mini生成有用的表示，並在TacBench提出的下游任務中大幅度超越端到端模型，同時能夠為新下游任務的數據高效訓練提供支持。Sparsh項目包含PyTorch實現、預訓練模型和與Sparsh一起發佈的數據集。

Meta Lingua

Meta Lingua 是一個輕量級、高效的大型語言模型（LLM）訓練和推理庫，專為研究而設計。它使用了易於修改的PyTorch組件，使得研究人員可以嘗試新的架構、損失函數和數據集。該庫旨在實現端到端的訓練、推理和評估，並提供工具以更好地理解模型的速度和穩定性。儘管Meta Lingua目前仍在開發中，但已經提供了多個示例應用來展示如何使用這個代碼庫。

模型訓練與部署

torchao

torchao是PyTorch的一個庫，專注於自定義數據類型和優化，支持量化和稀疏化權重、梯度、優化器和激活函數，用於推理和訓練。它與torch.compile()和FSDP2兼容，能夠為大多數PyTorch模型提供加速。torchao旨在通過量化感知訓練（QAT）和後訓練量化（PTQ）等技術，提高模型的推理速度和內存效率，同時儘量減小精度損失。

FluxMusic

FluxMusic是一個基於PyTorch實現的文本到音樂生成模型，它通過擴散式修正流變換器探索了一種簡單的文本到音樂生成方法。這個模型可以生成根據文本提示的音樂片段，具有創新性和高度的技術複雜性。它代表了音樂生成領域的前沿技術，為音樂創作提供了新的可能。

zero_to_gpt

zero_to_gpt是一個旨在幫助用戶從零基礎學習深度學習，並最終實現訓練自己的GPT模型的教程。隨著人工智能技術走出實驗室並廣泛應用於各行各業，社會對於能夠理解並應用AI技術的人才需求日益增長。本教程結合理論與實踐，通過解決實際問題（如天氣預測、語言翻譯等）來深入講解深度學習的理論基礎，如梯度下降和反向傳播。課程內容從基礎的神經網絡架構和訓練方法開始，逐步深入到複雜主題，如變換器、GPU編程和分佈式訓練。

ml-mdm

ml-mdm是一個Python包，用於高效訓練高質量的文本到圖像擴散模型。該模型利用Matryoshka擴散模型技術，能夠在1024x1024像素的分辨率上訓練單一像素空間模型，展現出強大的零樣本泛化能力。

AuraSR-v2

AuraSR-v2是一個基於生成對抗網絡（GAN）的圖像超分辨率模型，專為放大生成的圖像而設計，是GigaGAN論文的一個變體。該模型的PyTorch實現基於非官方的lucidrains/gigagan-pytorch倉庫。它能夠顯著提高圖像的分辨率，同時保持圖像質量，對於需要高清圖像輸出的應用場景尤為重要。

DiT-MoE

DiT-MoE是一個使用PyTorch實現的擴散變換器模型，能夠擴展到160億參數，與密集網絡競爭的同時展現出高度優化的推理能力。它代表了深度學習領域在處理大規模數據集時的前沿技術，具有重要的研究和應用價值。

ComfyUI-Fast-Style-Transfer

Comfyui Fast Style Transfer

ComfyUI-Fast-Style-Transfer是一個基於PyTorch框架開發的快速神經風格遷移插件，它允許用戶通過簡單的操作實現圖像的風格轉換。該插件基於fast-neural-style-pytorch項目，目前只移植了基礎的推理功能。用戶可以自定義風格，通過訓練自己的模型來實現獨特的風格遷移效果。

ToucanTTS

ToucanTTS是由德國斯圖加特大學自然語言處理研究所開發的多語言且可控的文本到語音合成工具包。它使用純Python和PyTorch構建，以保持簡單、易於上手，同時儘可能強大。該工具包支持教學、訓練和使用最前沿的語音合成模型，具有高度的靈活性和可定製性，適用於教育和研究領域。

AI文本轉語音

AudioLCM

AudioLCM是一個基於PyTorch實現的文本到音頻生成模型，它通過潛在一致性模型來生成高質量且高效的音頻。該模型由Huadai Liu等人開發，提供了開源的實現和預訓練模型。它能夠將文本描述轉化為接近真實的音頻，具有重要的應用價值，尤其是在語音合成、音頻製作等領域。

AI文本轉語音

kan-gpt

kan-gpt是一個基於PyTorch的Generative Pre-trained Transformers (GPTs) 實現，它利用Kolmogorov-Arnold Networks (KANs) 進行語言建模。該模型在文本生成任務中展現出了潛力，特別是在處理長距離依賴關係時。它的重要性在於為自然語言處理領域提供了一種新的模型架構，有助於提升語言模型的性能。

LeRobot

LeRobot 是一個旨在降低進入機器人領域的門檻，讓每個人都能貢獻並從共享數據集和預訓練模型中受益的開源項目。它包含了在真實世界中經過驗證的最先進的方法，特別關注模仿學習和強化學習。LeRobot 提供了一組預訓練模型、帶有人類收集演示的數據集和模擬環境，以便用戶無需組裝機器人即可開始。未來幾周內，計劃增加對最實惠和最有能力的真實世界機器人的支持。

stable-audio-tools

Stable Audio Tools

stable-audio-tools是一個開源的PyTorch庫,提供了用於條件音頻生成的生成模型的訓練和推理代碼。包括自動編碼器、隱式擴散模型、MusicGen等。支持多GPU訓練,可以生成高質量的音頻。

honeybee

Honeybee是一個適用於多模態語言模型的局部性增強預測器。它能夠提高多模態語言模型在不同下游任務上的性能,如自然語言推理、視覺問答等。Honeybee的優勢在於引入了局部性感知機制,可以更好地建模輸入樣本之間的依賴關係,從而增強多模態語言模型的推理和問答能力。

MLX

MLX是一種類似NumPy的數組框架，專為在蘋果芯片上進行高效靈活的機器學習而設計，由蘋果機器學習研究團隊提供。Python API與NumPy緊密相似，但也有一些例外。MLX還具有完整的C++ API，緊密遵循Python API。MLX與NumPy的主要區別包括：可組合的函數轉換、惰性計算和多設備支持。MLX的設計靈感來自PyTorch、Jax和ArrayFire等框架。與這些框架不同的是，MLX採用統一內存模型。MLX中的數組位於共享內存中，可以在任何受支持的設備類型（CPU、GPU等）上執行操作，而無需執行數據複製。

YOLO-NAS Pose

YOLO-NAS Pose是一款免費的、開源的庫，用於訓練基於PyTorch的計算機視覺模型。它提供了訓練腳本和快速簡單複製模型結果的示例。內置SOTA模型，可以輕鬆加載和微調生產就緒的預訓練模型，包括最佳實踐和驗證的超參數，以實現最佳的準確性。可以縮短訓練生命週期，消除不確定性。提供分類、檢測、分割等不同任務的模型，可以輕鬆集成到代碼庫中。

模型訓練與部署

Lightning AI

Lightning AI是一個基於PyTorch的平臺,可以幫助用戶無痛地在本地機器和雲環境之間進行AI模型的訓練和部署。它支持各類熱門AI模型如大型語言模型、Transformers、Stable Diffusion等的構建。關鍵特性包括對分佈式多GPU訓練的支持、內置MLOps功能、雲端無服務器部署等。適用於AI研發團隊、想要快速構建AI產品的公司以及擁有GPU資源的機構。

開發與工具

RunPod

RunPod是一個可擴展的雲GPU基礎設施，用於訓練和推理。你可以租用雲GPU，從0.2美元/小時起，支持TensorFlow、PyTorch和其他AI框架。我們提供可信賴的雲服務、免費帶寬、多種GPU選項、服務器端點和AI端點，適用於各種場景。

開發與工具

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase