2025年最佳的 166 個模型訓練與部署工具

MNN-LLM Android App
MNN LLM Android App
MNN-LLM 是一款高效的推理框架,旨在優化和加速大語言模型在移動設備和本地 PC 上的部署。它通過模型量化、混合存儲和硬件特定優化,解決高內存消耗和計算成本的問題。MNN-LLM 在 CPU 基準測試中表現卓越,速度顯著提升,適合需要隱私保護和高效推理的用戶。
模型訓練與部署
53.5K
Search-R1
Search R1
Search-R1 是一個強化學習框架,旨在訓練能夠進行推理和調用搜索引擎的語言模型(LLMs)。它基於 veRL 構建,支持多種強化學習方法和不同的 LLM 架構,使得在工具增強的推理研究和開發中具備高效性和可擴展性。
模型訓練與部署
62.4K
GenPRM
Genprm
GenPRM 是一種新興的過程獎勵模型(PRM),通過生成推理來提高在測試時的計算效率。這項技術能夠在處理複雜任務時提供更準確的獎勵評估,適用於多種機器學習和人工智能領域的應用。其主要優點是能夠在資源有限的情況下優化模型性能,並在實際應用中降低計算成本。
模型訓練與部署
70.9K
Arthur Engine
Arthur Engine
Arthur Engine 是一個旨在監控和治理 AI/ML 工作負載的工具,利用流行的開源技術和框架。該產品的企業版提供更好的性能和額外功能,如自定義的企業級防護機制和指標,旨在最大化 AI 對組織的潛力。它能夠有效評估和優化模型,確保數據安全與合規。
模型訓練與部署
54.1K
Cohere Command
Cohere Command
Cohere Command 是一個高可擴展性的語言模型系列,旨在為企業提供可靠的人工智能解決方案,助力團隊專注於重要工作。其主要優點包括:高性能、強準確性、可私人部署和自定義,適合多種真實世界的企業應用場景。
模型訓練與部署
59.3K
Factorio學習環境
Factorio學習環境
Factorio Learning Environment(FLE)是基於《Factorio》遊戲構建的新型框架,用於評估大型語言模型(LLMs)在長期規劃、程序合成和資源優化方面的能力。隨著LLMs逐漸飽和現有基準測試,FLE提供了新的開放式評估方式。它的重要性在於能讓研究人員更全面、深入地瞭解LLMs的優勢與不足。主要優點是提供了開放式且難度呈指數級增長的挑戰,擁有結構化任務和開放式任務兩種評估協議。該項目由Jack Hopkins等人開發,以開源形式發佈,免費使用,定位是推動AI研究人員對複雜、開放式領域中智能體能力的研究。
模型訓練與部署
52.4K
Light-R1
Light R1
Light-R1 是一個由 Qihoo360 開發的開源項目,旨在通過課程式監督微調(SFT)、直接偏好優化(DPO)和強化學習(RL)訓練長鏈推理模型。該項目通過去汙染數據集和高效的訓練方法,實現了從零開始的長鏈推理能力。其主要優點包括開源的訓練數據、低成本的訓練方式以及在數學推理領域的卓越性能。項目背景基於當前長鏈推理模型的訓練需求,旨在提供一種透明且可復現的訓練方法。項目目前免費開源,適合研究機構和開發者使用。
模型訓練與部署
66.8K
Awesome-LLM-Post-training
Awesome LLM Post Training
Awesome-LLM-Post-training 是一個專注於大型語言模型(LLM)後訓練方法的資源庫。它提供了關於 LLM 後訓練的深入研究,包括教程、調查和指南。該資源庫基於論文《LLM Post-Training: A Deep Dive into Reasoning Large Language Models》,旨在幫助研究人員和開發者更好地理解和應用 LLM 後訓練技術。該資源庫免費開放,適合學術研究和工業應用。
模型訓練與部署
68.2K
Bytedance Flux
Bytedance Flux
Flux 是由字節跳動開發的一個高性能通信重疊庫,專為 GPU 上的張量和專家並行設計。它通過高效的內核和對 PyTorch 的兼容性,支持多種並行化策略,適用於大規模模型訓練和推理。Flux 的主要優點包括高性能、易於集成和對多種 NVIDIA GPU 架構的支持。它在大規模分佈式訓練中表現出色,尤其是在 Mixture-of-Experts (MoE) 模型中,能夠顯著提高計算效率。
模型訓練與部署
70.9K
Firecrawl LLMs.txt generator
Firecrawl LLMs.txt Generator
LLMs.txt生成器是一個由Firecrawl提供支持的在線工具,旨在幫助用戶從網站生成用於LLM訓練和推理的整合文本文件。它通過整合網頁內容,為訓練大型語言模型提供高質量的文本數據,從而提高模型的性能和準確性。該工具的主要優點是操作簡單、高效,能夠快速生成所需的文本文件。它主要面向需要大量文本數據進行模型訓練的開發者和研究人員,為他們提供了一種便捷的解決方案。
模型訓練與部署
61.5K
AoT
Aot
Atom of Thoughts (AoT) 是一種新型推理框架,通過將解決方案表示為原子問題的組合,將推理過程轉化為馬爾可夫過程。該框架通過分解和收縮機制,顯著提升了大語言模型在推理任務上的性能,同時減少了計算資源的浪費。AoT 不僅可以作為獨立的推理方法,還可以作為現有測試時擴展方法的插件,靈活結合不同方法的優勢。該框架開源且基於 Python 實現,適合研究人員和開發者在自然語言處理和大語言模型領域進行實驗和應用。
模型訓練與部署
64.3K
AI21-Jamba-Large-1.6
AI21 Jamba Large 1.6
AI21-Jamba-Large-1.6 是由 AI21 Labs 開發的混合 SSM-Transformer 架構基礎模型,專為長文本處理和高效推理而設計。該模型在長文本處理、推理速度和質量方面表現出色,支持多種語言,並具備強大的指令跟隨能力。它適用於需要處理大量文本數據的企業級應用,如金融分析、內容生成等。該模型採用 Jamba Open Model License 授權,允許在許可條款下進行研究和商業使用。
模型訓練與部署
54.9K
SRM
SRM
SRM是一種基於去噪生成模型的空間推理框架,用於處理連續變量集合的推理任務。它通過為每個未觀測變量分配獨立的噪聲水平,逐步推斷出這些變量的連續表示。該技術在處理複雜分佈時表現出色,能夠有效減少生成過程中的幻覺現象。SRM首次證明了去噪網絡可以預測生成順序,從而顯著提高了特定推理任務的準確性。該模型由德國馬普信息研究所開發,旨在推動空間推理和生成模型的研究。
模型訓練與部署
48.3K
優質新品
DeepSeek-V3/R1 推理系統
Deepseek V3/R1 推理系統
DeepSeek-V3/R1 推理系統是 DeepSeek 團隊開發的高性能推理架構,旨在優化大規模稀疏模型的推理效率。它通過跨節點專家並行(EP)技術,顯著提升 GPU 矩陣計算效率,降低延遲。該系統採用雙批量重疊策略和多級負載均衡機制,確保在大規模分佈式環境中高效運行。其主要優點包括高吞吐量、低延遲和優化的資源利用率,適用於高性能計算和 AI 推理場景。
模型訓練與部署
48.3K
Profiling Data in DeepSeek Infra
Profiling Data In DeepSeek Infra
DeepSeek Profile Data 是一個專注於深度學習框架性能分析的項目。它通過 PyTorch Profiler 捕獲訓練和推理框架的性能數據,幫助研究人員和開發者更好地理解計算與通信重疊策略以及底層實現細節。這些數據對於優化大規模分佈式訓練和推理任務至關重要,能夠顯著提升系統的效率和性能。該項目是 DeepSeek 團隊在深度學習基礎設施領域的重要貢獻,旨在推動社區對高效計算策略的探索。
模型訓練與部署
49.4K
優質新品
EPLB
EPLB
Expert Parallelism Load Balancer (EPLB)是一種用於深度學習中專家並行(EP)的負載均衡算法。它通過冗餘專家策略和啟發式打包算法,確保不同GPU之間的負載平衡,同時利用組限制專家路由減少節點間數據流量。該算法對於大規模分佈式訓練具有重要意義,能夠提高資源利用率和訓練效率。
模型訓練與部署
48.6K
優質新品
DualPipe
Dualpipe
DualPipe是一種創新的雙向流水線並行算法,由DeepSeek-AI團隊開發。該算法通過優化計算與通信的重疊,顯著減少了流水線氣泡,提高了訓練效率。它在大規模分佈式訓練中表現出色,尤其適用於需要高效並行化的深度學習任務。DualPipe基於PyTorch開發,易於集成和擴展,適合需要高性能計算的開發者和研究人員使用。
模型訓練與部署
51.1K
TensorPool
Tensorpool
TensorPool 是一個專注於簡化機器學習模型訓練的雲 GPU 平臺。它通過提供一個直觀的命令行界面(CLI),幫助用戶輕鬆描述任務並自動處理 GPU 的編排和執行。TensorPool 的核心技術包括智能的 Spot 節點恢復技術,能夠在搶佔式實例被中斷時立即恢復作業,從而結合了搶佔式實例的成本優勢和按需實例的可靠性。此外,TensorPool 還通過即時多雲分析選擇最便宜的 GPU 選項,用戶只需為實際執行時間付費,無需擔心閒置機器帶來的額外成本。TensorPool 的目標是讓開發者無需花費大量時間配置雲提供商,從而提高機器學習工程的速度和效率。它提供個人計劃和企業計劃,個人計劃每週提供 $5 的免費信用額度,而企業計劃則提供更高級的支持和功能。
模型訓練與部署
45.8K
MLGym
Mlgym
MLGym是由Meta的GenAI團隊和UCSB NLP團隊開發的一個開源框架和基準,用於訓練和評估AI研究代理。它通過提供多樣化的AI研究任務,推動強化學習算法的發展,幫助研究人員在真實世界的研究場景中訓練和評估模型。該框架支持多種任務,包括計算機視覺、自然語言處理和強化學習等領域,旨在為AI研究提供一個標準化的測試平臺。
模型訓練與部署
52.7K
FlexHeadFA
Flexheadfa
FlexHeadFA 是一個基於 FlashAttention 的改進模型,專注於提供快速且內存高效的精確注意力機制。它支持靈活的頭維度配置,能夠顯著提升大語言模型的性能和效率。該模型的主要優點包括高效利用 GPU 資源、支持多種頭維度配置以及與 FlashAttention-2 和 FlashAttention-3 兼容。它適用於需要高效計算和內存優化的深度學習場景,尤其在處理長序列數據時表現出色。
模型訓練與部署
48.9K
優質新品
FlashMLA
Flashmla
FlashMLA 是一個針對 Hopper GPU 優化的高效 MLA 解碼內核,專為變長序列服務設計。它基於 CUDA 12.3 及以上版本開發,支持 PyTorch 2.0 及以上版本。FlashMLA 的主要優勢在於其高效的內存訪問和計算性能,能夠在 H800 SXM5 上實現高達 3000 GB/s 的內存帶寬和 580 TFLOPS 的計算性能。該技術對於需要大規模並行計算和高效內存管理的深度學習任務具有重要意義,尤其是在自然語言處理和計算機視覺領域。FlashMLA 的開發靈感來源於 FlashAttention 2&3 和 cutlass 項目,旨在為研究人員和開發者提供一個高效的計算工具。
模型訓練與部署
49.4K
MoBA
Moba
MoBA(Mixture of Block Attention)是一種創新的注意力機制,專為長文本上下文的大語言模型設計。它通過將上下文劃分為塊,並讓每個查詢令牌學習關注最相關的塊,從而實現高效的長序列處理。MoBA 的主要優點是能夠在全注意力和稀疏注意力之間無縫切換,既保證了性能,又提高了計算效率。該技術適用於需要處理長文本的任務,如文檔分析、代碼生成等,能夠顯著降低計算成本,同時保持模型的高性能表現。MoBA 的開源實現為研究人員和開發者提供了強大的工具,推動了大語言模型在長文本處理領域的應用。
模型訓練與部署
51.3K
KET-RAG
KET RAG
KET-RAG(Knowledge-Enhanced Text Retrieval Augmented Generation)是一個強大的檢索增強型生成框架,結合了知識圖譜技術。它通過多粒度索引框架(如知識圖譜骨架和文本-關鍵詞二分圖)實現高效的知識檢索和生成。該框架在降低索引成本的同時,顯著提升了檢索和生成質量,適用於大規模 RAG 應用場景。KET-RAG 基於 Python 開發,支持靈活的配置和擴展,適用於需要高效知識檢索和生成的開發人員和研究人員。
模型訓練與部署
63.8K
優質新品
One Shot LoRA
One Shot LoRA
One Shot LoRA 是一個專注於從視頻中快速訓練 LoRA 模型的在線平臺。它利用先進的機器學習技術,能夠將視頻內容高效轉化為 LoRA 模型,為用戶提供快速、便捷的模型生成服務。該產品的主要優點是操作簡單、無需登錄且隱私安全。它無需用戶上傳私人數據,也不存儲或收集任何用戶信息,確保用戶數據的私密性和安全性。該產品主要面向需要快速生成 LoRA 模型的用戶,如設計師、開發者等,幫助他們快速獲取所需的模型資源,提升工作效率。
模型訓練與部署
61.3K
國外精選
OLMoE app
Olmoe App
OLMoE 是由 Ai2 開發的開源語言模型應用,旨在為研究人員和開發者提供一個完全開放的工具包,用於在設備上進行人工智能實驗。該應用支持在 iPhone 和 iPad 上離線運行,確保用戶數據完全私密。它基於高效的 OLMoE 模型構建,通過優化和量化,使其在移動設備上運行時保持高性能。該應用的開源特性使其成為研究和開發新一代設備端人工智能應用的重要基礎。
模型訓練與部署
51.3K
DeepSeek 模型兼容性檢測
Deepseek 模型兼容性檢測
DeepSeek 模型兼容性檢測是一個用於評估設備是否能夠運行不同規模 DeepSeek 模型的工具。它通過檢測設備的系統內存、顯存等配置,結合模型的參數量、精度位數等信息,為用戶提供模型運行的預測結果。該工具對於開發者和研究人員在選擇合適的硬件資源以部署 DeepSeek 模型時具有重要意義,能夠幫助他們提前瞭解設備的兼容性,避免因硬件不足而導致的運行問題。DeepSeek 模型本身是一種先進的深度學習模型,廣泛應用於自然語言處理等領域,具有高效、準確的特點。通過該檢測工具,用戶可以更好地利用 DeepSeek 模型進行項目開發和研究。
模型訓練與部署
178.6K
recurrent-pretraining
Recurrent Pretraining
該產品是一個用於大規模深度循環語言模型的預訓練代碼庫,基於Python開發。它在AMD GPU架構上進行了優化,能夠在4096個AMD GPU上高效運行。該技術的核心優勢在於其深度循環架構,能夠有效提升模型的推理能力和效率。它主要用於研究和開發高性能的自然語言處理模型,特別是在需要大規模計算資源的場景中。該代碼庫開源且基於Apache-2.0許可證,適合學術研究和工業應用。
模型訓練與部署
46.9K
Steev
Steev
Steev 是一款專為 AI 模型訓練設計的工具,旨在簡化訓練流程,提升模型性能。它通過自動優化訓練參數、即時監控訓練過程,並提供代碼審查和建議,幫助用戶更高效地完成模型訓練。Steev 的主要優點是無需配置即可使用,適合希望提高模型訓練效率和質量的工程師和研究人員。目前處於免費試用階段,用戶可以免費體驗其全部功能。
模型訓練與部署
48.9K
Kolosal AI
Kolosal AI
Kolosal AI 是一款用於本地設備訓練和運行大型語言模型(LLMs)的工具。它通過簡化模型訓練、優化和部署流程,使用戶能夠在本地設備上高效地使用 AI 技術。該工具支持多種硬件平臺,提供快速的推理速度和靈活的定製能力,適合從個人開發者到大型企業的廣泛應用場景。其開源特性也使得用戶可以根據自身需求進行二次開發。
模型訓練與部署
60.7K
RAG-FiT
RAG FiT
RAG-FiT是一個強大的工具,旨在通過檢索增強生成(RAG)技術提升大型語言模型(LLMs)的能力。它通過創建專門的RAG增強數據集,幫助模型更好地利用外部信息。該庫支持從數據準備到模型訓練、推理和評估的全流程操作。其主要優點包括模塊化設計、可定製化工作流以及對多種RAG配置的支持。RAG-FiT基於開源許可,適合研究人員和開發者進行快速原型開發和實驗。
模型訓練與部署
51.6K
精選AI產品推薦
中文精選
騰訊混元圖像 2.0
騰訊混元圖像 2.0
騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型,顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構,使得圖像生成速度可達到毫秒級,避免了傳統生成的等待時間。同時,模型通過強化學習算法與人類美學知識的結合,提升了圖像的真實感和細節表現,適合設計師、創作者等專業用戶使用。
圖片生成
80.6K
國外精選
Lovart
Lovart
Lovart 是一款革命性的 AI 設計代理,能夠將創意提示轉化為藝術作品,支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程,節省時間並提升創意靈感。Lovart 當前處於測試階段,用戶可加入等候名單,隨時體驗設計的樂趣。
AI設計工具
63.8K
FastVLM
Fastvlm
FastVLM 是一種高效的視覺編碼模型,專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器,減少了高分辨率圖像的編碼時間和輸出的 token 數量,使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力,適用於各種應用場景,尤其在需要快速響應的移動設備上表現優異。
AI模型
51.1K
KeySync
Keysync
KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題,同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果,適用於自動配音等實際應用場景。
視頻編輯
48.3K
Manus
Manus
Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品,能夠直接交付完整的任務成果,而不僅僅是提供建議或答案。它採用 Multiple Agent 架構,運行在獨立虛擬機中,能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現,展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’,幫助用戶高效完成各種複雜任務。
個人助理
1.5M
Trae國內版
Trae國內版
Trae是一款專為中文開發場景設計的AI原生IDE,將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能,顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白,滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具,旨在為專業開發者提供強大的技術支持,目前尚未明確公開價格,但預計會採用付費模式以匹配其高端定位。
開發與工具
137.7K
國外精選
Pika
Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M
中文精選
LiblibAI
Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase