模型訓練

# 模型訓練

Labelbox

Labelbox是一個為AI團隊設計的數據工廠，旨在提供構建、運營和數據標註的解決方案。其主要優點包括靈活的標註工具、自動化數據流程、豐富的數據管理功能等。背景信息：Labelbox致力於幫助AI團隊提高數據標註效率和模型訓練質量，定位於提供全面的數據管理和標註平臺。

Genie Studio

Genie Studio 是智元機器人專為具身智能場景打造的一站式開發平臺，具備數據採集、模型訓練、仿真評測、模型推理的全鏈路產品能力。它為開發者提供從‘採’到‘訓’到‘測’再到‘推’的標準化解決方案，極大地降低了開發門檻，提升了開發效率。該平臺通過高效的數據採集、靈活的模型訓練、精準的仿真評測和無縫的模型推理，推動了具身智能技術的快速發展和應用。Genie Studio 不僅提供了強大的工具，還為具身智能的規模化落地提供了支持，加速了行業向標準化、平臺化、量產化的新階段躍進。

EaseVoice Trainer

Easevoice Trainer

EaseVoice Trainer 是一個後端項目，旨在簡化和增強語音合成與轉換訓練過程。該項目基於 GPT-SoVITS 進行改進，注重用戶體驗和系統的可維護性。其設計理念不同於原始項目，旨在提供更模塊化和定製化的解決方案，適用於從小規模實驗到大規模生產的多種場景。該工具可以幫助開發者和研究人員更高效地進行語音合成和轉換的研究與開發。

開發與工具

Firecrawl LLMs.txt generator

Firecrawl LLMs.txt Generator

LLMs.txt生成器是一個由Firecrawl提供支持的在線工具，旨在幫助用戶從網站生成用於LLM訓練和推理的整合文本文件。它通過整合網頁內容，為訓練大型語言模型提供高質量的文本數據，從而提高模型的性能和準確性。該工具的主要優點是操作簡單、高效，能夠快速生成所需的文本文件。它主要面向需要大量文本數據進行模型訓練的開發者和研究人員，為他們提供了一種便捷的解決方案。

模型訓練與部署

MLGym

MLGym是由Meta的GenAI團隊和UCSB NLP團隊開發的一個開源框架和基準，用於訓練和評估AI研究代理。它通過提供多樣化的AI研究任務，推動強化學習算法的發展，幫助研究人員在真實世界的研究場景中訓練和評估模型。該框架支持多種任務，包括計算機視覺、自然語言處理和強化學習等領域，旨在為AI研究提供一個標準化的測試平臺。

模型訓練與部署

kg-gen

kg-gen 是一個基於人工智能的工具，能夠從普通文本中提取知識圖譜。它支持處理小到單句話、大到長篇文檔的文本輸入，並且可以處理對話格式的消息。該工具利用先進的語言模型和結構化輸出技術，能夠幫助用戶快速構建知識圖譜，適用於自然語言處理、知識管理以及模型訓練等領域。kg-gen 提供了靈活的接口和多種功能，旨在簡化知識圖譜的生成過程，提高效率。

Steev

Steev 是一款專為 AI 模型訓練設計的工具，旨在簡化訓練流程，提升模型性能。它通過自動優化訓練參數、即時監控訓練過程，並提供代碼審查和建議，幫助用戶更高效地完成模型訓練。Steev 的主要優點是無需配置即可使用，適合希望提高模型訓練效率和質量的工程師和研究人員。目前處於免費試用階段，用戶可以免費體驗其全部功能。

模型訓練與部署

Kolosal AI

Kolosal AI 是一款用於本地設備訓練和運行大型語言模型（LLMs）的工具。它通過簡化模型訓練、優化和部署流程，使用戶能夠在本地設備上高效地使用 AI 技術。該工具支持多種硬件平臺，提供快速的推理速度和靈活的定製能力，適合從個人開發者到大型企業的廣泛應用場景。其開源特性也使得用戶可以根據自身需求進行二次開發。

模型訓練與部署

Open Thoughts

Open Thoughts 是一個由 Bespoke Labs 和 DataComp 社區主導的項目，旨在整理高質量的開源推理數據集，用於訓練先進的小模型。該項目彙集了來自斯坦福大學、加州大學伯克利分校、華盛頓大學等多所高校和研究機構的研究人員與工程師，致力於通過優質數據集推動推理模型的發展。其背景是當前推理模型在數學和代碼推理等領域的應用需求日益增長，而高質量的數據集是提升模型性能的關鍵。該項目目前免費開放，主要面向研究人員、開發者以及對推理模型感興趣的專業人士，其數據集和工具的開源性使其成為推動人工智能教育和研究的重要資源。

RWKV-6 Mixture of Experts

RWKV 6 Mixture Of Experts

Flock of Finches 37B-A11B v0.1是RWKV家族的最新成員，這是一個實驗性模型，擁有11億個活躍參數，儘管僅訓練了1090億個token，但在常見基準測試中的得分與最近發佈的Finch 14B模型大致相當。該模型採用了高效的稀疏混合專家(MoE)方法，在任何給定token上僅激活一部分參數，從而在訓練和推理過程中節省時間和減少計算資源的使用。儘管這種架構選擇以更高的VRAM使用為代價，但從我們的角度看，能夠低成本訓練和運行具有更大能力模型是非常值得的。

E2M

E2M是一個Python庫，能夠解析並轉換多種文件類型到Markdown格式。它採用瞭解析器-轉換器架構，支持包括doc、docx、epub、html、htm、url、pdf、ppt、pptx、mp3和m4a等多種文件格式的轉換。E2M項目的最終目標是為檢索增強生成(RAG)和模型訓練或微調提供高質量的數據。

開發與工具

TRELLIS

TRELLIS是一個基於統一結構化潛在表示和修正流變換器的原生3D生成模型，能夠實現多樣化和高質量的3D資產創建。該模型通過整合稀疏的3D網格和從強大的視覺基礎模型提取的密集多視圖視覺特徵，全面捕獲結構（幾何）和紋理（外觀）信息，同時在解碼過程中保持靈活性。TRELLIS模型能夠處理高達20億參數，並在包含50萬個多樣化對象的大型3D資產數據集上進行訓練。該模型在文本或圖像條件下生成高質量結果，顯著超越現有方法，包括規模相似的最近方法。TRELLIS還展示了靈活的輸出格式選擇和局部3D編輯能力，這些是以前模型所沒有提供的。代碼、模型和數據將被髮布。

prime

PrimeIntellect-ai/prime是一個用於在互聯網上高效、全球分佈式訓練AI模型的框架。它通過技術創新，實現了跨地域的AI模型訓練，提高了計算資源的利用率，降低了訓練成本，對於需要大規模計算資源的AI研究和應用開發具有重要意義。

模型訓練與部署

MM1.5

MM1.5是一系列多模態大型語言模型（MLLMs），旨在增強文本豐富的圖像理解、視覺指代表明和接地以及多圖像推理的能力。該模型基於MM1架構，採用以數據為中心的模型訓練方法，系統地探索了整個模型訓練生命週期中不同數據混合的影響。MM1.5模型從1B到30B參數不等，包括密集型和混合專家（MoE）變體，並通過廣泛的實證研究和消融研究，提供了詳細的訓練過程和決策見解，為未來MLLM開發研究提供了寶貴的指導。

RECE

RECE是一種文本到圖像擴散模型的概念擦除技術，它通過在模型訓練過程中引入正則化項來實現對特定概念的可靠和高效擦除。這項技術對於提高圖像生成模型的安全性和控制性具有重要意義，特別是在需要避免生成不適當內容的場景中。RECE技術的主要優點包括高效率、高可靠性和易於集成到現有模型中。

Flux Gym

Flux Gym是一個為FLUX LoRA模型訓練設計的簡潔Web UI，特別適合只有12GB、16GB或20GB VRAM的設備使用。它結合了AI-Toolkit項目的易用性和Kohya Scripts的靈活性，使得用戶無需複雜的終端操作即可進行模型訓練。Flux Gym支持用戶通過簡單的界面上傳圖片和添加描述，然後啟動訓練過程。

Easy Voice Toolkit

Easy Voice Toolkit

Easy Voice Toolkit是一個基於開源語音項目的AI語音工具箱，提供包括語音模型訓練在內的多種自動化音頻工具。該工具箱能夠無縫集成，形成完整的工作流程，用戶可以根據需要選擇性使用這些工具，或按順序使用，逐步將原始音頻文件轉換為理想的語音模型。

Civita Green

Civita Green是一個面向AI愛好者、藝術家和開發者的社區平臺，提供AI模型訓練、圖像和視頻創作、以及藝術作品分享。平臺支持用戶創建、分享和使用各種AI模型，推動AI藝術創作的發展。

AI模型訓練與部署

ai-toolkit

ai-toolkit是一個研究性質的GitHub倉庫，由Ostris創建，主要用於Stable Diffusion模型的實驗和訓練。它包含了各種AI腳本，支持模型訓練、圖像生成、LoRA提取器等。該工具包仍在開發中，可能存在不穩定性，但提供了豐富的功能和高度的自定義性。

x-flux

x-flux是由XLabs AI團隊發佈的深度學習模型訓練腳本集，包括LoRA和ControlNet模型。這些模型使用DeepSpeed進行訓練，支持512x512和1024x1024圖片尺寸，並且提供了相應的訓練配置文件和示例。x-flux模型訓練旨在提高圖像生成的質量和效率，對於AI圖像生成領域具有重要意義。

aimo-progress-prize

Aimo Progress Prize

這個GitHub倉庫包含了訓練和推理代碼，用於複製我們在AI數學奧林匹克（AIMO）進展獎1中的獲勝解決方案。我們的解決方案由四個主要部分組成：一個用於微調DeepSeekMath-Base 7B以使用工具集成推理（TIR）解決數學問題的配方；兩個約100萬個數學問題和解決方案的高質量訓練數據集；一個自洽解碼算法，用於生成具有代碼執行反饋的解決方案候選項（SC-TIR）；四個來自AMC、AIME和MATH的精心選擇的驗證集，以指導模型選擇並避免對公共排行榜的過擬合。

AI模型推理訓練

DCLM

DataComp-LM (DCLM) 是一個為構建和訓練大型語言模型（LLMs）而設計的綜合性框架，提供了標準化的語料庫、基於open_lm框架的高效預訓練配方，以及超過50種評估方法。DCLM 支持研究人員在不同的計算規模上實驗不同的數據集構建策略，從411M到7B參數模型。DCLM 通過優化的數據集設計顯著提高了模型性能，並且已經促成了多個高質量數據集的創建，這些數據集在不同規模上表現優異，超越了所有開放數據集。

Prime Intellect

Prime Intellect

Prime Intellect是一個致力於AI開發規模化民主化的平臺，提供全球計算資源的發現、模型訓練以及共同擁有智能創新的能力。它通過分佈式訓練跨集群，使得用戶能夠訓練最前沿的模型，並且共同擁有由此產生的開放AI創新成果，包括語言模型和科學突破。

Prov-GigaPath

Prov-GigaPath是一個用於數字病理學研究的全切片基礎模型，它通過真實世界數據進行訓練，旨在支持AI研究人員在病理學基礎模型和數字病理幻燈片數據編碼方面的研究。該模型由多位作者共同開發，並在Nature期刊上發表。它不適用於臨床護理或任何臨床決策制定目的，僅限於研究使用。

CoreNet

CoreNet 是一個深度神經網絡工具包，使研究人員和工程師能夠訓練標準和新穎的小型和大型規模模型，用於各種任務，包括基礎模型（例如 CLIP 和 LLM）、對象分類、對象檢測和語義分割。

CameraCtrl

CameraCtrl 致力於為文本生成視頻模型提供精準相機姿態控制，通過訓練相機編碼器實現參數化相機軌跡，從而實現視頻生成過程中的相機控制。產品通過綜合研究各種數據集的效果，證明視頻具有多樣的相機分佈和相似外觀可以增強可控性和泛化能力。實驗證明 CameraCtrl 在實現精確、領域自適應的相機控制方面非常有效，是從文本和相機姿態輸入實現動態、定製視頻敘事的重要進展。

LlamaParse

llama_parse是LLAMA項目的一部分，用於解析和處理相關數據。LLAMA是一個用於機器學習模型的庫，專注於提供易於使用的接口和高效的數據處理能力。

DataDreamer

DataDreamer是一個強大的開源Python庫，用於提示、生成合成數據和訓練工作流。它旨在簡單易用，極其高效，且具有研究級質量。DataDreamer支持創建提示工作流、生成合成數據集、對齊模型、微調模型、指令調優模型和模型蒸餾。它具有簡單、研究級、高效、可復現的特點，並簡化了數據集和模型的共享。

V-JEPA

Meta 發佈了 Video Joint Embedding Predictive Architecture (V-JEPA) 模型，這是推進機器智能的關鍵一步，帶來對世界更具實地認識。

StemGen

StemGen是一款端到端音樂生成模型，訓練成能夠聆聽音樂背景並做出適當回應的模型。它建立在非自迴歸語言模型類型的架構上，類似於SoundStorm和VampNet。更多細節請參閱論文。該頁面展示了該架構模型的多個示例輸出。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase