微調

# 微調

Animagine XL 4.0

Animagine XL 4.0

Animagine XL 4.0 是一款基於Stable Diffusion XL 1.0微調的動漫主題生成模型。它使用了840萬張多樣化的動漫風格圖像進行訓練，訓練時長達到2650小時。該模型專注於通過文本提示生成和修改動漫主題圖像，支持多種特殊標籤，可控制圖像生成的不同方面。其主要優點包括高質量的圖像生成、豐富的動漫風格細節以及對特定角色和風格的精準還原。該模型由Cagliostro Research Lab開發，採用CreativeML Open RAIL++-M許可證，允許商業使用和修改。

Flex.1-alpha

Flex.1-alpha 是一個強大的文本到圖像生成模型，基於80億參數的修正流變換器架構。它繼承了FLUX.1-schnell的特性，並通過訓練指導嵌入器，使其無需CFG即可生成圖像。該模型支持微調，並且具有開放源代碼許可（Apache 2.0），適合在多種推理引擎中使用，如Diffusers和ComfyUI。其主要優點包括高效生成高質量圖像、靈活的微調能力和開源社區支持。開發背景是為了解決圖像生成模型的壓縮和優化問題，並通過持續訓練提升模型性能。

llm-datasets

mlabonne/llm-datasets 是一個專注於大型語言模型（LLM）微調的高質量數據集和工具的集合。該產品為研究人員和開發者提供了一系列經過精心篩選和優化的數據集，幫助他們更好地訓練和優化自己的語言模型。其主要優點在於數據集的多樣性和高質量，能夠覆蓋多種使用場景，從而提高模型的泛化能力和準確性。此外，該產品還提供了一些工具和概念，幫助用戶更好地理解和使用這些數據集。其背景信息包括由 mlabonne 創建和維護，旨在推動 LLM 領域的發展。

Llama-3.3-70B-Instruct

Llama 3.3 70B Instruct

Llama-3.3-70B-Instruct是由Meta開發的一個70億參數的大型語言模型，專門針對多語言對話場景進行了優化。該模型使用優化的Transformer架構，並通過監督式微調(SFT)和基於人類反饋的強化學習(RLHF)來提高其有用性和安全性。它支持多種語言，並能夠處理文本生成任務，是自然語言處理領域的一項重要技術。

聊天機器人

WorkflowLLM

WorkflowLLM是一個以數據為中心的框架，旨在增強大型語言模型（LLMs）在工作流編排方面的能力。核心是WorkflowBench，這是一個大規模的監督式微調數據集，包含來自83個應用、28個類別的1503個API的106763個樣本。WorkflowLLM通過微調Llama-3.1-8B模型，創建了專門針對工作流編排任務優化的WorkflowLlama模型。實驗結果表明，WorkflowLlama在編排複雜工作流方面表現出色，並且能夠很好地泛化到未見過的API。

工作流編排

TableGPT2

TableGPT2是一個大型多模態模型，專門針對表格數據進行預訓練和微調，以解決實際應用中表格數據整合不足的問題。該模型在超過593.8K的表格和2.36M的高質量查詢-表格-輸出元組上進行了預訓練和微調，規模前所未有。TableGPT2的關鍵創新之一是其新穎的表格編碼器，專門設計用於捕獲模式級別和單元格級別的信息，增強了模型處理模糊查詢、缺失列名和不規則表格的能力。在23個基準測試指標上，TableGPT2在7B模型上平均性能提升了35.20%，在72B模型上提升了49.32%，同時保持了強大的通用語言和編碼能力。

AutoArena

AutoArena是一個自動化的生成式AI評估平臺，專注於評估大型語言模型（LLMs）、檢索增強生成（RAG）系統和生成式AI應用。它通過自動化的頭對頭判斷來提供可信的評估，幫助用戶快速、準確、經濟地找到系統的最佳版本。該平臺支持使用來自不同供應商的判斷模型，如OpenAI、Anthropic等，也可以使用本地運行的開源權重判斷模型。AutoArena還提供了Elo評分和置信區間計算，幫助用戶將多次頭對頭投票轉化為排行榜排名。此外，AutoArena支持自定義判斷模型的微調，以實現更準確、特定領域的評估，並可以集成到持續集成（CI）流程中，以自動化評估生成式AI系統。

OpenFLUX.1

OpenFLUX.1是一個基於FLUX.1-schnell模型的微調版本，移除了蒸餾過程，使其可以進行微調，並且擁有開源、寬鬆的許可證Apache 2.0。該模型能夠生成令人驚歎的圖像，並且只需1-4步即可完成。它是一個嘗試去除蒸餾過程，創建一個可以微調的開源許可模型。

Llama-3.2-1B

Llama-3.2-1B是由Meta公司發佈的多語言大型語言模型，專注於文本生成任務。該模型使用優化的Transformer架構，並通過監督式微調（SFT）和人類反饋的強化學習（RLHF）進行調優，以符合人類對有用性和安全性的偏好。該模型支持8種語言，包括英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語，並在多種對話使用案例中表現優異。

Phi-3.5-mini-instruct

Phi 3.5 Mini Instruct

Phi-3.5-mini-instruct 是微軟基於高質量數據構建的輕量級、多語言的先進文本生成模型。它專注於提供高質量的推理密集型數據，支持128K的token上下文長度，經過嚴格的增強過程，包括監督式微調、近端策略優化和直接偏好優化，確保精確的指令遵循和強大的安全措施。

RAGFoundry

RAGFoundry是一個庫，旨在通過在特別創建的RAG增強數據集上微調模型，提高大型語言模型（LLMs）使用外部信息的能力。該庫通過參數高效微調（PEFT）幫助用戶輕鬆訓練模型，並使用RAG特定指標衡量性能提升。它具有模塊化設計，工作流程可通過配置文件自定義。

Finetune

Finetune是一個面向開發者的AI智能代理微調平臺，它通過創建反映客戶特徵的合成用戶，讓開發者的智能代理在模擬環境中進行測試和學習。平臺提供會話報告和加權執行圖，幫助開發者瞭解代理的性能並進行優化。此外，Finetune支持多種流行的AI模型和框架，使得集成和部署過程更加便捷。

開發與工具

Mastering LLMs

Mastering LLMs 是一個由25多位行業資深人士主講的免費課程，涵蓋了評估、檢索增強生成（RAG）、微調等主題。課程內容由信息檢索、機器學習、推薦系統、MLOps和數據科學等領域的專家提供，旨在將這些領域的先前技術應用於LLMs，為用戶提供有意義的優勢。課程面向需要指導如何改進AI產品的技術IC（包括工程師和數據科學家）。

lmms-finetune

lmms-finetune是一個統一的代碼庫，旨在簡化大型多模態模型（LMMs）的微調過程。它提供了一個結構化的框架，允許用戶輕鬆集成最新的LMMs並進行微調，支持全微調和lora等策略。代碼庫設計簡單輕量，易於理解和修改，支持包括LLaVA-1.5、Phi-3-Vision、Qwen-VL-Chat、LLaVA-NeXT-Interleave和LLaVA-NeXT-Video等多種模型。

Meta-Llama-3.1-8B-Instruct

Meta Llama 3.1 8B Instruct

Meta Llama 3.1是一系列預訓練和指令調整的多語言大型語言模型（LLMs），支持8種語言，專為對話使用案例優化，並通過監督式微調（SFT）和人類反饋的強化學習（RLHF）來提高安全性和有用性。

Meta-Llama-3.1-70B

Meta Llama 3.1 70B

Meta Llama 3.1是Meta公司推出的大型語言模型，擁有70億個參數，支持8種語言的文本生成。該模型採用優化的Transformer架構，並通過監督式微調和人類反饋強化學習進一步優化，以符合人類對幫助性和安全性的偏好。模型在多語言對話使用案例中表現優異，超越了許多現有的開源和封閉聊天模型。

Llama-3-70B-Tool-Use

Llama 3 70B Tool Use

Llama-3-70B-Tool-Use是一種70B參數量的大型語言模型，專為高級工具使用和功能調用任務設計。該模型在Berkeley功能調用排行榜（BFCL）上的總體準確率達到90.76%，表現優於所有開源的70B語言模型。該模型優化了變換器架構，並通過完整的微調和直接偏好優化（DPO）在Llama 3 70B基礎模型上進行了訓練。輸入為文本，輸出為文本，增強了工具使用和功能調用的能力。儘管其主要用途是工具使用和功能調用，但在一般知識或開放式任務中，可能更適用通用語言模型。該模型可能在某些情況下產生不準確或有偏見的內容，用戶應注意實現適合其特定用例的適當安全措施。該模型對溫度和top_p採樣配置非常敏感。

AMchat

AMchat是一個集成了數學知識和高等數學習題及其解答的大語言模型。它基於InternLM2-Math-7B模型，通過xtuner微調，專門設計用於解答高等數學問題。該項目在2024浦源大模型系列挑戰賽（春季賽）中獲得Top12和創新創意獎，體現了其在高等數學領域的專業能力和創新性。

EmoLLM

EmoLLM是一個心理健康大模型，由LLM指令微調而來，旨在全面理解和促進個體、群體乃至整個社會的心理健康狀態。它包含認知因素、情感因素、行為因素、社會環境、生理健康、心理韌性、預防和干預措施、評估和診斷工具等多個關鍵組成部分。EmoLLM通過微調配置，能夠在心理諮詢任務上提供支持，幫助用戶更好地理解和應對心理問題。

Expert Specialized Fine-Tuning

Expert Specialized Fine Tuning

Expert Specialized Fine-Tuning (ESFT) 是一種針對具有專家混合(MoE)架構的大型語言模型(LLMs)的高效定製化微調方法。它通過僅調整與任務相關的部分來優化模型性能，提高效率，同時減少資源和存儲的使用。

OpenVLA

OpenVLA是一個具有7億參數的開源視覺-語言-動作（VLA）模型，通過在Open X-Embodiment數據集上的970k機器人劇集進行預訓練。該模型在通用機器人操作策略上設定了新的行業標準，支持開箱即用控制多個機器人，並且可以通過參數高效的微調快速適應新的機器人設置。OpenVLA的檢查點和PyTorch訓練流程完全開源，模型可以從HuggingFace下載並進行微調。

Higgs-Llama-3-70B

Higgs Llama 3 70B

Higgs-Llama-3-70B是一個基於Meta-Llama-3-70B的後訓練模型，特別針對角色扮演進行了優化，同時在通用領域指令執行和推理方面保持競爭力。該模型通過監督式微調，結合人工標註者和私有大型語言模型構建偏好對，進行迭代偏好優化以對齊模型行為，使其更貼近系統消息。與其它指令型模型相比，Higgs模型更緊密地遵循其角色。

AI聊天機器人

AIKit

AIKit 是一個開源工具，旨在簡化大型語言模型（LLMs）的託管、部署、構建和微調過程。它提供了與OpenAI API兼容的REST API，支持多種推理能力和格式，使用戶可以使用任何兼容的客戶端發送請求。此外，AIKit 還提供了一個可擴展的微調接口，支持Unsloth，為用戶提供快速、內存高效且易於使用的微調體驗。

mistral-finetune

Mistral Finetune

mistral-finetune是一個輕量級的代碼庫，它基於LoRA訓練範式，允許在凍結大部分權重的情況下，只訓練1-2%的額外權重，以低秩矩陣微擾的形式進行微調。它被優化用於多GPU單節點訓練設置，對於較小模型，例如7B模型，單個GPU就足夠了。該代碼庫旨在提供簡單、有指導意義的微調入口，特別是在數據格式化方面，並不旨在涵蓋多種模型架構或硬件類型。

Llama-3[8B] Meditron V1.0

Llama 3[8B] Meditron V1.0

Llama-3[8B] Meditron V1.0是一款專為生物醫學領域設計的8億參數的大型語言模型（LLM），在Meta發佈Llama-3後24小時內完成微調。該模型在MedQA和MedMCQA等標準基準測試中超越了同參數級別的所有現有開放模型，並且接近70B參數級別醫學領域領先的開放模型Llama-2[70B]-Meditron的性能。該工作展示了開放基礎模型的創新潛力，是確保資源匱乏地區公平參與訪問該技術更大倡議的一部分。

開源大模型食用指南

開源大模型食用指南

該項目是一個圍繞開源大模型的全流程指導教程,包括環境配置、模型部署、高效微調等,簡化開源大模型的使用和應用,讓更多普通學習者能夠使用開源大模型。項目面向對開源大模型感興趣且想自主上手的學習者,提供詳細的環境配置、模型部署和微調方法。

Orthogonal Finetuning (OFT)

Orthogonal Finetuning (OFT)

Controlling Text-to-Image Diffusion研究瞭如何有效引導或控制強大的文本到圖像生成模型進行各種下游任務。提出了正交微調(OFT)方法,可以保持模型的生成能力。OFT可以保持神經元之間的超球面能量不變,防止模型坍塌。作者考慮了兩種重要的微調任務:主體驅動生成和可控生成。結果表明,OFT方法在生成質量和收斂速度上優於現有方法。

ASPIRE

ASPIRE是一個設計精良的框架,用於增強大型語言模型的選擇性預測能力。它通過參數高效的微調訓練LLM進行自我評估,使其能夠針對生成的答案輸出置信度分數。實驗結果表明,ASPIRE在各種問答數據集上明顯優於目前的選擇性預測方法。

ReFT

ReFT是一種增強大型語言模型（LLMs）推理能力的簡單而有效的方法。它首先通過監督微調（SFT）對模型進行預熱，然後使用在線強化學習，具體來說是本文中的PPO算法，進一步微調模型。ReFT通過自動對給定問題進行大量推理路徑的採樣，並從真實答案中自然地得出獎勵，從而顯著優於SFT。ReFT的性能可能通過結合推理時策略（如多數投票和重新排名）進一步提升。需要注意的是，ReFT通過學習與SFT相同的訓練問題而獲得改進，而無需依賴額外或增強的訓練問題。這表明ReFT具有更強的泛化能力。

AI模型推理訓練

WindowsAI Studio

Windowsai Studio

Windows AI Studio 通過將來自 Azure AI Studio Catalog 和 Hugging Face 等目錄的先進 AI 開發工具和模型集合在一起，簡化了生成式 AI 應用程序的開發。您可以瀏覽由 Azure ML 和 Hugging Face 提供支持的 AI 模型目錄，將其下載到本地，進行微調、測試並在 Windows 應用程序中使用。所有計算都在本地進行，請確保您的設備能夠承受負載。未來，我們計劃將 ORT/DML 集成到 Windows AI Studio 工作流中，以便開發人員可以在任何 Windows 硬件上運行 AI 模型。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase