大語言模型

# 大語言模型

WeClone

WeClone 是一個基於微信聊天記錄微調大語言模型的項目，主要用於實現高質量的聲音克隆和數字分身。它結合了微信語音消息和 0.5B 大模型，允許用戶通過聊天機器人與自己的數字分身互動。該技術在數字永生和聲音克隆領域具有重要的應用價值，可以讓用戶在不在場的情況下繼續與他人交流。此項目正在快速迭代中，適合對 AI 和語言模型感興趣的用戶，且目前處於免費的開發階段。

Dream 7B

Dream 7B 是由香港大學 NLP 組和華為諾亞方舟實驗室聯合推出的最新擴散大語言模型。它在文本生成領域展現了優異的性能，特別是在複雜推理、長期規劃和上下文連貫性等方面。該模型採用了先進的訓練方法，具有強大的計劃能力和靈活的推理能力，為各類 AI 應用提供了更為強大的支持。

Argo

Xark-Argo是一款桌面客戶端產品，旨在幫助用戶輕鬆構建和使用自己的大語言模型。它支持多種操作系統，包括MacOS和Windows，提供了強大的本地化模型部署能力。通過集成ollama技術，用戶可以一鍵下載開源模型，並支持大模型API，如ChatGPT、Claude、Siliconflow等，大大降低了使用門檻。該產品適用於需要高效處理文本和知識管理的個人和企業用戶，具有高度的靈活性和擴展性。目前暫無明確價格信息，但其功能定位表明它可能面向中高端用戶群體。

開發與工具

NotaGen

NotaGen 是一款創新的符號音樂生成模型，通過預訓練、微調和強化學習三個階段提升音樂生成質量。它利用大語言模型技術，能夠生成高質量的古典樂譜，為音樂創作帶來新的可能性。該模型的主要優點包括高效生成、風格多樣和高質量輸出。它適用於音樂創作、教育和研究等領域，具有廣泛的應用前景。

AoT

Atom of Thoughts (AoT) 是一種新型推理框架，通過將解決方案表示為原子問題的組合，將推理過程轉化為馬爾可夫過程。該框架通過分解和收縮機制，顯著提升了大語言模型在推理任務上的性能，同時減少了計算資源的浪費。AoT 不僅可以作為獨立的推理方法，還可以作為現有測試時擴展方法的插件，靈活結合不同方法的優勢。該框架開源且基於 Python 實現，適合研究人員和開發者在自然語言處理和大語言模型領域進行實驗和應用。

模型訓練與部署

Spark-TTS

Spark-TTS 是一種基於大語言模型的高效文本到語音合成模型，具有單流解耦語音令牌的特性。它利用大語言模型的強大能力，直接從代碼預測的音頻進行重建，省略了額外的聲學特徵生成模型，從而提高了效率並降低了複雜性。該模型支持零樣本文本到語音合成，能夠跨語言和代碼切換場景，非常適合需要高自然度和準確性的語音合成應用。它還支持虛擬語音創建，用戶可以通過調整參數（如性別、音高和語速）來生成不同的語音。該模型的背景是為了解決傳統語音合成系統中效率低下和複雜性高的問題，旨在為研究和生產提供高效、靈活且強大的解決方案。目前，該模型主要面向學術研究和合法應用，如個性化語音合成、輔助技術和語言研究等。

文本轉聲音

Level-Navi Agent-Search

Level Navi Agent Search

Level-Navi Agent是一個開源的通用網絡搜索代理框架，能夠將複雜問題分解並逐步搜索互聯網上的信息，直至回答用戶問題。它通過提供Web24數據集，覆蓋金融、遊戲、體育、電影和事件等五大領域，為評估模型在搜索任務上的表現提供了基準。該框架支持零樣本和少樣本學習，為大語言模型在中文網絡搜索代理領域的應用提供了重要參考。

M2RAG

M2RAG是一個用於多模態上下文中的檢索增強生成的基準測試代碼庫。它通過多模態檢索文檔來回答問題，評估多模態大語言模型（MLLMs）在利用多模態上下文知識方面的能力。該模型在圖像描述、多模態問答、事實驗證和圖像重排等任務上進行了評估，旨在提升模型在多模態上下文學習中的有效性。M2RAG為研究人員提供了一個標準化的測試平臺，有助於推動多模態語言模型的發展。

TableGPT2-7B

TableGPT2-7B 是由浙江大學開發的大規模解碼器模型，專門用於處理數據密集型任務，尤其是表格數據的解讀和分析。該模型基於 Qwen2.5 架構，通過持續預訓練（CPT）和監督微調（SFT）優化，能夠處理複雜的表格查詢和商業智能（BI）應用。它支持中文查詢，適合需要高效處理結構化數據的企業和研究機構。模型目前免費開源，未來可能會推出更專業的版本。

MoBA

MoBA（Mixture of Block Attention）是一種創新的注意力機制，專為長文本上下文的大語言模型設計。它通過將上下文劃分為塊，並讓每個查詢令牌學習關注最相關的塊，從而實現高效的長序列處理。MoBA 的主要優點是能夠在全注意力和稀疏注意力之間無縫切換，既保證了性能，又提高了計算效率。該技術適用於需要處理長文本的任務，如文檔分析、代碼生成等，能夠顯著降低計算成本，同時保持模型的高性能表現。MoBA 的開源實現為研究人員和開發者提供了強大的工具，推動了大語言模型在長文本處理領域的應用。

模型訓練與部署

MNN 大模型 Android App

MNN 大模型 Android App

MNN 大模型 Android App 是阿里巴巴開發的一款基於大語言模型（LLM）的安卓應用。它支持多種模態輸入和輸出，包括文本生成、圖像識別、音頻轉錄等。該應用通過優化推理性能，確保在移動設備上高效運行，同時保護用戶數據隱私，所有處理均在本地完成。它支持多種領先的模型提供商，如 Qwen、Gemma、Llama 等，適用於多種場景。

Baichuan-M1-14B

Baichuan M1 14B

Baichuan-M1-14B 是由百川智能開發的開源大語言模型，專為醫療場景優化。它基於20萬億token的高質量醫療與通用數據訓練，覆蓋20多個醫療科室，具備強大的上下文理解和長序列任務表現能力。該模型在醫療領域表現出色，同時在通用任務中也達到了同尺寸模型的效果。其創新的模型結構和訓練方法使其在醫療推理、病症判斷等複雜任務中表現出色，為醫療領域的人工智能應用提供了強大的支持。

Doubao-1.5-pro

Doubao-1.5-pro 是由豆包團隊開發的高性能稀疏 MoE（Mixture of Experts）大語言模型。該模型通過訓練-推理一體化設計，實現了模型性能與推理性能的極致平衡。它在多個公開評測基準上表現出色，尤其在推理效率和多模態能力方面具有顯著優勢。該模型適用於需要高效推理和多模態交互的場景，如自然語言處理、圖像識別和語音交互等。其技術背景基於稀疏激活的 MoE 架構，通過優化激活參數比例和訓練算法，實現了比傳統稠密模型更高的性能槓桿。此外，該模型還支持動態調整參數，以適應不同的應用場景和成本需求。

PaSa

PaSa 是由字節跳動開發的一種先進學術論文搜索代理，基於大語言模型（LLM）技術，能夠自主調用搜索工具、閱讀論文並篩選相關參考文獻，以獲取複雜學術查詢的全面準確結果。該技術通過強化學習優化，使用合成數據集 AutoScholarQuery 進行訓練，並在真實世界查詢數據集 RealScholarQuery 上表現出色，顯著優於傳統搜索引擎和基於 GPT 的方法。PaSa 的主要優勢在於其高召回率和精準率，能夠為研究人員提供更高效的學術搜索體驗。

VITA-1.5

VITA-1.5 是一款開源的多模態大語言模型，旨在實現接近即時的視覺和語音交互。它通過顯著降低交互延遲和提升多模態性能，為用戶提供更流暢的交互體驗。該模型支持英語和中文，適用於多種應用場景，如圖像識別、語音識別和自然語言處理等。其主要優點包括高效的語音處理能力和強大的多模態理解能力。

InternVL2-8B-MPO

Internvl2 8B MPO

InternVL2-8B-MPO是一個多模態大語言模型（MLLM），通過引入混合偏好優化（MPO）過程，增強了模型的多模態推理能力。該模型在數據方面設計了自動化的偏好數據構建管線，並構建了MMPR這一大規模多模態推理偏好數據集。在模型方面，InternVL2-8B-MPO基於InternVL2-8B初始化，並使用MMPR數據集進行微調，展現出更強的多模態推理能力，且幻覺現象更少。該模型在MathVista上取得了67.0%的準確率，超越InternVL2-8B 8.7個點，且表現接近於大10倍的InternVL2-76B。

FlagEval

FlagEval是一個模型評測平臺，專注於大語言模型和多模態模型的評測。它提供了一個公正、透明的環境，讓不同的模型在同一標準下進行比較，幫助研究者和開發者瞭解模型性能，推動人工智能技術的發展。該平臺涵蓋了對話模型、視覺語言模型等多種模型類型，支持開源和閉源模型的評測，並提供專項評測如K12學科測驗和金融量化交易評測。

ChatHi

ChatHi是一個多功能AI智能助手平臺，提供包括文案創作、知識問答、代碼編程、邏輯推演、數理推算等服務。平臺依託於先進的大語言模型技術，如天工大模型、Claude系列模型以及G-3.5、G-4.0等，旨在提升用戶工作效率和信息處理能力。產品背景信息顯示，ChatHi由中國公司崑崙萬維自研，對標國際先進的ChatGPT技術，具有強大的本土化優勢和價格競爭力。

卡卡字幕助手

卡卡字幕助手

卡卡字幕助手（VideoCaptioner）是一款功能強大的視頻字幕配製軟件，利用大語言模型進行字幕智能斷句、校正、優化、翻譯，實現字幕視頻全流程一鍵處理。產品無需高配置，操作簡單，內置基礎LLM模型，保證開箱即用，且消耗模型Token少，適合視頻製作者和內容創作者。

FakeShield

FakeShield是一個多模態框架，旨在解決圖像檢測和定位（IFDL）領域中的兩個主要挑戰：檢測原理的黑箱性和在不同篡改方法間的有限泛化能力。FakeShield通過利用GPT-4o增強現有的IFDL數據集，創建了多模態篡改描述數據集（MMTD-Set），用於訓練FakeShield的篡改分析能力。該框架包括領域標籤引導的可解釋檢測模塊（DTE-FDM）和定位模塊（MFLM），能夠處理各種類型的篡改檢測解釋，並實現由詳細文本描述引導的定位。FakeShield在檢測準確性和F1分數上優於其他方法，提供了一個可解釋且優越的解決方案。

awesome-LLM-resourses

Awesome LLM Resourses

awesome-LLM-resourses是一個彙總了全球大語言模型（LLM）資源的平臺，提供了從數據獲取、微調、推理、評估到實際應用等一系列資源和工具。它的重要性在於為研究人員和開發者提供了一個全面的資源庫，以便於他們能夠更高效地開發和優化自己的語言模型。該平臺由王榮勝維護，持續更新，為LLM領域的發展提供了強有力的支持。

AI工具網址目錄

VirtualWife

VirtualWife是一個虛擬數字人項目，旨在打造一個擁有自己“靈魂”的虛擬伴侶。該項目支持B站直播，並且兼容openai、ollama等大語言模型。VirtualWife不僅能夠提供情感陪伴，還能作為戀愛導師和心理諮詢師，滿足人類的情感需求。項目處於孵化階段，作者投入了大量的業餘時間進行開發，希望用戶能夠通過點star來支持項目的發展。

Open-O1

Open O1是一個開源項目，旨在通過開源創新，匹配專有的強大O1模型能力。該項目通過策劃一組O1風格的思考數據，用於訓練LLaMA和Qwen模型，賦予了這些較小模型更強大的長期推理和解決問題的能力。隨著Open O1項目的推進，我們將繼續推動大型語言模型的可能性，我們的願景是創建一個不僅能夠實現類似O1的性能，而且在測試時擴展性方面也處於領先地位的模型，使高級AI能力為所有人所用。通過社區驅動的開發和對道德實踐的承諾，Open O1將成為AI進步的基石，確保技術的未來發展是開放的，並對所有人有益。

Diabetica

Diabetica是一個專門針對糖尿病治療和護理而開發的高級語言模型。它通過深度學習和大數據分析，能夠提供包括診斷、治療建議、藥物管理、生活方式建議和患者教育在內的多種服務。Diabetica的模型Diabetica-7B和Diabetica-1.5B在多個糖尿病相關任務上展示了卓越的性能，並且提供了一個可復現的框架，使得其他醫學領域也能受益於此類AI技術。

WaveCoder

WaveCoder是由微軟亞洲研究院開發的代碼大語言模型，通過指令微調增強代碼大語言模型的廣泛性和多功能性。它在代碼摘要、生成、翻譯、修復等多個編程任務上展現出卓越的性能。WaveCoder的創新之處在於其使用的數據合成框架和兩階段指令數據生成策略，確保了數據的高質量和多樣性。該模型的開源，為開發者提供了一個強大的編程輔助工具，有助於提高開發效率和代碼質量。

RD-Agent

RD-Agent是微軟亞洲研究院推出的一款自動化研究與開發工具，依託大語言模型的強大能力，開創了以人工智能驅動R&D流程自動化的新模式。它通過整合數據驅動的R&D系統，可以藉助人工智能能力驅動創新與開發的自動化，不僅提高了研發效率，還利用智能化的決策和反饋機制，為未來的跨領域創新與知識遷移提供了無限可能。

PresentationGen

Presentationgen

PresentationGen是一個基於SpringBoot框架開發的Web應用程序，它通過集成大語言模型（LLM）來自動化生成PPT文件。該技術通過預處理大量單頁模板，並在用戶使用時根據需求即時組合，實現快速生成PPTX文件。它支持文本替換，使得生成的演示文稿更加個性化和專業。該產品主要面向需要快速製作演示文稿的用戶，如商務人士、教育工作者和設計師，幫助他們節省時間並提高工作效率。

AI演示幻燈片

漢王天地大模型

漢王天地大模型

漢王天地大模型是漢王科技推出的一款專注於人工智能領域的大語言模型，擁有30年的行業積累。它能夠實現多輪對話，高效處理任務，並深耕辦公、教育、人文等多個垂直細分領域。該模型通過從人類反饋中進行強化學習，不斷優化自身智能，提供包括智能校對、自動翻譯、法律諮詢、繪畫生成、文案生成等在內的多樣化服務，以賦能法律、人文、辦公、教育、醫養等行業，提升效率和創意。

AMchat

AMchat是一個集成了數學知識和高等數學習題及其解答的大語言模型。它基於InternLM2-Math-7B模型，通過xtuner微調，專門設計用於解答高等數學問題。該項目在2024浦源大模型系列挑戰賽（春季賽）中獲得Top12和創新創意獎，體現了其在高等數學領域的專業能力和創新性。

Index-1.9B

Index-1.9B系列是嗶哩嗶哩公司自主研發的輕量級大語言模型，包含多種版本，如base、pure、chat和character等，適用於中英文為主的語料預訓練，並在多個評測基準上表現優異。模型支持SFT和DPO對齊，以及RAG技術實現角色扮演定製，適用於對話生成、角色扮演等場景。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase