語言模型

# 語言模型

BrAIs

BrAIs是一個平臺，允許用戶結構化和管理與語言模型的交互。它旨在提高非技術用戶的語言模型體驗，幫助用戶節省時間並減少摩擦。

DeerFlow

DeerFlow 是一個深度研究框架，旨在結合語言模型與如網頁搜索、爬蟲及 Python 執行等專用工具，以推動深入研究工作。該項目源於開源社區，強調貢獻回饋，具備多種靈活的功能，適合各類研究需求。

Search-R1 是一個強化學習框架，旨在訓練能夠進行推理和調用搜索引擎的語言模型（LLMs）。它基於 veRL 構建，支持多種強化學習方法和不同的 LLM 架構，使得在工具增強的推理研究和開發中具備高效性和可擴展性。

模型訓練與部署

Llama 3.1 Nemotron Ultra 253B

Llama 3.1 Nemotron Ultra 253B

Llama-3.1-Nemotron-Ultra-253B-v1 是一個基於 Llama-3.1-405B-Instruct 的大型語言模型，經過多階段的後訓練以提升推理和聊天能力。該模型支持高達 128K 的上下文長度，具備較好的準確性和效率平衡，適用於商業用途，旨在為開發者提供強大的 AI 助手功能。

Fin-R1

Fin-R1 是一個專為金融領域設計的大型語言模型，旨在提升金融推理能力。由上海財經大學和財躍星辰聯合研發，基於 Qwen2.5-7B-Instruct 進行微調和強化學習，具有高效的金融推理能力，適用於銀行、證券等核心金融場景。該模型免費開源，便於用戶使用和改進。

Jamba 1.6

Jamba 1.6 是 AI21 推出的最新語言模型，專為企業私有部署而設計。它在長文本處理方面表現出色，能夠處理長達 256K 的上下文窗口，採用混合 SSM-Transformer 架構，可高效準確地處理長文本問答任務。該模型在質量上超越了 Mistral、Meta 和 Cohere 等同類模型，同時支持靈活的部署方式，包括在本地或 VPC 中私有部署，確保數據安全。它為企業提供了一種無需在數據安全和模型質量之間妥協的解決方案，適用於需要處理大量數據和長文本的場景，如研發、法律和金融分析等。目前，Jamba 1.6 已在多個企業中得到應用，如 Fnac 使用其進行數據分類，Educa Edtech 利用其構建個性化聊天機器人等。

Inception Labs

Inception Labs 是一家專注於開發擴散式大語言模型（dLLMs）的公司。其技術靈感來源於先進的圖像和視頻生成系統，如 Midjourney 和 Sora。通過擴散模型，Inception Labs 提供了比傳統自迴歸模型快 5-10 倍的速度、更高的效率和更強的生成控制能力。其模型支持並行文本生成，能夠糾正錯誤和幻覺，適合多模態任務，並且在推理和結構化數據生成方面表現出色。公司由斯坦福、UCLA 和康奈爾大學的研究人員和工程師組成，是擴散模型領域的先驅。

OpenManus

OpenManus 是一個開源的智能代理項目，旨在通過開源的方式實現類似於 Manus 的功能，但無需邀請碼即可使用。該項目由多個開發者共同開發，基於強大的語言模型和靈活的插件系統，能夠快速實現各種複雜的任務。OpenManus 的主要優點是開源、免費且易於擴展，適合開發者和研究人員進行二次開發和研究。項目背景源於對現有智能代理工具的改進需求，目標是打造一個完全開放且易於使用的智能代理平臺。

Instella

Instella 是由 AMD GenAI 團隊開發的一系列高性能開源語言模型，基於 AMD Instinct™ MI300X GPU 訓練而成。該模型在性能上顯著優於同尺寸的其他開源語言模型，並且在功能上與 Llama-3.2-3B 和 Qwen2.5-3B 等模型相媲美。Instella 提供模型權重、訓練代碼和訓練數據，旨在推動開源語言模型的發展。其主要優點包括高性能、開源開放以及對 AMD 硬件的優化支持。

GPT-4.5

GPT-4.5是OpenAI發佈的最新語言模型，代表了當前無監督學習技術的前沿水平。該模型通過大規模計算和數據訓練，提升了對世界知識的理解和模式識別能力，減少了幻覺現象，能夠更自然地與人類進行交互。它在寫作、編程、解決問題等任務上表現出色，尤其適合需要高創造力和情感理解的場景。GPT-4.5目前處於研究預覽階段，面向Pro用戶和開發者開放，旨在探索其潛在能力。

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash Lite

Gemini 2.0 Flash-Lite 是 Google 推出的高效語言模型，專為長文本處理和複雜任務優化。它在推理、多模態、數學和事實性基準測試中表現出色，具備簡化的價格策略，使得百萬級上下文窗口更加經濟實惠。Gemini 2.0 Flash-Lite 已在 Google AI Studio 和 Vertex AI 中全面開放，適合企業級生產使用。

Phi-4-mini-instruct

Phi 4 Mini Instruct

Phi-4-mini-instruct 是微軟推出的一款輕量級開源語言模型，屬於 Phi-4 模型家族。它基於合成數據和經過篩選的公開網站數據進行訓練，專注於高質量、推理密集型數據。該模型支持 128K 令牌上下文長度，並通過監督微調和直接偏好優化來增強指令遵循能力和安全性。Phi-4-mini-instruct 在多語言支持、推理能力（尤其是數學和邏輯推理）以及低延遲場景下表現出色，適用於資源受限的環境。該模型於 2025 年 2 月發佈，支持多種語言，包括英語、中文、日語等。

DeepSeek Japanese

Deepseek Japanese

DeepSeek 是由 High-Flyer 基金支持的中國 AI 實驗室開發的先進語言模型，專注於開源模型和創新訓練方法。其 R1 系列模型在邏輯推理和問題解決方面表現出色，採用強化學習和混合專家框架優化性能，以低成本實現高效訓練。DeepSeek 的開源策略推動了社區創新，同時引發了關於 AI 競爭和開源模型影響力的行業討論。其免費且無需註冊的使用方式進一步降低了用戶門檻，適合廣泛的應用場景。

AlphaMaze-v0.2-1.5B

Alphamaze V0.2 1.5B

AlphaMaze 是一個專注於提升大型語言模型（LLM）視覺推理能力的項目。它通過文本形式描述的迷宮任務來訓練模型，使其能夠理解和規劃空間結構。這種方法不僅避免了複雜的圖像處理，還通過文本描述直接評估模型的空間理解能力。其主要優點是能夠揭示模型如何思考空間問題，而不僅僅是能否解決問題。該模型基於開源框架，旨在推動語言模型在視覺推理領域的研究和發展。

AlphaMaze

AlphaMaze 是一款專為解決視覺推理任務而設計的解碼器語言模型。它通過針對迷宮解謎任務的訓練，展示了語言模型在視覺推理方面的潛力。該模型基於 15 億參數的 Qwen 模型構建，並通過監督微調（SFT）和強化學習（RL）進行訓練。其主要優點在於能夠將視覺任務轉化為文本格式進行推理，從而彌補傳統語言模型在空間理解上的不足。該模型的開發背景是提升 AI 在視覺任務上的表現，尤其是在需要逐步推理的場景中。目前，AlphaMaze 作為研究項目，暫未明確其商業化定價和市場定位。

Smithery

Smithery是一個基於Model Context Protocol的平臺，允許用戶通過連接各種服務器來擴展語言模型的功能。它為用戶提供了一個靈活的工具集，能夠根據需求動態增強語言模型的能力，從而更好地完成各種任務。該平臺的核心優勢在於其模塊化和可擴展性，用戶可以根據自己的需求選擇合適的服務器進行集成。

Moonlight-16B-A3B

Moonlight 16B A3B

Moonlight-16B-A3B 是由 Moonshot AI 開發的一種大規模語言模型，採用先進的 Muon 優化器進行訓練。該模型通過優化訓練效率和性能，顯著提升了語言生成的能力。其主要優點包括高效的優化器設計、較少的訓練 FLOPs 和卓越的性能表現。該模型適用於需要高效語言生成的場景，如自然語言處理、代碼生成和多語言對話等。其開源的實現和預訓練模型為研究人員和開發者提供了強大的工具。

DeepHermes-3-Llama-3-8B-Preview

Deephermes 3 Llama 3 8B Preview

DeepHermes 3 是 NousResearch 開發的先進語言模型，能夠通過系統性推理提升回答準確性。它支持推理模式和常規響應模式，用戶可以通過系統提示切換。該模型在多輪對話、角色扮演、推理等方面表現出色，旨在為用戶提供更強大和靈活的語言生成能力。模型基於 Llama-3.1-8B 微調，參數量達 80.3 億，支持多種應用場景，如推理、對話、函數調用等。

聊天機器人

Lora

Lora 是一款為移動設備優化的本地語言模型，通過其 SDK 可以快速集成到移動應用中。它支持 iOS 和 Android 平臺，性能與 GPT-4o-mini 相當，擁有 1.5GB 大小和 24 億參數，專為即時移動推理進行了優化。Lora 的主要優點包括低能耗、輕量化和快速響應，相比其他模型，它在能耗、體積和速度上都有顯著優勢。Lora 由 PeekabooLabs 提供，主要面向開發者和企業客戶，幫助他們快速將先進的語言模型能力集成到移動應用中，提升用戶體驗和應用競爭力。

PaliGemma 2 mix

Paligemma 2 Mix

PaliGemma 2 mix 是 Google 推出的升級版視覺語言模型，屬於 Gemma 家族。它能夠處理多種視覺和語言任務，如圖像分割、視頻字幕生成、科學問題回答等。該模型提供不同大小的預訓練檢查點（3B、10B 和 28B 參數），可輕鬆微調以適應各種視覺語言任務。其主要優點是多功能性、高性能和開發者友好性，支持多種框架（如 Hugging Face Transformers、Keras、PyTorch 等）。該模型適用於需要高效處理視覺和語言任務的開發者和研究人員，能夠顯著提升開發效率。

Mistral Saba

Mistral Saba 是 Mistral AI 推出的首個專門針對中東和南亞地區的定製化語言模型。該模型擁有 240 億參數，通過精心策劃的數據集進行訓練，能夠提供比同類大型模型更準確、更相關且更低成本的響應。它支持阿拉伯語和多種印度起源語言，尤其擅長南印度語言（如泰米爾語），適用於需要精準語言理解和文化背景支持的場景。Mistral Saba 可通過 API 使用，也可本地部署，具有輕量化、單 GPU 系統部署和快速響應的特點，適合企業級應用。

OLMoE app

OLMoE 是由 Ai2 開發的開源語言模型應用，旨在為研究人員和開發者提供一個完全開放的工具包，用於在設備上進行人工智能實驗。該應用支持在 iPhone 和 iPad 上離線運行，確保用戶數據完全私密。它基於高效的 OLMoE 模型構建，通過優化和量化，使其在移動設備上運行時保持高性能。該應用的開源特性使其成為研究和開發新一代設備端人工智能應用的重要基礎。

模型訓練與部署

podscript

Podscript 是一個強大的音頻轉錄工具，它利用語言模型和語音到文本（STT）API，為播客和其他音頻內容生成高質量的轉錄文本。該工具支持多種流行的STT服務，如Deepgram、AssemblyAI和Groq，並且可以處理YouTube視頻的自動生成字幕。Podscript的主要優點是其靈活性和易用性，用戶可以通過簡單的命令行界面或方便的Web界面來操作。它適用於播客創作者、內容製作者以及需要快速轉錄音頻的用戶。Podscript是開源的，用戶可以根據自己的需求進行定製和擴展。

語音轉文本

Xwen-Chat

Xwen-Chat由xwen-team開發，為滿足高質量中文對話模型需求而生，填補領域空白。其有多個版本，具備強大語言理解與生成能力，可處理複雜語言任務，生成自然對話內容，適用於智能客服等場景，在Hugging Face平臺免費提供。

聊天機器人

LLM Codenames

LLM Codenames 是一個基於語言模型的創意命名工具。它利用先進的自然語言處理技術，能夠根據用戶輸入的關鍵詞或主題，快速生成一系列獨特且富有創意的名稱。這種工具對於需要進行品牌命名、產品命名或創意寫作的用戶來說非常實用。它可以幫助用戶節省大量時間和精力，避免命名過程中的重複勞動。LLM Codenames 的主要優點是其高效性和創意性，能夠提供多樣化的命名選擇，滿足不同用戶的需求。該工具目前以網站形式提供服務，用戶可以通過瀏覽器直接訪問使用，無需安裝任何軟件。

Deeptrain

Deeptrain 是一個專注於視頻處理的平臺，旨在將視頻內容無縫集成到語言模型和AI代理中。通過其強大的視頻處理技術，用戶可以像使用文本和圖像一樣輕鬆地利用視頻內容。該產品支持超過200種語言模型，包括GPT-4o、Gemini等，並且支持多語言視頻處理。Deeptrain 提供免費的開發支持，僅在生產環境中使用時才收費，這使得它成為開發AI應用的理想選擇。其主要優點包括強大的視頻處理能力、多語言支持以及與主流語言模型的無縫集成。

Exa & Deepseek Chat App

Exa & Deepseek Chat App

Exa & Deepseek Chat App是一個開源的聊天應用，旨在通過Exa的API進行即時網絡搜索，並結合Deepseek R1語言模型進行推理，以提供更準確的聊天體驗。該應用基於Next.js、TailwindCSS和TypeScript構建，使用Vercel進行託管。它允許用戶在聊天中獲取最新的網絡信息，並通過強大的語言模型進行智能對話。該應用免費開源，適合開發者和企業用戶使用，可作為聊天工具的開發基礎。

聊天機器人

DeepSeek-R1-Distill-Llama-8B

Deepseek R1 Distill Llama 8B

DeepSeek-R1-Distill-Llama-8B 是 DeepSeek 團隊開發的高性能語言模型，基於 Llama 架構並經過強化學習和蒸餾優化。該模型在推理、代碼生成和多語言任務中表現出色，是開源社區中首個通過純強化學習提升推理能力的模型。它支持商業使用，允許修改和衍生作品，適合學術研究和企業應用。

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3

Qwq 32B Preview Gptqmodel 4bit Vortex V3

該產品是一個基於Qwen2.5-32B的4位量化語言模型，通過GPTQ技術實現高效推理和低資源消耗。它在保持較高性能的同時，顯著降低了模型的存儲和計算需求，適合在資源受限的環境中使用。該模型主要面向需要高性能語言生成的應用場景，如智能客服、編程輔助、內容創作等。其開源許可和靈活的部署方式使其在商業和研究領域具有廣泛的應用前景。

聊天機器人

ReaderLM v2

ReaderLM v2是由Jina AI推出的參數量為1.5B的小型語言模型，專門用於HTML轉Markdown轉換和HTML轉JSON提取，具有卓越的準確性。該模型支持29種語言，能處理高達512K個token的輸入和輸出組合長度。它採用了新的訓練範式和更高質量的訓練數據，較前代產品在處理長文本內容和生成Markdown語法方面有重大進步，能熟練運用Markdown語法，擅長生成複雜元素。此外，ReaderLM v2還引入了直接HTML轉JSON生成功能，允許用戶根據給定的JSON架構從原始HTML中提取特定信息，消除了中間Markdown轉換需求。

開發與工具

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase