開源模型

# 開源模型

CameraBench

CameraBench 是一個用於分析視頻中相機運動的模型，旨在通過視頻理解相機的運動模式。它的主要優點在於利用生成性視覺語言模型進行相機運動的原理分類和視頻文本檢索。通過與傳統的結構從運動 (SfM) 和即時定位與*構建 (SLAM) 方法進行比較，該模型在捕捉場景語義方面顯示出了顯著的優勢。該模型已開源，適合研究人員和開發者使用，且後續將推出更多改進版本。

HiDream-I1

HiDream-I1 是一款新型的開源圖像生成基礎模型，擁有 170 億個參數，能夠在幾秒內生成高質量圖像。該模型適用於研究和開發，並在多個評測中表現優異，具有高效性和靈活性，適合用於各種創意設計和生成任務。

Together Chat

Together Chat 是一個安全的 AI 聊天平臺，提供 100 條免費消息每天，適合需要私密對話和高質量交互的用戶。它以 North America 為服務器地點，確保用戶信息安全。

聊天機器人

Wan 2.1 AI

Wan 2.1 AI 是由阿里巴巴開發的開源大規模視頻生成 AI 模型。它支持文本到視頻（T2V）和圖像到視頻（I2V）的生成，能夠將簡單的輸入轉化為高質量的視頻內容。該模型在視頻生成領域具有重要意義，能夠極大地簡化視頻創作流程，降低創作門檻，提高創作效率，為用戶提供豐富多樣的視頻創作可能性。其主要優點包括高質量的視頻生成效果、複雜動作的流暢展現、逼真的物理模擬以及豐富的藝術風格等。目前該產品已完全開源，用戶可以免費使用其基礎功能，對於有視頻創作需求但缺乏專業技能或設備的個人和企業來說，具有很高的實用價值。

CSM 1B

CSM 1B 是一個基於 Llama 架構的語音生成模型，能夠從文本和音頻輸入中生成 RVQ 音頻代碼。該模型主要應用於語音合成領域，具有高質量的語音生成能力。其優勢在於能夠處理多說話人的對話場景，並通過上下文信息生成自然流暢的語音。該模型開源，旨在為研究和教育目的提供支持，但明確禁止用於冒充、欺詐或非法活動。

Gemma 3

Gemma 3 是 Google 推出的最新開源模型，基於 Gemini 2.0 的研究和技術開發。它是一個輕量級、高性能的模型，能夠在單個 GPU 或 TPU 上運行，為開發者提供強大的 AI 能力。Gemma 3 提供多種尺寸（1B、4B、12B 和 27B），支持超過 140 種語言，並具備先進的文本和視覺推理能力。其主要優點包括高性能、低計算需求以及廣泛的多語言支持，適合在各種設備上快速部署 AI 應用。Gemma 3 的推出旨在推動 AI 技術的普及和創新，幫助開發者在不同硬件平臺上實現高效開發。

HunyuanVideo-I2V

Hunyuanvideo I2V

HunyuanVideo-I2V 是騰訊開源的圖像到視頻生成模型，基於 HunyuanVideo 架構開發。該模型通過圖像潛在拼接技術，將參考圖像信息有效整合到視頻生成過程中，支持高分辨率視頻生成，並提供可定製的 LoRA 效果訓練功能。該技術在視頻創作領域具有重要意義，能夠幫助創作者快速生成高質量的視頻內容，提升創作效率。

Wan2.1-T2V-14B

Wan2.1-T2V-14B 是一款先進的文本到視頻生成模型，基於擴散變換器架構，結合了創新的時空變分自編碼器（VAE）和大規模數據訓練。它能夠在多種分辨率下生成高質量的視頻內容，支持中文和英文文本輸入，並在性能和效率上超越現有的開源和商業模型。該模型適用於需要高效視頻生成的場景，如內容創作、廣告製作和視頻編輯等。目前該模型在 Hugging Face 平臺上免費提供，旨在推動視頻生成技術的發展和應用。

Wan

Wan是阿里巴巴通義實驗室開發的先進視覺生成模型，具備強大的視頻生成能力。它能夠根據文本、圖像及其他控制信號生成視頻。Wan2.1系列模型現已完全開源。其主要優點包括卓越的複雜運動生成能力，能夠生成逼真的視頻，涵蓋廣泛的身體動作、複雜旋轉、動態場景轉換和流暢的鏡頭運動；精準的物理模擬，生成符合真實物理規律的視頻；電影質感的畫面，提供豐富的紋理和多樣化的風格化效果；可控的編輯功能，支持使用圖像或視頻參考進行精確編輯。該模型的開源為視頻生成領域帶來了新的可能性，降低了使用門檻，推動了相關技術的發展。

PIKE-RAG

PIKE-RAG 是微軟開發的一種領域知識和推理增強生成模型，旨在通過知識提取、存儲和推理邏輯增強大型語言模型（LLM）的能力。該模型通過多模塊設計，能夠處理複雜的多跳問答任務，並在工業製造、礦業和製藥等領域顯著提升了問答準確性。PIKE-RAG 的主要優點包括高效的知識提取能力、強大的多源信息整合能力和多步推理能力，使其在需要深度領域知識和複雜邏輯推理的場景中表現出色。

SkyReels-V1-Hunyuan-I2V

Skyreels V1 Hunyuan I2V

SkyReels V1 是一個基於 HunyuanVideo 微調的人類中心視頻生成模型。它通過高質量影視片段訓練，能夠生成具有電影級質感的視頻內容。該模型在開源領域達到了行業領先水平，尤其在面部表情捕捉和場景理解方面表現出色。其主要優點包括開源領先性、先進的面部動畫技術和電影級光影美學。該模型適用於需要高質量視頻生成的場景，如影視製作、廣告創作等，具有廣泛的應用前景。

SkyReels-V1

SkyReels-V1 是一個開源的人類中心視頻基礎模型，基於高質量影視片段微調，專注於生成高質量的視頻內容。該模型在開源領域達到了頂尖水平，與商業模型相媲美。其主要優勢包括：高質量的面部表情捕捉、電影級的光影效果以及高效的推理框架 SkyReelsInfer，支持多 GPU 並行處理。該模型適用於需要高質量視頻生成的場景，如影視製作、廣告創作等。

DeepScaleR-1.5B-Preview

Deepscaler 1.5B Preview

DeepScaleR-1.5B-Preview 是一個經過強化學習優化的大型語言模型，專注於提升數學問題解決能力。該模型通過分佈式強化學習算法，顯著提高了在長文本推理場景下的準確率。其主要優點包括高效的訓練策略、顯著的性能提升以及開源的靈活性。該模型由加州大學伯克利分校的 Sky Computing Lab 和 Berkeley AI Research 團隊開發，旨在推動人工智能在教育領域的應用，尤其是在數學教育和競賽數學領域。模型採用 MIT 開源許可，完全免費供研究人員和開發者使用。

Lumina-Video

Lumina-Video 是 Alpha-VLLM 團隊開發的一個視頻生成模型，主要用於從文本生成高質量的視頻內容。該模型基於深度學習技術，能夠根據用戶輸入的文本提示生成對應的視頻，具有高效性和靈活性。它在視頻生成領域具有重要意義，為內容創作者提供了強大的工具，能夠快速生成視頻素材。目前該項目已開源，支持多種分辨率和幀率的視頻生成，並提供了詳細的安裝和使用指南。

Zonos-v0.1

Zonos-v0.1 是 Zyphra 團隊開發的即時文本轉語音（TTS）模型，具備高保真語音克隆功能。該模型包含一個 1.6B 參數的 Transformer 模型和一個 1.6B 參數的混合模型（Hybrid），均在 Apache 2.0 開源許可下發布。它能夠根據文本提示生成自然、富有表現力的語音，並支持多種語言。此外，Zonos-v0.1 還可以通過 5 到 30 秒的語音片段實現高質量的語音克隆，並且可以根據說話速度、音調、音質和情緒等條件進行調整。其主要優點是生成質量高、支持即時交互，並且提供了靈活的語音控制功能。該模型的發佈旨在推動 TTS 技術的研究和發展。

Hibiki

Hibiki 是一款專注於流式語音翻譯的先進模型。它通過即時積累足夠的上下文信息來逐塊生成正確的翻譯，支持語音和文本翻譯，並可進行聲音轉換。該模型基於多流架構，能夠同時處理源語音和目標語音，生成連續的音頻流和時間戳文本翻譯。其主要優點包括高保真語音轉換、低延遲即時翻譯以及對複雜推理策略的兼容性。Hibiki 目前支持法語到英語的翻譯，適合需要高效即時翻譯的場景，如國際會議、多語言直播等。模型開源免費，適合開發者和研究人員使用。

Qwen2.5-1M

Qwen2.5-1M 是一款開源的人工智能語言模型，專為處理長序列任務而設計，支持最多100萬Token的上下文長度。該模型通過創新的訓練方法和技術優化，顯著提升了長序列處理的性能和效率。它在長上下文任務中表現出色，同時保持了短文本任務的性能，是現有長上下文模型的優秀開源替代。該模型適用於需要處理大量文本數據的場景，如文檔分析、信息檢索等，能夠為開發者提供強大的語言處理能力。

BEN2

BEN2（Background Erase Network）是一個創新的圖像分割模型，採用了Confidence Guided Matting（CGM）流程。它通過一個細化網絡專門處理模型置信度較低的像素，從而實現更精確的摳圖效果。BEN2在頭髮摳圖、4K圖像處理、目標分割和邊緣細化方面表現出色。其基礎模型是開源的，用戶可以通過API或Web演示免費試用完整模型。該模型訓練數據包括DIS5k數據集和22K專有分割數據集，能夠滿足多種圖像處理需求。

YuE

YuE 是由香港科技大學和多模態藝術投影團隊開發的開源音樂生成模型。它能夠根據給定的歌詞生成長達 5 分鐘的完整歌曲，包括人聲和伴奏部分。該模型通過多種技術創新，如語義增強音頻標記器、雙標記技術和歌詞鏈式思考等，解決了歌詞到歌曲生成的複雜問題。YuE 的主要優點是能夠生成高質量的音樂作品，並且支持多種語言和音樂風格，具有很強的可擴展性和可控性。該模型目前免費開源，旨在推動音樂生成技術的發展。

Llasa-1B

Llasa-1B 是一個由香港科技大學音頻實驗室開發的文本轉語音模型。它基於 LLaMA 架構，通過結合 XCodec2 代碼本中的語音標記，能夠將文本轉換為自然流暢的語音。該模型在 25 萬小時的中英文語音數據上進行了訓練，支持從純文本生成語音，也可以利用給定的語音提示進行合成。其主要優點是能夠生成高質量的多語言語音，適用於多種語音合成場景，如有聲讀物、語音助手等。該模型採用 CC BY-NC-ND 4.0 許可證，禁止商業用途。

文本轉聲音

Llasa-3B

Llasa-3B 是一個強大的文本到語音（TTS）模型，基於 LLaMA 架構開發，專注於中英文語音合成。該模型通過結合 XCodec2 的語音編碼技術，能夠將文本高效地轉換為自然流暢的語音。其主要優點包括高質量的語音輸出、支持多語言合成以及靈活的語音提示功能。該模型適用於需要語音合成的多種場景，如有聲讀物製作、語音助手開發等。其開源性質也使得開發者可以自由探索和擴展其功能。

文本轉聲音

MiniRAG

MiniRAG是一個針對小型語言模型設計的檢索增強生成系統，旨在簡化RAG流程並提高效率。它通過語義感知的異構圖索引機制和輕量級的拓撲增強檢索方法，解決了小型模型在傳統RAG框架中性能受限的問題。該模型在資源受限的場景下具有顯著優勢，如在移動設備或邊緣計算環境中。MiniRAG的開源特性也使其易於被開發者社區接受和改進。

模型訓練與部署

MatterGen

MatterGen是微軟研究院推出的一種生成式AI工具，用於材料設計。它能夠根據應用的設計要求直接生成具有特定化學、機械、電子或磁性屬性的新型材料，為材料探索提供了新的範式。該工具的出現有望加速新型材料的研發進程，降低研發成本，並在電池、太陽能電池、CO2吸附劑等領域發揮重要作用。目前，MatterGen的源代碼已在GitHub上開源，供公眾使用和進一步開發。

Kokoro-82M

Kokoro-82M是一個由hexgrad創建並託管在Hugging Face上的文本到語音（TTS）模型。它具有8200萬參數，使用Apache 2.0許可證開源。該模型在2024年12月25日發佈了v0.19版本，並提供了10種獨特的語音包。Kokoro-82M在TTS Spaces Arena中排名第一，顯示出其在參數規模和數據使用上的高效性。它支持美國英語和英國英語，可用於生成高質量的語音輸出。

文本轉聲音

Llama-3-Patronus-Lynx-8B-Instruct

Llama 3 Patronus Lynx 8B Instruct

Llama-3-Patronus-Lynx-8B-Instruct是由Patronus AI開發的一個基於meta-llama/Meta-Llama-3-8B-Instruct模型的微調版本，主要用於檢測在RAG設置中的幻覺。該模型訓練於包含CovidQA、PubmedQA、DROP、RAGTruth等多個數據集，包含人工標註和合成數據。它能夠評估給定文檔、問題和答案是否忠實於文檔內容，不提供文檔之外的新信息，也不與文檔信息相矛盾。

模型訓練與部署

Meta Video Seal

Meta Video Seal

Meta Video Seal是一個先進的開源視頻水印模型，能夠在視頻編輯後仍嵌入持久、不可見的水印。隨著AI生成內容的增加，驗證視頻來源變得至關重要。Video Seal通過嵌入隱形水印，即使在視頻被編輯後，也能保持水印的完整性，這對於版權保護和內容驗證具有重要意義。

OLMo-2-1124-13B-Instruct

Olmo 2 1124 13B Instruct

OLMo-2-1124-13B-Instruct是由Allen AI研究所開發的一款大型語言模型，專注於文本生成和對話任務。該模型在多個任務上表現出色，包括數學問題解答、科學問題解答等。它是基於13B參數的版本，經過在特定數據集上的監督微調和強化學習訓練，以提高其性能和安全性。作為一個開源模型，它允許研究人員和開發者探索和改進語言模型的科學。

聊天機器人

OLMo-2-1124-7B-Instruct

Olmo 2 1124 7B Instruct

OLMo-2-1124-7B-Instruct是由Allen人工智能研究所開發的一個大型語言模型，專注於對話生成任務。該模型在多種任務上進行了優化，包括數學問題解答、GSM8K、IFEval等，並在Tülu 3數據集上進行了監督微調。它是基於Transformers庫構建的，可以用於研究和教育目的。該模型的主要優點包括高性能、多任務適應性和開源性，使其成為自然語言處理領域的一個重要工具。

聊天機器人

Allegro-TI2V

Allegro-TI2V是一個文本圖像到視頻生成模型，它能夠根據用戶提供的提示和圖像生成視頻內容。該模型以其開源性、多樣化的內容創作能力、高質量的輸出、小巧高效的模型參數以及支持多種精度和GPU內存優化而受到關注。它代表了當前人工智能技術在視頻生成領域的前沿進展，具有重要的技術價值和商業應用潛力。Allegro-TI2V模型在Hugging Face平臺上提供，遵循Apache 2.0開源協議，用戶可以免費下載和使用。

Llama-3.1-Tulu-3-70B-DPO

Llama 3.1 Tulu 3 70B DPO

Llama-3.1-Tulu-3-70B-DPO是Tülu3模型家族的一部分，專為現代後訓練技術提供全面指南。該模型家族旨在除了聊天之外的多種任務上實現最先進的性能，如MATH、GSM8K和IFEval。它是基於公開可用的、合成的和人為創建的數據集訓練的模型，主要使用英語，並遵循Llama 3.1社區許可協議。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase