# 多模態學習

中文精選
OmniTalker
Omnitalker
OmniTalker 是由阿里巴巴 Tongyi 實驗室提出的一種統一框架,旨在即時生成音頻和視頻,提升人機交互體驗。其創新之處在於解決了傳統文本到語音及語音驅動的視頻生成方法中常見的音視頻不同步、風格不一致及系統複雜性等問題。OmniTalker 採用雙分支擴散變換器架構,能夠在保持高效的同時實現高保真的音視頻輸出。其即時推理速度可達每秒 25 幀,適用於各種交互式視頻聊天應用,提升了用戶體驗。
視頻生成
265.5K
DeepSeek-VL2-Small
Deepseek VL2 Small
DeepSeek-VL2是一系列先進的大型混合專家(MoE)視覺語言模型,相較於前代DeepSeek-VL有顯著提升。該模型系列在視覺問答、光學字符識別、文檔/表格/圖表理解以及視覺定位等多種任務上展現出卓越的能力。DeepSeek-VL2由三種變體組成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分別擁有10億、28億和45億激活參數。DeepSeek-VL2在激活參數相似或更少的情況下,與現有的開源密集型和基於MoE的模型相比,達到了競爭性或最先進的性能。
AI模型
54.4K
MMAudio
Mmaudio
MMAudio是一種多模態聯合訓練技術,旨在高質量的視頻到音頻合成。該技術能夠根據視頻和文本輸入生成同步音頻,適用於各種應用場景,如影視製作、遊戲開發等。其重要性在於提升了音頻生成的效率和質量,適合需要音頻合成的創作者和開發者使用。
視頻生成
58.2K
InternViT-300M-448px-V2_5
Internvit 300M 448px V2 5
InternViT-300M-448px-V2_5是一個基於InternViT-300M-448px的增強版本,通過採用ViT增量學習與NTP損失(Stage 1.5),提升了視覺編碼器提取視覺特徵的能力,尤其是在大規模網絡數據集中代表性不足的領域,如多語言OCR數據和數學圖表等。該模型是InternViT 2.5系列的一部分,保留了與前代相同的“ViT-MLP-LLM”模型架構,並集成了新的增量預訓練的InternViT與各種預訓練的LLMs,如InternLM 2.5和Qwen 2.5,使用隨機初始化的MLP投影器。
AI模型
58.0K
Florence-VL
Florence VL
Florence-VL是一個視覺語言模型,通過引入生成式視覺編碼器和深度廣度融合技術,增強了模型對視覺和語言信息的處理能力。該技術的重要性在於其能夠提升機器對圖像和文本的理解,進而在多模態任務中取得更好的效果。Florence-VL基於LLaVA項目進行開發,提供了預訓練和微調的代碼、模型檢查點和演示。
AI模型
50.2K
LLaVA-o1
Llava O1
LLaVA-o1是北京大學元組團隊開發的一個視覺語言模型,它能夠進行自發的、系統的推理,類似於GPT-o1。該模型在六個具有挑戰性的多模態基準測試中超越了其他模型,包括Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。LLaVA-o1通過逐步推理解決問題,展示了其在視覺語言模型中的獨特優勢。
逐步推理
46.9K
PPLLaVA
Ppllava
PPLLaVA是一個高效的視頻大型語言模型,它結合了細粒度視覺提示對齊、用戶指令的卷積風格池化的視覺令牌壓縮以及CLIP上下文擴展。該模型在VideoMME、MVBench、VideoChatGPT Bench和VideoQA Bench等數據集上建立了新的最先進結果,僅使用1024個視覺令牌,吞吐量提高了8倍。
視頻生成
48.6K
Agent S
Agent S
Agent S是一個開放的代理框架,旨在通過圖形用戶界面(GUI)實現與計算機的自主交互,通過自動化複雜多步驟任務來轉變人機交互。它引入了經驗增強的分層規劃方法,利用在線網絡知識和敘事記憶,從過去的交互中提取高級經驗,將複雜任務分解為可管理的子任務,並使用情景記憶進行逐步指導,Agent S不斷優化其行動並從經驗中學習,實現適應性強且有效的任務規劃。Agent S在OSWorld基準測試中的表現超過了基線9.37%的成功率(相對提高了83.6%),並在WindowsAgentArena基準測試中展示了廣泛的通用性。
智能體
55.8K
FakeShield
Fakeshield
FakeShield是一個多模態框架,旨在解決圖像檢測和定位(IFDL)領域中的兩個主要挑戰:檢測原理的黑箱性和在不同篡改方法間的有限泛化能力。FakeShield通過利用GPT-4o增強現有的IFDL數據集,創建了多模態篡改描述數據集(MMTD-Set),用於訓練FakeShield的篡改分析能力。該框架包括領域標籤引導的可解釋檢測模塊(DTE-FDM)和定位模塊(MFLM),能夠處理各種類型的篡改檢測解釋,並實現由詳細文本描述引導的定位。FakeShield在檢測準確性和F1分數上優於其他方法,提供了一個可解釋且優越的解決方案。
圖片編輯
56.6K
LLaVA-Video
Llava Video
LLaVA-Video是一個專注於視頻指令調優的大型多模態模型(LMMs),通過創建高質量的合成數據集LLaVA-Video-178K來解決從網絡獲取大量高質量原始數據的難題。該數據集包括詳細的視頻描述、開放式問答和多項選擇問答等任務,旨在提高視頻語言模型的理解和推理能力。LLaVA-Video模型在多個視頻基準測試中表現出色,證明了其數據集的有效性。
AI模型
55.8K
NVLM
NVLM
NVLM 1.0是一系列前沿級的多模態大型語言模型(LLMs),在視覺-語言任務上取得了與領先專有模型和開放訪問模型相媲美的先進成果。值得注意的是,NVLM 1.0在多模態訓練後,其文本性能甚至超過了其LLM主幹模型。我們為社區開源了模型權重和代碼。
AI模型
46.9K
LongLLaVA
Longllava
LongLLaVA是一個多模態大型語言模型,通過混合架構高效擴展至1000圖像,旨在提升圖像處理和理解能力。該模型通過創新的架構設計,實現了在大規模圖像數據上的有效學習和推理,對於圖像識別、分類和分析等領域具有重要意義。
AI模型
46.6K
EAGLE
EAGLE
EAGLE是一個面向視覺中心的高分辨率多模態大型語言模型(LLM)系列,通過混合視覺編碼器和不同輸入分辨率來加強多模態LLM的感知能力。該模型包含基於通道連接的'CLIP+X'融合,適用於具有不同架構(ViT/ConvNets)和知識(檢測/分割/OCR/SSL)的視覺專家。EAGLE模型家族支持超過1K的輸入分辨率,並在多模態LLM基準測試中取得了優異的成績,特別是在對分辨率敏感的任務上,如光學字符識別和文檔理解。
AI模型
60.7K
SlowFast-LLaVA
Slowfast LLaVA
SlowFast-LLaVA是一個無需訓練的多模態大型語言模型,專為視頻理解和推理設計。它無需在任何數據上進行微調,就能在多種視頻問答任務和基準測試中達到與最先進視頻大型語言模型相當甚至更好的性能。
AI模型
54.6K
Llama3-s v0.2
Llama3 S V0.2
Llama3-s v0.2 是 Homebrew Computer Company 開發的多模態檢查點,專注於提升語音理解能力。該模型通過早期融合語義標記的方式,利用社區反饋進行改進,以簡化模型結構,提高壓縮效率,並實現一致的語音特徵提取。Llama3-s v0.2 在多個語音理解基準測試中表現穩定,並提供了即時演示,允許用戶親自體驗其功能。儘管模型仍在早期開發階段,存在一些限制,如對音頻壓縮敏感、無法處理超過10秒的音頻等,但團隊計劃在未來更新中解決這些問題。
語音識別
52.4K
llama3-s
Llama3 S
llama3-s是一個開放的、正在進行中的研究實驗,旨在將基於文本的大型語言模型(LLM)擴展到具有原生“聽力”能力。該項目使用Meta的Chameleon論文啟發的技術,專注於令牌傳遞性,將聲音令牌擴展到LLM的詞彙表中,未來可能擴展到各種輸入類型。作為一個開源科學實驗,代碼庫和數據集都是公開的。
AI模型
48.3K
MAVIS
MAVIS
MAVIS是一個針對多模態大型語言模型(MLLMs)的數學視覺指令調優模型,主要通過改進視覺編碼數學圖表、圖表-語言對齊和數學推理技能來增強MLLMs在視覺數學問題解決方面的能力。該模型包括兩個新策劃的數據集、一個數學視覺編碼器和數學MLLM,通過三階段訓練範式在MathVerse基準測試中取得領先性能。
AI模型
55.8K
LongVA
Longva
LongVA是一個能夠處理超過2000幀或超過200K視覺標記的長上下文轉換模型。它在Video-MME中的表現在7B模型中處於領先地位。該模型基於CUDA 11.8和A100-SXM-80G進行了測試,並且可以通過Hugging Face平臺進行快速啟動和使用。
AI模型
50.8K
MG-LLaVA
MG LLaVA
MG-LLaVA是一個增強模型視覺處理能力的機器學習語言模型(MLLM),通過整合多粒度視覺流程,包括低分辨率、高分辨率和以對象為中心的特徵。提出了一個額外的高分辨率視覺編碼器來捕捉細節,並通過Conv-Gate融合網絡與基礎視覺特徵融合。此外,通過離線檢測器識別的邊界框整合對象級特徵,以進一步細化模型的對象識別能力。MG-LLaVA僅在公開可用的多模態數據上通過指令調優進行訓練,展現出卓越的感知技能。
AI模型
46.1K
國外精選
4M
4M
4M是一個用於訓練多模態和多任務模型的框架,能夠處理多種視覺任務,並且能夠進行多模態條件生成。該模型通過實驗分析展示了其在視覺任務上的通用性和可擴展性,為多模態學習在視覺和其他領域的進一步探索奠定了基礎。
模型訓練與部署
47.2K
Stable Diffusion 3 免費在線
Stable Diffusion 3 免費在線
Stable Diffusion 3是由Stability AI開發的最新文本生成圖像模型,具有顯著進步的圖像保真度、多主體處理和文本匹配能力。利用多模態擴散變換器(MMDiT)架構,提供單獨的圖像和語言表示,支持API、下載和在線平臺訪問,適用於各種應用場景。
圖片生成
73.1K
VideoLLaMA2-7B-Base
Videollama2 7B Base
VideoLLaMA2-7B-Base 是由 DAMO-NLP-SG 開發的大型視頻語言模型,專注於視頻內容的理解與生成。該模型在視覺問答和視頻字幕生成方面展現出卓越的性能,通過先進的空間時間建模和音頻理解能力,為用戶提供了一種新的視頻內容分析工具。它基於 Transformer 架構,能夠處理多模態數據,結合文本和視覺信息,生成準確且富有洞察力的輸出。
AI視頻生成
79.2K
emo-visual-data
Emo Visual Data
emo-visual-data 是一個公開的表情包視覺標註數據集,它通過使用 glm-4v 和 step-free-api 項目完成的視覺標註,收集了5329個表情包。這個數據集可以用於訓練和測試多模態大模型,對於理解圖像內容和文本描述之間的關係具有重要意義。
AI圖像檢測識別
62.1K
llama3v
Llama3v
llama3v是一個基於Llama3 8B和siglip-so400m的SOTA(State of the Art,即最先進技術)視覺模型。它是一個開源的VLLM(視覺語言多模態學習模型),在Huggingface上提供模型權重,支持快速本地推理,併發布了推理代碼。該模型結合了圖像識別和文本生成,通過添加投影層將圖像特徵映射到LLaMA嵌入空間,以提高模型對圖像的理解能力。
AI模型
65.7K
CuMo
Cumo
CuMo是一種多模態大型語言模型(LLMs)的擴展架構,它通過在視覺編碼器和MLP連接器中融入稀疏的Top-K門控專家混合(MoE)塊,提高了模型的可擴展性,同時在推理時幾乎不增加激活參數。CuMo在預訓練MLP塊後,初始化MoE塊中的每個專家,並在視覺指令調整階段使用輔助損失以確保專家的均衡負載。CuMo在各種VQA和視覺指令遵循基準測試中超越了其他同類模型,且完全基於開源數據集進行訓練。
AI模型
52.7K
Bunny
Bunny
Bunny 是一系列輕量級但功能強大的多模態模型,提供多種即插即用的視圖編碼器和語言主幹網絡。通過從更廣泛的數據源進行精選選擇,構建更豐富的訓練數據,以補償模型尺寸的減小。Bunny-v1.0-3B 模型在性能上超越了同類大小甚至更大的 MLLMs(7B)模型,並與 13B 模型性能相當。
AI模型
55.5K
優質新品
llava-llama-3-8b-v1_1
Llava Llama 3 8b V1 1
llava-llama-3-8b-v1_1是一個由XTuner優化的LLaVA模型,它基於meta-llama/Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336,並通過ShareGPT4V-PT和InternVL-SFT進行了微調。該模型專為圖像和文本的結合處理而設計,具有強大的多模態學習能力,適用於各種下游部署和評估工具包。
AI模型
69.3K
MyGO
Mygo
MyGO是一個用於多模態知識圖譜補全的工具,它通過將離散模態信息作為細粒度的標記來處理,以提高補全的準確性。MyGO利用transformers庫對文本標記進行嵌入,進而在多模態數據集上進行訓練和評估。它支持自定義數據集,並且提供了訓練腳本以復現實驗結果。
AI數據挖掘
75.6K
Stable Diffusion 3 API
Stable Diffusion 3 API
Stable Diffusion 3是一款先進的文本到圖像生成系統,它在排版和提示遵循方面與DALL-E 3和Midjourney v6等頂尖系統相匹敵或更優。該系統採用新的多模態擴散變換器(MMDiT)架構,使用不同的權重集來改善圖像和語言的表示,從而提高文本理解和拼寫能力。Stable Diffusion 3 API現已在Stability AI開發者平臺上線,與Fireworks AI合作提供快速可靠的API服務,並承諾在不久的將來通過Stability AI會員資格開放模型權重以供自託管。
AI圖像生成
302.2K
MATHVERSE
MATHVERSE
MATHVERSE項目旨在評估多模態大型語言模型處理和理解視覺數學問題的能力,特別是如何解析和理解問題中的圖表信息。
AI模型
54.9K
精選AI產品推薦
中文精選
騰訊混元圖像 2.0
騰訊混元圖像 2.0
騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型,顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構,使得圖像生成速度可達到毫秒級,避免了傳統生成的等待時間。同時,模型通過強化學習算法與人類美學知識的結合,提升了圖像的真實感和細節表現,適合設計師、創作者等專業用戶使用。
圖片生成
80.6K
國外精選
Lovart
Lovart
Lovart 是一款革命性的 AI 設計代理,能夠將創意提示轉化為藝術作品,支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程,節省時間並提升創意靈感。Lovart 當前處於測試階段,用戶可加入等候名單,隨時體驗設計的樂趣。
AI設計工具
63.8K
FastVLM
Fastvlm
FastVLM 是一種高效的視覺編碼模型,專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器,減少了高分辨率圖像的編碼時間和輸出的 token 數量,使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力,適用於各種應用場景,尤其在需要快速響應的移動設備上表現優異。
AI模型
51.1K
KeySync
Keysync
KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題,同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果,適用於自動配音等實際應用場景。
視頻編輯
48.3K
Manus
Manus
Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品,能夠直接交付完整的任務成果,而不僅僅是提供建議或答案。它採用 Multiple Agent 架構,運行在獨立虛擬機中,能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現,展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’,幫助用戶高效完成各種複雜任務。
個人助理
1.5M
Trae國內版
Trae國內版
Trae是一款專為中文開發場景設計的AI原生IDE,將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能,顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白,滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具,旨在為專業開發者提供強大的技術支持,目前尚未明確公開價格,但預計會採用付費模式以匹配其高端定位。
開發與工具
137.7K
國外精選
Pika
Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M
中文精選
LiblibAI
Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase