# 視覺語言模型

CambioML
Cambioml
AnyParser通過視覺語言模型提升了文檔檢索準確性高達2倍。它能精確提取文本、表格、圖表和佈局信息,優於傳統OCR工具。該產品具有隱私保護、企業集成等特點。
視覺語言模型
37.8K
Aya Vision 8B
Aya Vision 8B
CohereForAI的Aya Vision 8B是一個8億參數的多語言視覺語言模型,專為多種視覺語言任務優化,支持OCR、圖像描述、視覺推理、總結、問答等功能。該模型基於C4AI Command R7B語言模型,結合SigLIP2視覺編碼器,支持23種語言,具有16K上下文長度。其主要優點包括多語言支持、強大的視覺理解能力以及廣泛的適用場景。該模型以開源權重形式發佈,旨在推動全球研究社區的發展。根據CC-BY-NC許可協議,用戶需遵守C4AI的可接受使用政策。
AI模型
68.4K
SigLIP2
Siglip2
SigLIP2 是谷歌開發的多語言視覺語言編碼器,具有改進的語義理解、定位和密集特徵。它支持零樣本圖像分類,能夠通過文本描述直接對圖像進行分類,無需額外訓練。該模型在多語言場景下表現出色,適用於多種視覺語言任務。其主要優點包括高效的語言圖像對齊能力、支持多種分辨率和動態分辨率調整,以及強大的跨語言泛化能力。SigLIP2 的推出為多語言視覺任務提供了新的解決方案,尤其適合需要快速部署和多語言支持的場景。
AI模型
65.1K
VLM-R1
VLM R1
VLM-R1 是一種基於強化學習的視覺語言模型,專注於視覺理解任務,如指代表達理解(Referring Expression Comprehension, REC)。該模型通過結合 R1(Reinforcement Learning)和 SFT(Supervised Fine-Tuning)方法,展示了在領域內和領域外數據上的出色性能。VLM-R1 的主要優點包括其穩定性和泛化能力,使其能夠在多種視覺語言任務中表現出色。該模型基於 Qwen2.5-VL 構建,利用了先進的深度學習技術,如閃存注意力機制(Flash Attention 2),以提高計算效率。VLM-R1 旨在為視覺語言任務提供一種高效且可靠的解決方案,適用於需要精確視覺理解的應用場景。
AI模型
64.0K
R1-V
R1 V
R1-V是一個專注於強化視覺語言模型(VLM)泛化能力的項目。它通過可驗證獎勵的強化學習(RLVR)技術,顯著提升了VLM在視覺計數任務中的泛化能力,尤其是在分佈外(OOD)測試中表現出色。該技術的重要性在於,它能夠在極低的成本下(僅需2.62美元的訓練成本),實現對大規模模型的高效優化,為視覺語言模型的實用化提供了新的思路。項目背景基於對現有VLM訓練方法的改進,目標是通過創新的訓練策略,提升模型在複雜視覺任務中的表現。R1-V的開源性質也使其成為研究者和開發者探索和應用先進VLM技術的重要資源。
AI模型
64.3K
Ollama OCR for web
Ollama OCR For Web
ollama-ocr是一個基於ollama的光學字符識別(OCR)模型,能夠從圖像中提取文本。它利用先進的視覺語言模型,如LLaVA、Llama 3.2 Vision和MiniCPM-V 2.6,提供高精度的文本識別。該模型對於需要從圖片中獲取文本信息的場景非常有用,如文檔掃描、圖像內容分析等。它開源免費,易於集成到各種項目中。
圖片編輯
94.1K
Moondream AI
Moondream AI
Moondream AI是一個開源的視覺語言模型,具有強大的多模態處理能力。它支持多種量化格式,如fp16、int8、int4,能夠在服務器、PC、移動設備等多種目標設備上進行GPU和CPU優化推理。其主要優點包括快速、高效、易於部署,且採用Apache 2.0許可證,允許用戶自由使用和修改。Moondream AI的定位是為開發者提供一個靈活、高效的人工智能解決方案,適用於需要視覺和語言處理能力的各種應用場景。
AI模型
49.4K
cogagent-9b-20241220
Cogagent 9b 20241220
CogAgent-9B-20241220模型基於GLM-4V-9B雙語開源VLM基礎模型,通過數據收集和優化、多階段訓練以及策略改進,在GUI感知、推理預測準確性、動作空間完整性和任務泛化性方面取得了顯著進步。該模型支持雙語(中文和英文)交互,並能處理屏幕截圖和語言輸入。此版本已應用於ZhipuAI的GLM-PC產品中,旨在幫助研究人員和開發者推進基於視覺語言模型的GUI代理的研究和應用。
AI模型
43.9K
vision-parse
Vision Parse
vision-parse是一個利用視覺語言模型(Vision LLMs)將PDF文檔解析為格式化良好的Markdown內容的工具。它支持多種模型,包括OpenAI、LLama和Gemini等,能夠智能識別和提取文本及表格,並保持文檔的層級結構、樣式和縮進。該工具的主要優點包括高精度的內容提取、格式保持、支持多模型以及本地模型託管,適用於需要高效文檔處理的用戶。
文檔
65.7K
CogAgent
Cogagent
CogAgent是一個基於視覺語言模型(VLM)的GUI代理,它通過屏幕截圖和自然語言實現雙語(中文和英文)交雲。CogAgent在GUI感知、推理預測準確性、操作空間完整性和任務泛化方面取得了顯著進步。該模型已經在ZhipuAI的GLM-PC產品中得到應用,旨在幫助研究人員和開發者推進基於視覺語言模型的GUI代理的研究和應用。
AI模型
58.8K
DeepSeek-VL2-Tiny
Deepseek VL2 Tiny
DeepSeek-VL2是一系列先進的大型混合專家(MoE)視覺語言模型,相較於前代DeepSeek-VL有顯著提升。該模型系列在視覺問答、光學字符識別、文檔/表格/圖表理解、視覺定位等多項任務中展現出卓越的能力。DeepSeek-VL2由三種變體組成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分別擁有1.0B、2.8B和4.5B激活參數。DeepSeek-VL2在激活參數相似或更少的情況下,與現有的開源密集型和基於MoE的模型相比,達到了競爭性或最先進的性能。
AI模型
76.7K
POINTS-Yi-1.5-9B-Chat
POINTS Yi 1.5 9B Chat
POINTS-Yi-1.5-9B-Chat是一個視覺語言模型,它集成了最新的視覺語言模型技術和微信AI提出的新技術。該模型在預訓練數據集過濾、模型湯(Model Soup)技術等方面有顯著創新,能夠顯著減少預訓練數據集的大小並提高模型性能。它在多個基準測試中表現優異,是視覺語言模型領域的一個重要進展。
AI模型
45.3K
POINTS-Qwen-2-5-7B-Chat
POINTS Qwen 2 5 7B Chat
POINTS-Qwen-2-5-7B-Chat是一個集成了視覺語言模型最新進展和新技巧的模型,由微信AI的研究人員提出。它通過預訓練數據集篩選、模型湯等技術,顯著提升了模型性能。這個模型在多個基準測試中表現優異,是視覺語言模型領域的一個重要進步。
AI模型
45.5K
POINTS-1-5-Qwen-2-5-7B-Chat
POINTS 1 5 Qwen 2 5 7B Chat
WePOINTS 系列最新更新,參數量大性能強,有多項創新技術,在 OpenCompass 排行榜表現優異。
AI模型
42.5K
DeepSeek-VL2
Deepseek VL2
DeepSeek-VL2是一系列大型Mixture-of-Experts視覺語言模型,相較於前代DeepSeek-VL有顯著提升。該模型系列在視覺問答、光學字符識別、文檔/表格/圖表理解以及視覺定位等任務上展現出卓越的能力。DeepSeek-VL2包含三個變體:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分別擁有1.0B、2.8B和4.5B激活參數。DeepSeek-VL2在激活參數相似或更少的情況下,與現有的開源密集和MoE基礎模型相比,達到了競爭性或最先進的性能。
AI模型
90.8K
OpenGVLab InternVL
Opengvlab InternVL
InternVL是一個AI視覺語言模型,專注於圖像分析和描述。它通過深度學習技術,能夠理解和解釋圖像內容,為用戶提供準確的圖像描述和分析結果。InternVL的主要優點包括高準確性、快速響應和易於集成。該技術背景基於最新的人工智能研究,致力於提高圖像識別的效率和準確性。目前,InternVL提供免費試用,具體價格和定位需要根據用戶需求定製。
圖片生成
45.0K
Florence-VL
Florence VL
Florence-VL是一個視覺語言模型,通過引入生成式視覺編碼器和深度廣度融合技術,增強了模型對視覺和語言信息的處理能力。該技術的重要性在於其能夠提升機器對圖像和文本的理解,進而在多模態任務中取得更好的效果。Florence-VL基於LLaVA項目進行開發,提供了預訓練和微調的代碼、模型檢查點和演示。
AI模型
50.2K
Qwen2-VL-7B
Qwen2 VL 7B
Qwen2-VL-7B是Qwen-VL模型的最新迭代,代表了近一年的創新成果。該模型在視覺理解基準測試中取得了最先進的性能,包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能夠理解超過20分鐘的視頻,為基於視頻的問題回答、對話、內容創作等提供高質量的支持。此外,Qwen2-VL還支持多語言,除了英語和中文,還包括大多數歐洲語言、日語、韓語、阿拉伯語、越南語等。模型架構更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE),增強了其多模態處理能力。
AI模型
52.4K
Qwen2-VL-2B
Qwen2 VL 2B
Qwen2-VL-2B是Qwen-VL模型的最新迭代,代表了近一年的創新成果。該模型在視覺理解基準測試中取得了最先進的性能,包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能夠理解超過20分鐘的視頻,為基於視頻的問題回答、對話、內容創作等提供高質量的支持。Qwen2-VL還支持多語言,除了英語和中文,還包括大多數歐洲語言、日語、韓語、阿拉伯語、越南語等。模型架構更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE),增強了其多模態處理能力。
AI模型
57.1K
PaliGemma 2
Paligemma 2
PaliGemma 2是Gemma家族中的第二代視覺語言模型,它在性能上進行了擴展,增加了視覺能力,使得模型能夠看到、理解和與視覺輸入交互,開啟了新的可能性。PaliGemma 2基於高性能的Gemma 2模型構建,提供了多種模型尺寸(3B、10B、28B參數)和分辨率(224px、448px、896px)以優化任何任務的性能。此外,PaliGemma 2在化學公式識別、樂譜識別、空間推理和胸部X光報告生成等方面展現出領先的性能。PaliGemma 2旨在為現有PaliGemma用戶提供便捷的升級路徑,作為即插即用的替代品,大多數任務無需大幅修改代碼即可獲得性能提升。
AI模型
49.1K
SmolVLM
Smolvlm
SmolVLM是一個小型但功能強大的視覺語言模型(VLM),擁有2B參數,以其較小的內存佔用和高效性能在同類模型中處於領先地位。SmolVLM完全開源,包括所有模型檢查點、VLM數據集、訓練配方和工具均在Apache 2.0許可下發布。該模型適合在瀏覽器或邊緣設備上進行本地部署,降低推理成本,並允許用戶自定義。
AI模型
56.3K
LLaVA-o1
Llava O1
LLaVA-o1是北京大學元組團隊開發的一個視覺語言模型,它能夠進行自發的、系統的推理,類似於GPT-o1。該模型在六個具有挑戰性的多模態基準測試中超越了其他模型,包括Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。LLaVA-o1通過逐步推理解決問題,展示了其在視覺語言模型中的獨特優勢。
逐步推理
46.6K
Aquila-VL-2B-llava-qwen
Aquila VL 2B Llava Qwen
Aquila-VL-2B模型是一個基於LLava-one-vision框架訓練的視覺語言模型(VLM),選用Qwen2.5-1.5B-instruct模型作為語言模型(LLM),並使用siglip-so400m-patch14-384作為視覺塔。該模型在自建的Infinity-MM數據集上進行訓練,包含約4000萬圖像-文本對。該數據集結合了從互聯網收集的開源數據和使用開源VLM模型生成的合成指令數據。Aquila-VL-2B模型的開源,旨在推動多模態性能的發展,特別是在圖像和文本的結合處理方面。
AI模型
47.2K
PromptFix
Promptfix
PromptFix是一個綜合框架,能夠使擴散模型遵循人類指令執行各種圖像處理任務。該框架通過構建大規模的指令遵循數據集,提出了高頻引導採樣方法來控制去噪過程,並設計了輔助提示適配器,利用視覺語言模型增強文本提示,提高模型的任務泛化能力。PromptFix在多種圖像處理任務中表現優於先前的方法,並在盲恢復和組合任務中展現出優越的零樣本能力。
圖片編輯
58.8K
OmniParser
Omniparser
OmniParser 是微軟研究團隊開發的一種用於解析用戶界面截圖的方法,它通過識別可交互圖標和理解屏幕截圖中各種元素的語義,顯著提升了基於視覺的語言模型(如GPT-4V)生成準確界面操作的能力。該技術通過精細調整的檢測模型和描述模型,能夠解析屏幕截圖中的可交互區域和提取功能語義,從而在多個基準測試中超越了基線模型。OmniParser 作為一個插件,可以與其他視覺語言模型結合使用,提升它們的性能。
AI模型
72.6K
VisRAG
Visrag
VisRAG是一個創新的視覺語言模型(VLM)基礎的RAG(Retrieval-Augmented Generation)流程。與傳統的基於文本的RAG不同,VisRAG直接將文檔作為圖像通過VLM進行嵌入,然後檢索以增強VLM的生成能力。這種方法最大限度地保留了原始文檔中的數據信息,並消除了解析過程中引入的信息損失。VisRAG模型在多模態文檔上的應用,展示了其在信息檢索和增強文本生成方面的強大潛力。
研究工具
119.0K
ColPali
Colpali
ColPali 是一種基於視覺語言模型的高效文檔檢索工具,它通過直接嵌入文檔頁面圖像的方式來簡化文檔檢索流程。ColPali 利用了最新的視覺語言模型技術,特別是 PaliGemma 模型,通過晚交互機制實現多向量檢索,從而提高檢索性能。這一技術不僅加快了索引速度,降低了查詢延遲,而且在檢索包含視覺元素的文檔方面表現出色,例如圖表、表格和圖像。ColPali 的出現,為文檔檢索領域帶來了一種新的“視覺空間檢索”範式,有助於提高信息檢索的效率和準確性。
AI搜索引擎
46.6K
Qwen2-VL
Qwen2 VL
Qwen2-VL是一款基於Qwen2打造的最新一代視覺語言模型,具備多語言支持和強大的視覺理解能力,能夠處理不同分辨率和長寬比的圖片,理解長視頻,並可集成到手機、機器人等設備中進行自動操作。它在多個視覺理解基準測試中取得全球領先的表現,尤其在文檔理解方面有明顯優勢。
AI模型
62.7K
優質新品
InternLM-XComposer-2.5
Internlm XComposer 2.5
InternLM-XComposer-2.5是一款支持長上下文輸入和輸出的多功能大型視覺語言模型。它在各種文本圖像理解和創作應用中表現出色,實現了與GPT-4V相當的水平,但僅使用了7B的LLM後端。該模型通過24K交錯圖像文本上下文進行訓練,能夠無縫擴展到96K長上下文,通過RoPE外推。這種長上下文能力使其在需要廣泛輸入和輸出上下文的任務中表現突出。此外,它還支持超高分辨率理解、細粒度視頻理解、多輪多圖像對話、網頁製作以及撰寫高質量圖文文章等功能。
AI模型
73.7K
DriveVLM
Drivevlm
DriveVLM是一個自動駕駛系統,它利用視覺語言模型(VLMs)來增強場景理解和規劃能力。該系統通過獨特的推理模塊組合,包括場景描述、場景分析和分層規劃,以提高對複雜和長尾場景的理解。此外,為了解決VLMs在空間推理和計算需求上的侷限性,提出了DriveVLM-Dual,這是一個混合系統,結合了DriveVLM的優勢和傳統自動駕駛流程。在nuScenes數據集和SUP-AD數據集上的實驗表明,DriveVLM和DriveVLM-Dual在處理複雜和不可預測的駕駛條件方面非常有效。最終,DriveVLM-Dual在生產車輛上進行了部署,驗證了其在現實世界自動駕駛環境中的有效性。
AI自動駕駛
56.3K
精選AI產品推薦
中文精選
騰訊混元圖像 2.0
騰訊混元圖像 2.0
騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型,顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構,使得圖像生成速度可達到毫秒級,避免了傳統生成的等待時間。同時,模型通過強化學習算法與人類美學知識的結合,提升了圖像的真實感和細節表現,適合設計師、創作者等專業用戶使用。
圖片生成
80.6K
國外精選
Lovart
Lovart
Lovart 是一款革命性的 AI 設計代理,能夠將創意提示轉化為藝術作品,支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程,節省時間並提升創意靈感。Lovart 當前處於測試階段,用戶可加入等候名單,隨時體驗設計的樂趣。
AI設計工具
63.8K
FastVLM
Fastvlm
FastVLM 是一種高效的視覺編碼模型,專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器,減少了高分辨率圖像的編碼時間和輸出的 token 數量,使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力,適用於各種應用場景,尤其在需要快速響應的移動設備上表現優異。
AI模型
51.1K
KeySync
Keysync
KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題,同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果,適用於自動配音等實際應用場景。
視頻編輯
48.3K
Manus
Manus
Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品,能夠直接交付完整的任務成果,而不僅僅是提供建議或答案。它採用 Multiple Agent 架構,運行在獨立虛擬機中,能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現,展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’,幫助用戶高效完成各種複雜任務。
個人助理
1.5M
Trae國內版
Trae國內版
Trae是一款專為中文開發場景設計的AI原生IDE,將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能,顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白,滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具,旨在為專業開發者提供強大的技術支持,目前尚未明確公開價格,但預計會採用付費模式以匹配其高端定位。
開發與工具
137.7K
國外精選
Pika
Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M
中文精選
LiblibAI
Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase