視覺模型

# 視覺模型

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

Aya Vision

Aya Vision 是 Cohere For AI 團隊開發的先進視覺模型，專注於多語言多模態任務，支持 23 種語言。該模型通過創新的算法突破，如合成標註、多語言數據擴展和多模態模型融合，顯著提升了視覺和文本任務的性能。其主要優點包括高效性（在計算資源有限的情況下仍能表現出色）和廣泛的多語言支持。Aya Vision 的發佈旨在推動多語言多模態研究的前沿發展，併為全球研究社區提供技術支持。

Document Inlining

Document Inlining

Document Inlining是Fireworks AI推出的一款複合AI系統，它能夠將任何大型語言模型(LLM)轉化為視覺模型，以處理圖像或PDF文檔。這項技術通過構建自動化流程，將任何數字資產格式轉換為LLM兼容的格式，實現邏輯推理。Document Inlining通過解析圖像和PDFs，直接將它們輸入到用戶選擇的LLM中，提供更高的質量、輸入靈活性和超簡單的使用方式。它解決了傳統LLM在處理非文本數據時的侷限性，通過專業化的組件分解任務，提高了文本模型推理的質量，並且簡化了開發者的使用體驗。

InternViT-6B-448px-V2_5

Internvit 6B 448px V2 5

InternViT-6B-448px-V2_5是一個基於InternViT-6B-448px-V1-5的視覺模型，通過使用ViT增量學習與NTP損失（階段1.5），提升了視覺編碼器提取視覺特徵的能力，尤其是在大規模網絡數據集中代表性不足的領域，如多語言OCR數據和數學圖表等。該模型是InternVL 2.5系列的一部分，保留了與前代相同的“ViT-MLP-LLM”模型架構，並集成了新增量預訓練的InternViT與各種預訓練的LLMs，包括InternLM 2.5和Qwen 2.5，使用隨機初始化的MLP投影器。

ReKep

ReKep是一個用於機器人操控的時空關係關鍵點約束推理系統，它通過將機器人操控任務表示為關聯機器人和環境的約束來編碼期望的機器人行為。ReKep利用大型視覺模型和視覺-語言模型，無需特定任務訓練或環境模型，即可生成基於關鍵點的約束，這些約束可以被優化以實現多階段、野外、雙手和反應性行為。ReKep的主要優點包括其通用性、無需手動標記以及能夠被現成求解器即時優化以產生機器人動作。

Sapiens

Sapiens視覺模型由Meta Reality Labs開發，專注於處理人類視覺任務，包括2D姿態估計、身體部位分割、深度估計和表面法線預測等。模型在超過3億張人類圖像上訓練，具備高分辨率圖像處理能力，並能在數據稀缺情況下表現出色。其設計簡單、易於擴展，性能在增加參數後顯著提升，已在多個測試中超越現有基線模型。

MIT MAIA

MAIA（Multimodal Automated Interpretability Agent）是由MIT計算機科學與人工智能實驗室（CSAIL）開發的一個自動化系統，旨在提高人工智能模型的解釋性。它通過視覺-語言模型的支撐，結合一系列實驗工具，自動化地執行多種神經網絡解釋性任務。MAIA能夠生成假設、設計實驗進行測試，並通過迭代分析來完善其理解，從而提供更深入的AI模型內部運作機制的洞察。

LongVA

LongVA是一個能夠處理超過2000幀或超過200K視覺標記的長上下文轉換模型。它在Video-MME中的表現在7B模型中處於領先地位。該模型基於CUDA 11.8和A100-SXM-80G進行了測試，並且可以通過Hugging Face平臺進行快速啟動和使用。

Florence-2-base

Florence 2 Base

Florence-2是由微軟開發的高級視覺基礎模型，採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示，執行如描述、目標檢測和分割等任務。它利用包含54億個註釋的5.4億張圖像的FLD-5B數據集，精通多任務學習。模型的序列到序列架構使其在零樣本和微調設置中都表現出色，證明其為有競爭力的視覺基礎模型。

Florence-2-large

Florence 2 Large

Florence-2-large是由微軟開發的先進視覺基礎模型，採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示來執行如圖像描述、目標檢測和分割等任務。它利用包含54億註釋的5.4億圖像的FLD-5B數據集，精通多任務學習。其序列到序列的架構使其在零樣本和微調設置中均表現出色，證明是一個有競爭力的視覺基礎模型。

Florence-2

Florence-2是一個新型的視覺基礎模型，它通過統一的、基於提示的表示方式，能夠處理多種計算機視覺和視覺-語言任務。它設計為接受文本提示作為任務指令，並以文本形式生成期望的結果，無論是圖像描述、目標檢測、定位還是分割。這種多任務學習設置需要大規模、高質量的註釋數據。為此，我們共同開發了FLD-5B，它包含了54億個綜合視覺註釋，涵蓋1.26億張圖像，使用了自動化圖像註釋和模型細化的迭代策略。我們採用了序列到序列的結構來訓練Florence-2，以執行多樣化和全面的視覺任務。廣泛的評估表明，Florence-2是一個強大的視覺基礎模型競爭者，具有前所未有的零樣本和微調能力。

llama3v

llama3v是一個基於Llama3 8B和siglip-so400m的SOTA（State of the Art，即最先進技術）視覺模型。它是一個開源的VLLM（視覺語言多模態學習模型），在Huggingface上提供模型權重，支持快速本地推理，併發布了推理代碼。該模型結合了圖像識別和文本生成，通過添加投影層將圖像特徵映射到LLaMA嵌入空間，以提高模型對圖像的理解能力。

Page Assist - A Web UI for Local AI Models

Page Assist A Web UI For Local AI Models

Page Assist 是一個為本地 AI 模型提供便捷的 Web 用戶界面的輔助工具。您可以利用本地 AI 模型與瀏覽器交互，或者將其作為本地 AI 模型供應商（如 Ollama Repo）的 Web 用戶界面。當前功能包括側邊欄任務支持、視覺模型支持、最小化的本地 AI 模型 Web 用戶界面、互聯網搜索功能、側邊欄上的 PDF 對話框、文檔聊天（PDF、CSV、TXT、MD 格式）等。

LaVi-Bridge

LaVi-Bridge是一種針對文本到圖像擴散模型設計的橋接模型,能夠連接各種預訓練的語言模型和生成視覺模型。它通過利用LoRA和適配器,提供了一種靈活的插拔式方法,無需修改原始語言和視覺模型的權重。該模型與各種語言模型和生成視覺模型兼容,可容納不同的結構。在這一框架內,我們證明了通過整合更高級的模塊(如更先進的語言模型或生成視覺模型)可以明顯提高文本對齊或圖像質量等能力。該模型經過大量評估,證實了其有效性。

VMamba

VMamba是一種視覺狀態空間模型，結合了卷積神經網絡（CNNs）和視覺Transformer（ViTs）的優勢，實現了線性複雜度而不犧牲全局感知。引入了Cross-Scan模塊（CSM）來解決方向敏感問題，能夠在各種視覺感知任務中展現出優異的性能，並且隨著圖像分辨率的增加，相對已有基準模型表現出更為顯著的優勢。

AIM

這篇論文介紹了AIM，這是一組使用自迴歸目標進行預訓練的視覺模型。這些模型受其文本對應物，即大型語言模型（LLMs）的啟發，並表現出類似的擴展特性。具體來說，我們強調了兩個關鍵發現：（1）視覺特徵的性能隨著模型容量和數據量的增加而提高，（2）目標函數的價值與模型在下游任務上的性能相關。我們通過在20億張圖像上對70億參數的AIM進行預訓練，實現了在ImageNet-1k上使用凍結主幹達到84.0%的準確率。有趣的是，即使在這個規模上，我們觀察到性能沒有飽和的跡象，這表明AIM可能代表了訓練大規模視覺模型的新前沿。AIM的預訓練類似於LLMs的預訓練，並不需要任何圖像特定的策略來穩定大規模訓練。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase