計算機視覺

# 計算機視覺

CameraBench

CameraBench 是一個用於分析視頻中相機運動的模型，旨在通過視頻理解相機的運動模式。它的主要優點在於利用生成性視覺語言模型進行相機運動的原理分類和視頻文本檢索。通過與傳統的結構從運動 (SfM) 和即時定位與*構建 (SLAM) 方法進行比較，該模型在捕捉場景語義方面顯示出了顯著的優勢。該模型已開源，適合研究人員和開發者使用，且後續將推出更多改進版本。

Describe Anything

Describe Anything

Describe Anything 模型（DAM）能夠處理圖像或視頻的特定區域，並生成詳細描述。它的主要優點在於可以通過簡單的標記（點、框、塗鴉或掩碼）來生成高質量的本地化描述，極大地提升了計算機視覺領域的圖像理解能力。該模型由 NVIDIA 和多所大學聯合開發，適合用於研究、開發和實際應用中。

EasyControl

EasyControl 是一個為 Diffusion Transformer（擴散變換器）提供高效靈活控制的框架，旨在解決當前 DiT 生態系統中存在的效率瓶頸和模型適應性不足等問題。其主要優點包括：支持多種條件組合、提高生成靈活性和推理效率。該產品是基於最新研究成果開發的，適合在圖像生成、風格轉換等領域使用。

LHM

LHM（大規模可動畫人類重建模型）利用多模態變壓器架構進行高保真 3D 頭像重建，支持從單張圖像生成可動畫的 3D 人類形象。該模型能夠詳細保留服裝幾何和紋理，尤其是在面部身份和細節恢復方面表現優異，適合對 3D 重建精度有較高要求的應用場景。

Thera

Thera 是一種先進的超分辨率技術，能夠在不同尺度下生成高質量圖像。其主要優點在於內置物理觀察模型，有效避免了混疊現象。該技術由 ETH Zurich 的研究團隊開發，適用於圖像增強和計算機視覺領域，尤其在遙感和攝影測量中具有廣泛應用。

MIDI

MIDI是一種創新的圖像到3D場景生成技術，它利用多實例擴散模型，能夠從單張圖像中直接生成具有準確空間關係的多個3D實例。該技術的核心在於其多實例注意力機制，能夠有效捕捉物體間的交互和空間一致性，無需複雜的多步驟處理。MIDI在圖像到場景生成領域表現出色，適用於合成數據、真實場景數據以及由文本到圖像擴散模型生成的風格化場景圖像。其主要優點包括高效性、高保真度和強大的泛化能力。

GaussianCity

GaussianCity是一個專注於高效生成無邊界3D城市的框架，基於3D高斯繪製技術。該技術通過緊湊的3D場景表示和空間感知的高斯屬性解碼器，解決了傳統方法在生成大規模城市場景時面臨的內存和計算瓶頸。其主要優點是能夠在單次前向傳遞中快速生成大規模3D城市，顯著優於現有技術。該產品由南洋理工大學S-Lab團隊開發，相關論文發表於CVPR 2025，代碼和模型已開源，適用於需要高效生成3D城市環境的研究人員和開發者。

MLGym

MLGym是由Meta的GenAI團隊和UCSB NLP團隊開發的一個開源框架和基準，用於訓練和評估AI研究代理。它通過提供多樣化的AI研究任務，推動強化學習算法的發展，幫助研究人員在真實世界的研究場景中訓練和評估模型。該框架支持多種任務，包括計算機視覺、自然語言處理和強化學習等領域，旨在為AI研究提供一個標準化的測試平臺。

模型訓練與部署

Pippo

Pippo 是由 Meta Reality Labs 和多所高校合作開發的生成模型，能夠從單張普通照片生成高分辨率的多人視角視頻。該技術的核心優勢在於無需額外輸入（如參數化模型或相機參數），即可生成高質量的 1K 分辨率視頻。它基於多視角擴散變換器架構，具有廣泛的應用前景，如虛擬現實、影視製作等。Pippo 的代碼已開源，但不包含預訓練權重，用戶需要自行訓練模型。

VideoWorld

VideoWorld是一個專注於從純視覺輸入（無標籤視頻）中學習複雜知識的深度生成模型。它通過自迴歸視頻生成技術，探索如何僅通過視覺信息學習任務規則、推理和規劃能力。該模型的核心優勢在於其創新的潛在動態模型（LDM），能夠高效地表示多步視覺變化，從而顯著提升學習效率和知識獲取能力。VideoWorld在視頻圍棋和機器人控制任務中表現出色，展示了其強大的泛化能力和對複雜任務的學習能力。該模型的研究背景源於對生物體通過視覺而非語言學習知識的模仿，旨在為人工智能的知識獲取開闢新的途徑。

Video Depth Anything

Video Depth Anything

Video Depth Anything 是一個基於深度學習的視頻深度估計模型，能夠為超長視頻提供高質量、時間一致的深度估計。該技術基於 Depth Anything V2 開發，具有強大的泛化能力和穩定性。其主要優點包括對任意長度視頻的深度估計能力、時間一致性以及對開放世界視頻的良好適應性。該模型由字節跳動的研究團隊開發，旨在解決長視頻深度估計中的挑戰，如時間一致性問題和複雜場景的適應性問題。目前，該模型的代碼和演示已公開，供研究人員和開發者使用。

ViTPose

ViTPose是一系列基於Transformer架構的人體姿態估計模型。它利用Transformer的強大特徵提取能力，為人體姿態估計任務提供了簡單而有效的基線。ViTPose模型在多個數據集上表現出色，具有較高的準確性和效率。該模型由悉尼大學社區維護和更新，提供了多種不同規模的版本，以滿足不同應用場景的需求。在Hugging Face平臺上，ViTPose模型以開源的形式供用戶使用，用戶可以方便地下載和部署這些模型，進行人體姿態估計相關的研究和應用開發。

TryOffAnyone

TryOffAnyone是一個用於從穿著人身上生成平鋪布料的深度學習模型。該模型能夠將穿著衣物的人的圖片轉換成布料平鋪圖，這對於服裝設計、虛擬試衣等領域具有重要意義。它通過深度學習技術，實現了高度逼真的布料模擬，使得用戶可以更直觀地預覽衣物的穿著效果。該模型的主要優點包括逼真的布料模擬效果和較高的自動化程度，可以減少實際試衣過程中的時間和成本。

FlagAI

FlagAI是由北京智源人工智能研究院推出的一站式、高質量開源項目，集成了全球各種主流大模型算法技術以及多種大模型並行處理和訓練加速技術。它支持高效訓練和微調，旨在降低大模型開發和應用的門檻，提高開發效率。FlagAI涵蓋了多個領域明星模型，如語言大模型OPT、T5，視覺大模型ViT、Swin Transformer，多模態大模型CLIP等。智源研究院也持續將“悟道2.0”“悟道3.0”大模型項目成果開源至FlagAI，目前該項目已經加入Linux基金會，吸引全球科研力量共同創新、共同貢獻。

模型訓練與部署

video-analyzer

video-analyzer是一個視頻分析工具，它結合了Llama的11B視覺模型和OpenAI的Whisper模型，通過提取關鍵幀、將它們輸入視覺模型以獲取細節，並結合每個幀的細節和可用的轉錄內容來描述視頻中發生的事情。這個工具代表了計算機視覺、音頻轉錄和自然語言處理的結合，能夠生成視頻內容的詳細描述。它的主要優點包括完全本地運行無需雲服務或API密鑰、智能提取視頻關鍵幀、使用OpenAI的Whisper進行高質量音頻轉錄、使用Ollama和Llama3.2 11B視覺模型進行幀分析，以及生成自然語言描述的視頻內容。

MegaSaM

MegaSaM是一個系統，它允許從動態場景的單目視頻中準確、快速、穩健地估計相機參數和深度圖。該系統突破了傳統結構從運動和單目SLAM技術的侷限，這些技術通常假設輸入視頻主要包含靜態場景和大量視差。MegaSaM通過深度視覺SLAM框架的精心修改，能夠擴展到真實世界中複雜動態場景的視頻，包括具有未知視場和不受限制相機路徑的視頻。該技術在合成和真實視頻上的廣泛實驗表明，與先前和並行工作相比，MegaSaM在相機姿態和深度估計方面更為準確和穩健，運行時間更快或相當。

NVIDIA Jetson Orin Nano Super Developer Kit

NVIDIA Jetson Orin Nano Super Developer Kit

NVIDIA Jetson Orin Nano Super Developer Kit是一款緊湊型生成型AI超級計算機，提供了更高的性能和更低的價格。它支持從商業AI開發者到業餘愛好者和學生的廣泛用戶群體，提供了1.7倍的生成型AI推理性能提升，67 INT8 TOPS的性能提升，以及102GB/s的內存帶寬提升。這款產品是開發基於檢索增強生成的LLM聊天機器人、構建視覺AI代理或部署基於AI的機器人的理想選擇。

開發與工具

Diffusion-Vas

這是一個由卡內基梅隆大學提出的視頻非可見物體分割和內容補全的模型。該模型通過條件生成任務的方式，利用視頻生成模型的基礎知識，對視頻中的可見物體序列進行處理，以生成包括可見和不可見部分的物體掩碼和RGB內容。該技術的主要優點包括能夠處理高度遮擋的情況，並且能夠對變形物體進行有效的處理。此外，該模型在多個數據集上的表現均優於現有的先進方法，特別是在物體被遮擋區域的非可見分割上，性能提升高達13%。

StableAnimator

StableAnimator是首個端到端身份保留的視頻擴散框架，能夠在不進行後處理的情況下合成高質量視頻。該技術通過參考圖像和一系列姿勢進行條件合成，確保了身份一致性。其主要優點在於無需依賴第三方工具，適合需要高質量人像動畫的用戶。

CHOIS

Controllable Human-Object Interaction Synthesis (CHOIS) 是一種先進的技術，它能夠根據語言描述、初始物體和人類狀態以及稀疏物體路徑點來同時生成物體運動和人類運動。這項技術對於模擬真實的人類行為至關重要，尤其在需要精確手-物體接觸和由地面支撐的適當接觸的場景中。CHOIS通過引入物體幾何損失作為額外的監督信息，以及在訓練擴散模型的採樣過程中設計指導項來強制執行接觸約束，從而提高了生成物體運動與輸入物體路徑點之間的匹配度，並確保了交互的真實性。

PSHuman

PSHuman是一個創新的框架，它利用多視圖擴散模型和顯式重構技術，從單張圖片中重建出逼真的3D人體模型。這項技術的重要性在於它能夠處理複雜的自遮擋問題，並且在生成的面部細節上避免了幾何失真。PSHuman通過跨尺度擴散模型聯合建模全局全身形狀和局部面部特徵，實現了細節豐富且保持身份特徵的新視角生成。此外，PSHuman還通過SMPL-X等參數化模型提供的身體先驗，增強了不同人體姿態下的跨視圖身體形狀一致性。PSHuman的主要優點包括幾何細節豐富、紋理保真度高以及泛化能力強。

text-to-pose

text-to-pose是一個研究項目，旨在通過文本描述生成人物姿態，並利用這些姿態生成圖像。該技術結合了自然語言處理和計算機視覺，通過改進擴散模型的控制和質量，實現了從文本到圖像的生成。項目背景基於NeurIPS 2024 Workshop上發表的論文，具有創新性和前沿性。該技術的主要優點包括提高圖像生成的準確性和可控性，以及在藝術創作和虛擬現實等領域的應用潛力。

Phantomy AI

Phantomy AI是一款利用計算機視覺軟件，通過屏幕對象檢測和手勢識別技術，增強用戶交互和演示的先進工具。它無需額外硬件，即可通過直觀的手勢控制屏幕，為用戶提供了一種無需接觸的交互方式。Phantomy AI的主要優點包括高精準的屏幕對象檢測、基於手勢的控制、流暢的幻燈片導航、增強的用戶體驗和廣泛的應用場景。產品背景信息顯示，Phantomy AI由AI工程師Almajd Ismail開發，他擁有軟件開發和全棧開發的背景。關於價格和定位，頁面上沒有提供具體信息。

計算機視覺

DINO-X

DINO-X是一個以物體感知為核心的視覺大模型，具備開集檢測、智能問答、人體姿態、物體計數、服裝換色等核心能力。它不僅能識別已知目標，還能靈活應對未知類別，憑藉先進算法，模型具備出色的適應性和魯棒性，能夠精準應對各種不可預見的挑戰，提供針對複雜視覺數據的全方位解決方案。DINO-X的應用場景廣泛，包括機器人、農業、零售行業、安防監控、交通管理、製造業、智能家居、物流與倉儲、娛樂媒體等，是DeepDataSpace公司在計算機視覺技術領域的旗艦產品。

Data Annotation Platform

Data Annotation Platform

Data Annotation Platform是一個端到端的數據標註平臺，允許用戶上傳計算機視覺數據，選擇標註類型，並下載結果，無需任何最低承諾。該平臺支持多種數據標註類型，包括矩形、多邊形、3D立方體、關鍵點、語義分割、實例分割和泛視覺分割等，服務於AI項目經理、機器學習工程師、AI初創公司和研究團隊，解決他們在數據標註過程中遇到的挑戰。平臺以其無縫執行、成本計算器、指令生成器、免費任務、API接入和團隊訪問等特點，為用戶提供了一個簡單、高效、成本效益高的數據標註解決方案。

計算機視覺

AutoSeg-SAM2

AutoSeg-SAM2是一個基於Segment-Anything-2（SAM2）和Segment-Anything-1（SAM1）的自動全視頻分割工具，它能夠對視頻中的每個對象進行追蹤，並檢測可能的新對象。該工具的重要性在於它能夠提供靜態分割結果，並利用SAM2對這些結果進行追蹤，這對於視頻內容分析、對象識別和視頻編輯等領域具有重要意義。產品背景信息顯示，它是由zrporz開發的，並且是基於Facebook Research的SAM2和zrporz自己的SAM1。價格方面，由於這是一個開源項目，因此它是免費的。

TurboLens

TurboLens是一個集OCR、計算機視覺和生成式AI於一體的全功能平臺，它能夠自動化地從非結構化圖像中快速生成洞見，簡化工作流程。產品背景信息顯示，TurboLens旨在通過其創新的OCR技術和AI驅動的翻譯及分析套件，從印刷和手寫文檔中提取定製化的洞見。此外，TurboLens還提供了數學公式和表格識別功能，將圖像轉換為可操作的數據，並將數學公式翻譯成LaTeX格式，表格轉換為Excel格式。產品價格方面，TurboLens提供免費和付費兩種計劃，滿足不同用戶的需求。

計算機視覺

LLaMA-Mesh

LLaMA-Mesh是一項將大型語言模型（LLMs）預訓練在文本上擴展到生成3D網格的能力的技術。這項技術利用了LLMs中已經嵌入的空間知識，並實現了對話式3D生成和網格理解。LLaMA-Mesh的主要優勢在於它能夠將3D網格的頂點座標和麵定義表示為純文本，允許與LLMs直接集成而無需擴展詞彙表。該技術的主要優點包括能夠從文本提示生成3D網格、按需產生交錯的文本和3D網格輸出，以及理解和解釋3D網格。LLaMA-Mesh在保持強大的文本生成性能的同時，實現了與從頭開始訓練的模型相當的網格生成質量。

CountAnything

CountAnything是一個前沿應用，利用先進的計算機視覺算法實現自動、準確的物體計數。它適用於多種場景，包括工業、養殖業、建築、醫藥和零售等。該產品的主要優點在於其高精度和高效率，能夠顯著提升計數工作的準確性和速度。產品背景信息顯示，CountAnything目前已開放給非中國大陸地區用戶使用，並且提供免費試用。

NVIDIA AI Blueprint

NVIDIA AI Blueprint

NVIDIA AI Blueprint for Video Search and Summarization是一個基於NVIDIA NIM微服務和生成式AI模型的參考工作流程，用於構建能夠理解自然語言提示並執行視覺問題回答的視覺AI代理。這些代理可以部署在工廠、倉庫、零售店、機場、交通路口等多種場景中，幫助運營團隊從自然交互中生成的豐富洞察中做出更好的決策。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase