Longvu : 長視頻語言理解的時空自適應壓縮模型

Longvu

模型訓練與部署研究工具 #視頻理解 #時空壓縮 #人工智能 #機器學習 #大型語言模型普通產品開源

簡介 :

LongVU是一種創新的長視頻語言理解模型，通過時空自適應壓縮機制減少視頻標記的數量，同時保留長視頻中的視覺細節。這一技術的重要性在於它能夠處理大量視頻幀，且在有限的上下文長度內僅損失少量視覺信息，顯著提升了長視頻內容理解和分析的能力。LongVU在多種視頻理解基準測試中均超越了現有方法，尤其是在理解長達一小時的視頻任務上。此外，LongVU還能夠有效地擴展到更小的模型尺寸，同時保持最先進的視頻理解性能。

需求人群 :

LongVU的目標受眾是視頻內容分析和理解領域的研究人員和開發者，尤其是那些需要處理長視頻內容並希望在有限計算資源下實現高效視頻理解的專業人士。此外，對於希望在視頻分析領域應用最新人工智能技術的企業和機構，LongVU提供了一種先進的解決方案。

總訪問量： 1.9K

佔比最多地區： US(100.00%)

本站瀏覽量： 51.6K

使用場景

用戶詢問視頻內容細節，LongVU能夠提供詳細的視頻場景描述。

用戶提出關於視頻中特定動作的問題，LongVU能夠準確識別並回答。

用戶需要了解視頻中特定物體的移動方向，LongVU能夠準確識別並描述物體運動。

產品特色

利用DINOv2特徵去除高相似性的冗餘幀

使用文本引導的跨模態查詢進行選擇性幀特徵縮減