MA-LMM
M
MA LMM
簡介 :
MA-LMM是一種基於大語言模型的大規模多模態模型,主要針對長期視頻理解進行設計。它採用在線處理視頻的方式,並使用記憶庫存儲過去的視頻信息,從而可以在不超過語言模型上下文長度限制或GPU內存限制的情況下,參考歷史視頻內容進行長期分析。MA-LMM可以無縫集成到當前的多模態語言模型中,並在長視頻理解、視頻問答和視頻字幕等任務上取得了領先的性能。
需求人群 :
用於長期視頻理解、視頻問答和視頻字幕等應用場景
總訪問量: 289
佔比最多地區: US(100.00%)
本站瀏覽量 : 76.2K
使用場景
在長視頻數據集上評估MA-LMM的長期視頻理解能力
在視頻問答任務中使用MA-LMM進行問題回答
將MA-LMM集成到視頻字幕生成系統中,提升字幕生成質量
產品特色
在線處理視頻幀
使用長期記憶庫存儲視頻信息
支持長期視頻理解
集成到多模態語言模型中
在多項視頻理解任務上取得領先性能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase