VSP-LLM
V
VSP LLM
簡介 :
VSP-LLM是一個結合視覺語音處理(Visual Speech Processing)與大型語言模型(LLMs)的框架,旨在通過LLMs的強大能力最大化上下文建模能力。VSP-LLM設計用於執行視覺語音識別和翻譯的多任務,通過自監督視覺語音模型將輸入視頻映射到LLM的輸入潛在空間。該框架通過提出一種新穎的去重方法和低秩適配器(LoRA),可以高效地進行訓練。
需求人群 :
["多語言語音識別","跨語言視頻內容理解","即時語音翻譯"]
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 175.5K
使用場景
在多語言環境中,使用VSP-LLM進行即時語音翻譯
利用VSP-LLM分析視頻內容,提取關鍵信息並生成摘要
在教育應用中,使用VSP-LLM輔助語言學習,提高語音識別準確性
產品特色
視覺語音識別
視覺語音翻譯
自監督學習
去重和低秩適配器訓練
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase