VSP-LLM
V
VSP LLM
简介 :
VSP-LLM是一个结合视觉语音处理(Visual Speech Processing)与大型语言模型(LLMs)的框架,旨在通过LLMs的强大能力最大化上下文建模能力。VSP-LLM设计用于执行视觉语音识别和翻译的多任务,通过自监督视觉语音模型将输入视频映射到LLM的输入潜在空间。该框架通过提出一种新颖的去重方法和低秩适配器(LoRA),可以高效地进行训练。
需求人群 :
["多语言语音识别","跨语言视频内容理解","实时语音翻译"]
总访问量: 474.6M
占比最多地区: US(19.34%)
本站浏览量 : 176.9K
使用场景
在多语言环境中,使用VSP-LLM进行实时语音翻译
利用VSP-LLM分析视频内容,提取关键信息并生成摘要
在教育应用中,使用VSP-LLM辅助语言学习,提高语音识别准确性
产品特色
视觉语音识别
视觉语音翻译
自监督学习
去重和低秩适配器训练
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase