VCoder
V
Vcoder
简介 :
VCoder是一个适配器,可通过辅助感知模式作为控制输入来提高多模态大型语言模型在对象级视觉任务上的性能。VCoder LLaVA是基于LLaVA-1.5构建的。VCoder不微调LLaVA-1.5的参数,因此在通用的问答基准测试中的性能与LLaVA-1.5相同。VCoder在COST数据集上进行了基准测试,在语义、实例和全景分割任务上都取得了不错的性能。作者还发布了模型的检测结果和预训练模型。
需求人群 :
适用于需要多模态语言模型处理图像的语义理解、问答等任务
总访问量: 474.6M
占比最多地区: US(19.34%)
本站浏览量 : 54.1K
使用场景
使用VCoder LLaVA在COST数据集上进行对象分割
将VCoder作为适配器添加到多模态语言模型中
加载VCoder的预训练模型进行图像理解任务
产品特色
辅助多模态语言模型处理图像
提高在对象级视觉任务上的性能
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase