vdr-2b-multi-v1
V
Vdr 2b Multi V1
简介 :
vdr-2b-multi-v1 是一款由 Hugging Face 推出的多语言嵌入模型,专为视觉文档检索设计。该模型能够将文档页面截图编码为密集的单向量表示,无需 OCR 或数据提取流程即可搜索和查询多语言视觉丰富的文档。基于 MrLight/dse-qwen2-2b-mrl-v1 开发,使用自建的多语言查询 - 图像对数据集进行训练,是 mcdse-2b-v1 的升级版,性能更强大。模型支持意大利语、西班牙语、英语、法语和德语,拥有 50 万高质量样本的开源多语言合成训练数据集,具有低 VRAM 和快速推理的特点,在跨语言检索方面表现出色。
需求人群 :
适用于需要进行多语言视觉文档检索的用户,如研究人员、企业分析师、内容创作者等,尤其适合在语言多样化的环境中快速准确地查找文档信息。
总访问量: 29.7M
占比最多地区: US(17.94%)
本站浏览量 : 53.3K
使用场景
研究人员可以利用该模型快速检索不同语言的学术文献中的关键图表和内容。
企业分析师能够跨语言搜索行业报告中的可视化数据和分析结果。
内容创作者可以方便地查找多语言文档中的灵感素材和参考资料。
产品特色
支持多语言(意大利语、西班牙语、英语、法语、德语)文档检索
低 VRAM 和快速推理,推理速度比基础模型快 3 倍,VRAM 使用量更低
跨语言检索能力强,可实现不同语言间的文档搜索
采用 Matryoshka 表示学习,可将向量大小缩小 3 倍,同时保持 98% 的嵌入质量
提供 SentenceTransformers 和 LlamaIndex 直接集成,易于生成嵌入
使用教程
1. 通过 pip 安装 llama-index-embeddings-huggingface 或 sentence-transformers 库。
2. 导入相应的模型类,如 HuggingFaceEmbedding 或 SentenceTransformer。
3. 创建模型实例,指定模型名称和其他参数,如设备类型。
4. 使用模型的 get_image_embedding 或 encode 方法,传入图像文件路径或查询文本,获取嵌入向量。
5. 利用得到的嵌入向量进行文档检索等操作。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase