

Vdr 2b Multi V1
簡介 :
vdr-2b-multi-v1 是一款由 Hugging Face 推出的多語言嵌入模型,專為視覺文檔檢索設計。該模型能夠將文檔頁面截圖編碼為密集的單向量表示,無需 OCR 或數據提取流程即可搜索和查詢多語言視覺豐富的文檔。基於 MrLight/dse-qwen2-2b-mrl-v1 開發,使用自建的多語言查詢 - 圖像對數據集進行訓練,是 mcdse-2b-v1 的升級版,性能更強大。模型支持意大利語、西班牙語、英語、法語和德語,擁有 50 萬高質量樣本的開源多語言合成訓練數據集,具有低 VRAM 和快速推理的特點,在跨語言檢索方面表現出色。
需求人群 :
適用於需要進行多語言視覺文檔檢索的用戶,如研究人員、企業分析師、內容創作者等,尤其適合在語言多樣化的環境中快速準確地查找文檔信息。
使用場景
研究人員可以利用該模型快速檢索不同語言的學術文獻中的關鍵圖表和內容。
企業分析師能夠跨語言搜索行業報告中的可視化數據和分析結果。
內容創作者可以方便地查找多語言文檔中的靈感素材和參考資料。
產品特色
支持多語言(意大利語、西班牙語、英語、法語、德語)文檔檢索
低 VRAM 和快速推理,推理速度比基礎模型快 3 倍,VRAM 使用量更低
跨語言檢索能力強,可實現不同語言間的文檔搜索
採用 Matryoshka 表示學習,可將向量大小縮小 3 倍,同時保持 98% 的嵌入質量
提供 SentenceTransformers 和 LlamaIndex 直接集成,易於生成嵌入
使用教程
1. 通過 pip 安裝 llama-index-embeddings-huggingface 或 sentence-transformers 庫。
2. 導入相應的模型類,如 HuggingFaceEmbedding 或 SentenceTransformer。
3. 創建模型實例,指定模型名稱和其他參數,如設備類型。
4. 使用模型的 get_image_embedding 或 encode 方法,傳入圖像文件路徑或查詢文本,獲取嵌入向量。
5. 利用得到的嵌入向量進行文檔檢索等操作。