Vary Toy : 小型語言模型結合增強視覺詞彙

Vary Toy

AI模型 AI 模型推理訓練 #小型模型 #視覺詞彙 #LVLMs #普通GPU 普通產品開源

簡介 :

Vary-toy是一個小型Vary模型，基於Qwen-1.8B作為基礎“大”語言模型。Vary-toy引入了改進的視覺詞彙，使模型不僅具備Vary的所有特性，還具有更廣泛的泛化能力。具體來說，在生成視覺詞彙的過程中，我們用目標檢測驅動的正樣本數據替換自然圖像的負樣本，更充分地利用了詞彙網絡的容量，使其能夠高效地編碼與自然物體對應的視覺信息。在實驗中，Vary-toy在DocVQA上實現了65.6%的ANLS，在ChartQA上實現了59.1%的準確率，在RefCOCO上實現了88.1%的準確率，在MMVet上實現了29%的準確率。定價：免費試用，付費版本定價待定。定位：為研究人員提供在資源有限的情況下在普通GPU上訓練和部署LVLMs的解決方案。

需求人群 :

研究人員在資源有限的情況下在普通GPU上訓練和部署LVLMs

總訪問量： 29.7M

佔比最多地區： US(17.58%)

本站瀏覽量： 74.8K

使用場景

研究人員使用Vary-toy在普通GPU上進行文檔視覺問答實驗

研究人員使用Vary-toy在普通GPU上進行圖表問答實驗

研究人員使用Vary-toy在普通GPU上進行引用關注指代實驗

產品特色

基於Qwen-1.8B的小型Vary模型

引入改進的視覺詞彙