Vary-toy
V
Vary Toy
簡介 :
Vary-toy是一個小型Vary模型,基於Qwen-1.8B作為基礎“大”語言模型。Vary-toy引入了改進的視覺詞彙,使模型不僅具備Vary的所有特性,還具有更廣泛的泛化能力。具體來說,在生成視覺詞彙的過程中,我們用目標檢測驅動的正樣本數據替換自然圖像的負樣本,更充分地利用了詞彙網絡的容量,使其能夠高效地編碼與自然物體對應的視覺信息。在實驗中,Vary-toy在DocVQA上實現了65.6%的ANLS,在ChartQA上實現了59.1%的準確率,在RefCOCO上實現了88.1%的準確率,在MMVet上實現了29%的準確率。定價:免費試用,付費版本定價待定。定位:為研究人員提供在資源有限的情況下在普通GPU上訓練和部署LVLMs的解決方案。
需求人群 :
研究人員在資源有限的情況下在普通GPU上訓練和部署LVLMs
總訪問量: 29.7M
佔比最多地區: US(17.58%)
本站瀏覽量 : 74.8K
使用場景
研究人員使用Vary-toy在普通GPU上進行文檔視覺問答實驗
研究人員使用Vary-toy在普通GPU上進行圖表問答實驗
研究人員使用Vary-toy在普通GPU上進行引用關注指代實驗
產品特色
基於Qwen-1.8B的小型Vary模型
引入改進的視覺詞彙
替換自然圖像的負樣本為目標檢測驅動的正樣本數據
高效編碼與自然物體對應的視覺信息
在DocVQA、ChartQA、RefCOCO、MMVet上取得良好性能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase