Mmstar : 一個用於評估大型視覺語言模型的精英基準測試集

Mmstar

AI模型評測 AI學術研究 #視覺語言模型 #基準測試 #多模態 #人工審查 #數據洩露 #評估指標普通產品開源

簡介 :

MMStar是一個旨在評估大型視覺語言模型多模態能力的基準測試集。它包含1500個精心挑選的視覺語言樣本,涵蓋6個核心能力和18個細分維度。每個樣本都經過了人工審查,確保具有視覺依賴性,最小化數據洩露,並需要高級多模態能力來解決。除了傳統的準確性指標外,MMStar還提出了兩個新的指標來衡量數據洩露和多模態訓練的實際性能增益。研究人員可以使用MMStar評估視覺語言模型在多個任務上的多模態能力,並藉助新的指標發現模型中存在的潛在問題。

需求人群 :

MMStar主要用於評估和分析大型視覺語言模型在多模態任務上的能力表現,有助於發現模型潛在的問題並指導未來的模型改進。

總訪問量： 62

佔比最多地區： US(100.00%)

本站瀏覽量： 50.0K

使用場景

研究人員可以使用MMStar評估自己訓練的視覺語言模型在不同視覺語言任務上的表現。

模型開發者可以通過MMStar發現自己模型存在的數據洩露問題,並採取相應措施。

基準測試的結果可以為進一步改進現有視覺語言模型提供指導和啟發。

產品特色

包含1500個高質量視覺語言樣本

覆蓋6個核心能力和18個細分維度