
使用場景
Gemini 1.5 Pro在不同視頻長度和子類別中的準確度評分
GPT-4o和GPT-4V在視頻分析任務中的表現對比
LLaVA-NeXT-Video模型在不同視頻任務中的評分結果
產品特色
提供短、中、長視頻的準確度評分
包含6個主要領域和30個子類別的視頻類型
全面覆蓋視頻長度和任務類型
新收集並由人工標註的數據,非現有視頻數據集
提供視頻類別層級和視頻時長及任務類型分佈的統計信息
與其他基準測試進行比較,突出Video-MME的獨特優勢
使用教程
訪問Video-MME的官方網站
瞭解不同視頻長度和任務類型的評估標準
選擇感興趣的MLLMs模型進行性能測試
提交模型並獲取在不同視頻子類別中的表現結果
分析結果,與其他模型或基準進行比較
利用評估結果優化和改進MLLMs模型
精選AI產品推薦

Deepeval
DeepEval提供了不同方面的度量來評估LLM對問題的回答,以確保答案是相關的、一致的、無偏見的、非有毒的。這些可以很好地與CI/CD管道集成在一起,允許機器學習工程師快速評估並檢查他們改進LLM應用程序時,LLM應用程序的性能是否良好。DeepEval提供了一種Python友好的離線評估方法,確保您的管道準備好投入生產。它就像是“針對您的管道的Pytest”,使生產和評估管道的過程與通過所有測試一樣簡單直接。
AI模型評測
169.7K

Gpteval3d
GPTEval3D是一個開源的3D生成模型評價工具,基於GPT-4V實現了對文本到3D生成模型的自動評測。它可以計算生成模型的ELO分數,並與現有模型進行對比排名。該工具簡單易用,支持用戶自定義評測數據集,可以充分發揮GPT-4V的評測效果,是研究3D生成任務的有力工具。
AI模型評測
76.5K