

Multi Modal Large Language Models
簡介 :
該工具旨在通過對最新專有和開源MLLMs進行定性研究,從文本、代碼、圖像和視頻四個模態的角度,評估其泛化能力、可信度和因果推理能力,以提高MLLMs的透明度。我們相信這些屬性是定義MLLMs可靠性的幾個代表性因素,支持各種下游應用。具體而言,我們評估了閉源的GPT-4和Gemini以及6個開源LLMs和MLLMs。總體上,我們評估了230個手動設計的案例,定性結果總結為12個分數(即4個模態乘以3個屬性)。總共,我們揭示了14個實證發現,有助於瞭解專有和開源MLLMs的能力和侷限性,以更可靠地支持多模態下游應用。
需求人群 :
用於評估多模態大型語言模型的性能和可靠性
使用場景
用於評估一個新的多模態大型語言模型在文本生成方面的性能
用於評估一個開源MLLM在圖像處理方面的可信度
用於評估一個專有MLLM在視頻內容理解方面的泛化能力
產品特色
評估MLLMs的泛化能力、可信度和因果推理能力
支持各種下游應用
精選AI產品推薦

Deepeval
DeepEval提供了不同方面的度量來評估LLM對問題的回答,以確保答案是相關的、一致的、無偏見的、非有毒的。這些可以很好地與CI/CD管道集成在一起,允許機器學習工程師快速評估並檢查他們改進LLM應用程序時,LLM應用程序的性能是否良好。DeepEval提供了一種Python友好的離線評估方法,確保您的管道準備好投入生產。它就像是“針對您的管道的Pytest”,使生產和評估管道的過程與通過所有測試一樣簡單直接。
AI模型評測
170.6K

Gpteval3d
GPTEval3D是一個開源的3D生成模型評價工具,基於GPT-4V實現了對文本到3D生成模型的自動評測。它可以計算生成模型的ELO分數,並與現有模型進行對比排名。該工具簡單易用,支持用戶自定義評測數據集,可以充分發揮GPT-4V的評測效果,是研究3D生成任務的有力工具。
AI模型評測
78.7K