
使用场景
Gemini 1.5 Pro在不同视频长度和子类别中的准确度评分
GPT-4o和GPT-4V在视频分析任务中的表现对比
LLaVA-NeXT-Video模型在不同视频任务中的评分结果
产品特色
提供短、中、长视频的准确度评分
包含6个主要领域和30个子类别的视频类型
全面覆盖视频长度和任务类型
新收集并由人工标注的数据,非现有视频数据集
提供视频类别层级和视频时长及任务类型分布的统计信息
与其他基准测试进行比较,突出Video-MME的独特优势
使用教程
访问Video-MME的官方网站
了解不同视频长度和任务类型的评估标准
选择感兴趣的MLLMs模型进行性能测试
提交模型并获取在不同视频子类别中的表现结果
分析结果,与其他模型或基准进行比较
利用评估结果优化和改进MLLMs模型
精选AI产品推荐

Deepeval
DeepEval提供了不同方面的度量来评估LLM对问题的回答,以确保答案是相关的、一致的、无偏见的、非有毒的。这些可以很好地与CI/CD管道集成在一起,允许机器学习工程师快速评估并检查他们改进LLM应用程序时,LLM应用程序的性能是否良好。DeepEval提供了一种Python友好的离线评估方法,确保您的管道准备好投入生产。它就像是“针对您的管道的Pytest”,使生产和评估管道的过程与通过所有测试一样简单直接。
AI模型评测
171.9K

Gpteval3d
GPTEval3D是一个开源的3D生成模型评价工具,基于GPT-4V实现了对文本到3D生成模型的自动评测。它可以计算生成模型的ELO分数,并与现有模型进行对比排名。该工具简单易用,支持用户自定义评测数据集,可以充分发挥GPT-4V的评测效果,是研究3D生成任务的有力工具。
AI模型评测
79.8K