基准测试

# 基准测试

Elimination Game

Elimination Game

Elimination Game 是一种创新的基准测试框架，用于评估大语言模型（LLMs）在复杂社交环境中的表现。它模拟了类似‘狼人杀’的多玩家竞争场景，通过公开讨论、私下交流和投票淘汰机制，测试模型的社交推理、策略选择和欺骗能力。该框架不仅为研究 AI 在社交博弈中的智能性提供了重要工具，还为开发者提供了洞察模型在现实社交场景中潜力的机会。其主要优点包括多轮互动设计、动态联盟与背叛机制以及详细的评估指标，能够全面衡量 AI 的社交能力。

M2RAG

M2RAG是一个用于多模态上下文中的检索增强生成的基准测试代码库。它通过多模态检索文档来回答问题，评估多模态大语言模型（MLLMs）在利用多模态上下文知识方面的能力。该模型在图像描述、多模态问答、事实验证和图像重排等任务上进行了评估，旨在提升模型在多模态上下文学习中的有效性。M2RAG为研究人员提供了一个标准化的测试平台，有助于推动多模态语言模型的发展。

ZeroBench

ZeroBench 是一个专为评估大型多模态模型（LMMs）视觉理解能力而设计的基准测试。它通过 100 个精心设计且经过严格审查的复杂问题，以及 334 个子问题，挑战当前模型的极限。该基准测试旨在填补现有视觉基准的不足，提供更具挑战性和高质量的评估工具。ZeroBench 的主要优点是其高难度、轻量级、多样化和高质量的特点，使其能够有效区分模型的性能。此外，它还提供了详细的子问题评估，帮助研究人员更好地理解模型的推理能力。

SWE-Lancer

SWE-Lancer 是由 OpenAI 推出的一个基准测试，旨在评估前沿语言模型在真实世界中的自由软件工程任务中的表现。该基准测试涵盖了从 50 美元的漏洞修复到 32000 美元的功能实现等多种独立工程任务，以及模型在技术实现方案之间的选择等管理任务。通过模型将性能映射到货币价值，SWE-Lancer 为研究 AI 模型开发的经济影响提供了新的视角，并推动了相关研究的发展。

Humanity's Last Exam

Humanity's Last Exam

Humanity's Last Exam 是一个由全球专家合作开发的多模态基准测试，旨在衡量大型语言模型在学术领域的表现。它包含来自 50 个国家超过 500 个机构的近 1000 名专家贡献的 3000 个问题，覆盖超过 100 个学科。该测试旨在成为最终的封闭式学术基准，通过挑战模型的极限来推动人工智能技术的发展。其主要优点是难度高，能够有效评估模型在复杂学术问题上的表现。

Procyon AI Image Generation Benchmark

Procyon AI Image Generation Benchmark

Procyon AI Image Generation Benchmark 是一款由 UL Solutions 开发的基准测试工具，旨在为专业用户提供一个一致、准确且易于理解的工作负载，用以测量设备上 AI 加速器的推理性能。该基准测试与多个关键行业成员合作开发，确保在所有支持的硬件上产生公平且可比较的结果。它包括三个测试，可测量从低功耗 NPU 到高端独立显卡的性能。用户可以通过 Procyon 应用程序或命令行进行配置和运行，支持 NVIDIA® TensorRT™、Intel® OpenVINO™ 和 ONNX with DirectML 等多种推理引擎。产品主要面向工程团队，适用于评估推理引擎实现和专用硬件的通用 AI 性能。价格方面，提供免费试用，正式版为年度场地许可，需付费获取报价。

FlagPerf

FlagPerf是由智源研究院联合AI硬件厂商共建的一体化AI硬件评测引擎，旨在建立以产业实践为导向的指标体系，评测AI硬件在软件栈组合（模型+框架+编译器）下的实际能力。该平台支持多维度评测指标体系，覆盖大模型训练推理场景，并支持多训练框架及推理引擎，连接AI硬件与软件生态。

开发与工具

Procyon AI Text Generation Benchmark

Procyon AI Text Generation Benchmark

Procyon AI Text Generation Benchmark 是一款专门用于测试和评估AI本地大型语言模型（LLM）性能的基准测试工具。它通过与AI软硬件领域的领导者紧密合作，确保测试能够充分利用系统中的本地AI加速硬件。该工具简化了PC性能比较和成本合理化，验证和标准化PC性能，并简化IT团队的PC生命周期管理，允许快速做出决策，以提供PC性能，降低硬件成本，节省测试时间。

模型训练与部署

Procyon Professional Benchmark Suite

Procyon Professional Benchmark Suite

Procyon是由UL Solutions开发的一套性能测试基准工具，专为工业、企业、政府、零售和媒体的专业用户设计。Procyon套件中的每个基准测试都提供了一致且熟悉的体验，并共享一套共同的设计和功能。灵活的许可模式意味着用户可以根据自己的需求选择适合的单个基准测试。Procyon基准测试套件很快将提供一系列针对专业用户的基准测试和性能测试，每个基准测试都针对特定用例设计，并尽可能使用真实应用。UL Solutions与行业合作伙伴紧密合作，确保每个Procyon基准测试准确、相关且公正。

开发与工具

FACTS Grounding

FACTS Grounding

FACTS Grounding是Google DeepMind推出的一个全面基准测试，旨在评估大型语言模型（LLMs）生成的回应是否不仅在给定输入方面事实准确，而且足够详细，能够为用户提供满意的答案。这一基准测试对于提高LLMs在现实世界中应用的信任度和准确性至关重要，有助于推动整个行业在事实性和基础性方面的进步。

Procyon AI Inference Benchmark for Android

Procyon AI Inference Benchmark For Android

Procyon AI Inference Benchmark for Android是一款基于NNAPI的基准测试工具，用于衡量Android设备上的AI性能和质量。它通过一系列流行的、最先进的神经网络模型来执行常见的机器视觉任务，帮助工程团队独立、标准化地评估NNAPI实现和专用移动硬件的AI性能。该工具不仅能够测量Android设备上专用AI处理硬件的性能，还能够验证NNAPI实现的质量，对于优化硬件加速器的驱动程序、比较浮点和整数优化模型的性能具有重要意义。

开发与工具

MLPerf Client

MLPerf Client是由MLCommons共同开发的新基准测试，旨在评估个人电脑（从笔记本、台式机到工作站）上大型语言模型（LLMs）和其他AI工作负载的性能。该基准测试通过模拟真实世界的AI任务，提供清晰的指标，以了解系统如何处理生成性AI工作负载。MLPerf Client工作组希望这个基准测试能够推动创新和竞争，确保个人电脑能够应对AI驱动的未来挑战。

模型训练与部署

P-MMEval

P-MMEval是一个多语言基准测试，覆盖了基础和能力专业化的数据集。它扩展了现有的基准测试，确保所有数据集在语言覆盖上保持一致，并在多种语言之间提供平行样本，支持多达10种语言，涵盖8个语言家族。P-MMEval有助于全面评估多语言能力，并进行跨语言可转移性的比较分析。

FrontierMath

FrontierMath是一个数学基准测试平台，旨在测试人工智能在解决复杂数学问题上的能力极限。它由超过60位数学家共同创建，覆盖了从代数几何到Zermelo-Fraenkel集合论的现代数学全谱。FrontierMath的每个问题都要求专家数学家投入数小时的工作，即使是最先进的AI系统，如GPT-4和Gemini，也仅能解决不到2%的问题。这个平台提供了一个真正的评估环境，所有问题都是新的且未发表的，消除了现有基准测试中普遍存在的数据污染问题。

PARTNR

PARTNR是由Meta FAIR发布的一个大规模基准测试，包含100,000个自然语言任务，旨在研究多智能体推理和规划。PARTNR利用大型语言模型（LLMs）生成任务，并通过模拟循环来减少错误。它还支持与真实人类伙伴的AI代理评估，通过人类在环基础设施进行。PARTNR揭示了现有基于LLM的规划器在任务协调、跟踪和从错误中恢复方面的显著局限性，人类能解决93%的任务，而LLMs仅能解决30%。

SimpleQA

SimpleQA是OpenAI发布的一个事实性基准测试，旨在衡量语言模型回答简短、寻求事实的问题的能力。它通过提供高正确性、多样性、挑战性和良好的研究者体验的数据集，帮助评估和提升语言模型的准确性和可靠性。这个基准测试对于训练能够产生事实正确响应的模型是一个重要的进步，有助于提高模型的可信度，并拓宽其应用范围。

Cheating LLM Benchmarks

Cheating LLM Benchmarks

Cheating LLM Benchmarks 是一个研究项目，旨在通过构建所谓的“零模型”（null models）来探索在自动语言模型（LLM）基准测试中的作弊行为。该项目通过实验发现，即使是简单的零模型也能在这些基准测试中取得高胜率，这挑战了现有基准测试的有效性和可靠性。该研究对于理解当前语言模型的局限性和改进基准测试方法具有重要意义。

MLE-bench

MLE-bench是由OpenAI推出的一个基准测试，旨在衡量AI代理在机器学习工程方面的表现。该基准测试汇集了75个来自Kaggle的机器学习工程相关竞赛，形成了一套多样化的挑战性任务，测试了训练模型、准备数据集和运行实验等现实世界中的机器学习工程技能。通过Kaggle公开的排行榜数据，为每项竞赛建立了人类基准。使用开源代理框架评估了多个前沿语言模型在该基准上的表现，发现表现最佳的设置——OpenAI的o1-preview配合AIDE框架——在16.9%的竞赛中至少达到了Kaggle铜牌的水平。此外，还研究了AI代理的各种资源扩展形式以及预训练污染的影响。MLE-bench的基准代码已经开源，以促进未来对AI代理机器学习工程能力的理解。

LLaVA-Video

LLaVA-Video是一个专注于视频指令调优的大型多模态模型（LMMs），通过创建高质量的合成数据集LLaVA-Video-178K来解决从网络获取大量高质量原始数据的难题。该数据集包括详细的视频描述、开放式问答和多项选择问答等任务，旨在提高视频语言模型的理解和推理能力。LLaVA-Video模型在多个视频基准测试中表现出色，证明了其数据集的有效性。

TAG-Bench

TAG-Bench是一个用于评估和研究自然语言处理模型在回答数据库查询方面性能的基准测试。它基于BIRD Text2SQL基准测试构建，并通过增加对世界知识或超越数据库中明确信息的语义推理要求，提高了查询的复杂性。TAG-Bench旨在推动AI和数据库技术的融合，通过模拟真实的数据库查询场景，为研究者提供了一个挑战现有模型的平台。

Turtle Benchmark

Turtle Benchmark

Turtle Benchmark是一款基于'Turtle Soup'游戏的新型、无法作弊的基准测试，专注于评估大型语言模型（LLMs）的逻辑推理和上下文理解能力。它通过消除对背景知识的需求，提供了客观和无偏见的测试结果，具有可量化的结果，并且通过使用真实用户生成的问题，使得模型无法被'游戏化'。

llm-colosseum

llm-colosseum是一个创新的基准测试工具，它使用街霸3游戏来评估大型语言模型（LLM）的实时决策能力。与传统的基准测试不同，这个工具通过模拟实际游戏场景来测试模型的快速反应、智能策略、创新思维、适应性和恢复力。

DCLM-baseline

DCLM-baseline是一个用于语言模型基准测试的预训练数据集，包含4T个token和3B个文档。它通过精心策划的数据清洗、过滤和去重步骤，从Common Crawl数据集中提取，旨在展示数据策划在训练高效语言模型中的重要性。该数据集仅供研究使用，不适用于生产环境或特定领域的模型训练，如代码和数学。

LAMDA-TALENT

LAMDA-TALENT是一个综合的表格数据分析工具箱和基准测试平台，它集成了20多种深度学习方法、10多种传统方法以及300多个多样化的表格数据集。该工具箱旨在提高模型在表格数据上的性能，提供强大的预处理能力，优化数据学习，并支持用户友好和适应性强的操作，适用于新手和专家数据科学家。

LVBench

LVBench是一个专门设计用于长视频理解的基准测试，旨在推动多模态大型语言模型在理解数小时长视频方面的能力，这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。

KnowEdit

KnowEdit是一个专注于大型语言模型（LLMs）的知识编辑基准测试。它提供了一个综合的评估框架，用于测试和比较不同的知识编辑方法在修改特定领域内LLMs行为时的有效性，同时保持跨各种输入的整体性能。KnowEdit基准测试包括六个不同的数据集，涵盖了事实操作、情感修改和幻觉生成等多种编辑类型。该基准测试旨在帮助研究者和开发者更好地理解和改进知识编辑技术，推动LLMs的持续发展和应用。

LMSYS Chatbot Arena

LMSYS Chatbot Arena

LMSYS Chatbot Arena 是一个在线平台，旨在通过用户与匿名聊天机器人模型的互动，对大型语言模型(Large Language Models, LLMs)进行基准测试。该平台收集了超过70万次人类投票，计算出LLM的Elo排行榜，以确定谁是聊天机器人领域的冠军。平台提供了一个研究预览，具有有限的安全措施，可能生成不当内容，因此需要用户遵守特定的使用条款。

聊天机器人

VQAScore

Evaluating Text-to-Visual Generation with Image-to-Text Generation提出了一种新的评估指标VQAScore,能够更好地评估复杂的文本到视觉生成效果,并引入了GenAI-Bench基准测试集。VQAScore基于CLIP-FlanT5模型,能够在文本到图像/视频/3D生成评估中取得最佳性能,是一种强大的替代CLIPScore的方案。GenAI-Bench则提供了包含丰富组合语义的实际场景测试文本,可用于全面评估生成模型的性能。

GenAI-Arena

GenAI-Arena是一个用于在野外对视觉生成模型进行基准测试的平台。用户可以匿名参与竞技，对比目标模型的表现，并投票选出更优秀的模型。平台支持不同领域的匿名模型对决，帮助用户找到最佳的条件图像生成模型。用户可以点击“New Round”开始新的对决，并通过点击按钮投票选择更优秀的模型。

MMStar

MMStar是一个旨在评估大型视觉语言模型多模态能力的基准测试集。它包含1500个精心挑选的视觉语言样本,涵盖6个核心能力和18个细分维度。每个样本都经过了人工审查,确保具有视觉依赖性,最小化数据泄露,并需要高级多模态能力来解决。除了传统的准确性指标外,MMStar还提出了两个新的指标来衡量数据泄露和多模态训练的实际性能增益。研究人员可以使用MMStar评估视觉语言模型在多个任务上的多模态能力,并借助新的指标发现模型中存在的潜在问题。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase