基準測試

# 基準測試

Elimination Game

Elimination Game

Elimination Game 是一種創新的基準測試框架，用於評估大語言模型（LLMs）在複雜社交環境中的表現。它模擬了類似‘狼人殺’的多玩家競爭場景，通過公開討論、私下交流和投票淘汰機制，測試模型的社交推理、策略選擇和欺騙能力。該框架不僅為研究 AI 在社交博弈中的智能性提供了重要工具，還為開發者提供了洞察模型在現實社交場景中潛力的機會。其主要優點包括多輪互動設計、動態聯盟與背叛機制以及詳細的評估指標，能夠全面衡量 AI 的社交能力。

M2RAG

M2RAG是一個用於多模態上下文中的檢索增強生成的基準測試代碼庫。它通過多模態檢索文檔來回答問題，評估多模態大語言模型（MLLMs）在利用多模態上下文知識方面的能力。該模型在圖像描述、多模態問答、事實驗證和圖像重排等任務上進行了評估，旨在提升模型在多模態上下文學習中的有效性。M2RAG為研究人員提供了一個標準化的測試平臺，有助於推動多模態語言模型的發展。

ZeroBench

ZeroBench 是一個專為評估大型多模態模型（LMMs）視覺理解能力而設計的基準測試。它通過 100 個精心設計且經過嚴格審查的複雜問題，以及 334 個子問題，挑戰當前模型的極限。該基準測試旨在填補現有視覺基準的不足，提供更具挑戰性和高質量的評估工具。ZeroBench 的主要優點是其高難度、輕量級、多樣化和高質量的特點，使其能夠有效區分模型的性能。此外，它還提供了詳細的子問題評估，幫助研究人員更好地理解模型的推理能力。

SWE-Lancer

SWE-Lancer 是由 OpenAI 推出的一個基準測試，旨在評估前沿語言模型在真實世界中的自由軟件工程任務中的表現。該基準測試涵蓋了從 50 美元的漏洞修復到 32000 美元的功能實現等多種獨立工程任務，以及模型在技術實現方案之間的選擇等管理任務。通過模型將性能映射到貨幣價值，SWE-Lancer 為研究 AI 模型開發的經濟影響提供了新的視角，並推動了相關研究的發展。

Humanity's Last Exam

Humanity's Last Exam

Humanity's Last Exam 是一個由全球專家合作開發的多模態基準測試，旨在衡量大型語言模型在學術領域的表現。它包含來自 50 個國家超過 500 個機構的近 1000 名專家貢獻的 3000 個問題，覆蓋超過 100 個學科。該測試旨在成為最終的封閉式學術基準，通過挑戰模型的極限來推動人工智能技術的發展。其主要優點是難度高，能夠有效評估模型在複雜學術問題上的表現。

Procyon AI Image Generation Benchmark

Procyon AI Image Generation Benchmark

Procyon AI Image Generation Benchmark 是一款由 UL Solutions 開發的基準測試工具，旨在為專業用戶提供一個一致、準確且易於理解的工作負載，用以測量設備上 AI 加速器的推理性能。該基準測試與多個關鍵行業成員合作開發，確保在所有支持的硬件上產生公平且可比較的結果。它包括三個測試，可測量從低功耗 NPU 到高端獨立顯卡的性能。用戶可以通過 Procyon 應用程序或命令行進行配置和運行，支持 NVIDIA® TensorRT™、Intel® OpenVINO™ 和 ONNX with DirectML 等多種推理引擎。產品主要面向工程團隊，適用於評估推理引擎實現和專用硬件的通用 AI 性能。價格方面，提供免費試用，正式版為年度場地許可，需付費獲取報價。

FlagPerf

FlagPerf是由智源研究院聯合AI硬件廠商共建的一體化AI硬件評測引擎，旨在建立以產業實踐為導向的指標體系，評測AI硬件在軟件棧組合（模型+框架+編譯器）下的實際能力。該平臺支持多維度評測指標體系，覆蓋大模型訓練推理場景，並支持多訓練框架及推理引擎，連接AI硬件與軟件生態。

開發與工具

Procyon AI Text Generation Benchmark

Procyon AI Text Generation Benchmark

Procyon AI Text Generation Benchmark 是一款專門用於測試和評估AI本地大型語言模型（LLM）性能的基準測試工具。它通過與AI軟硬件領域的領導者緊密合作，確保測試能夠充分利用系統中的本地AI加速硬件。該工具簡化了PC性能比較和成本合理化，驗證和標準化PC性能，並簡化IT團隊的PC生命週期管理，允許快速做出決策，以提供PC性能，降低硬件成本，節省測試時間。

模型訓練與部署

Procyon Professional Benchmark Suite

Procyon Professional Benchmark Suite

Procyon是由UL Solutions開發的一套性能測試基準工具，專為工業、企業、政府、零售和媒體的專業用戶設計。Procyon套件中的每個基準測試都提供了一致且熟悉的體驗，並共享一套共同的設計和功能。靈活的許可模式意味著用戶可以根據自己的需求選擇適合的單個基準測試。Procyon基準測試套件很快將提供一系列針對專業用戶的基準測試和性能測試，每個基準測試都針對特定用例設計，並儘可能使用真實應用。UL Solutions與行業合作伙伴緊密合作，確保每個Procyon基準測試準確、相關且公正。

開發與工具

FACTS Grounding

FACTS Grounding

FACTS Grounding是Google DeepMind推出的一個全面基準測試，旨在評估大型語言模型（LLMs）生成的回應是否不僅在給定輸入方面事實準確，而且足夠詳細，能夠為用戶提供滿意的答案。這一基準測試對於提高LLMs在現實世界中應用的信任度和準確性至關重要，有助於推動整個行業在事實性和基礎性方面的進步。

Procyon AI Inference Benchmark for Android

Procyon AI Inference Benchmark For Android

Procyon AI Inference Benchmark for Android是一款基於NNAPI的基準測試工具，用於衡量Android設備上的AI性能和質量。它通過一系列流行的、最先進的神經網絡模型來執行常見的機器視覺任務，幫助工程團隊獨立、標準化地評估NNAPI實現和專用移動硬件的AI性能。該工具不僅能夠測量Android設備上專用AI處理硬件的性能，還能夠驗證NNAPI實現的質量，對於優化硬件加速器的驅動程序、比較浮點和整數優化模型的性能具有重要意義。

開發與工具

MLPerf Client

MLPerf Client是由MLCommons共同開發的新基準測試，旨在評估個人電腦（從筆記本、臺式機到工作站）上大型語言模型（LLMs）和其他AI工作負載的性能。該基準測試通過模擬真實世界的AI任務，提供清晰的指標，以瞭解系統如何處理生成性AI工作負載。MLPerf Client工作組希望這個基準測試能夠推動創新和競爭，確保個人電腦能夠應對AI驅動的未來挑戰。

模型訓練與部署

P-MMEval

P-MMEval是一個多語言基準測試，覆蓋了基礎和能力專業化的數據集。它擴展了現有的基準測試，確保所有數據集在語言覆蓋上保持一致，並在多種語言之間提供平行樣本，支持多達10種語言，涵蓋8個語言家族。P-MMEval有助於全面評估多語言能力，並進行跨語言可轉移性的比較分析。

FrontierMath

FrontierMath是一個數學基準測試平臺，旨在測試人工智能在解決複雜數學問題上的能力極限。它由超過60位數學家共同創建，覆蓋了從代數幾何到Zermelo-Fraenkel集合論的現代數學全譜。FrontierMath的每個問題都要求專家數學家投入數小時的工作，即使是最先進的AI系統，如GPT-4和Gemini，也僅能解決不到2%的問題。這個平臺提供了一個真正的評估環境，所有問題都是新的且未發表的，消除了現有基準測試中普遍存在的數據汙染問題。

PARTNR

PARTNR是由Meta FAIR發佈的一個大規模基準測試，包含100,000個自然語言任務，旨在研究多智能體推理和規劃。PARTNR利用大型語言模型（LLMs）生成任務，並通過模擬循環來減少錯誤。它還支持與真實人類夥伴的AI代理評估，通過人類在環基礎設施進行。PARTNR揭示了現有基於LLM的規劃器在任務協調、跟蹤和從錯誤中恢復方面的顯著侷限性，人類能解決93%的任務，而LLMs僅能解決30%。

SimpleQA

SimpleQA是OpenAI發佈的一個事實性基準測試，旨在衡量語言模型回答簡短、尋求事實的問題的能力。它通過提供高正確性、多樣性、挑戰性和良好的研究者體驗的數據集，幫助評估和提升語言模型的準確性和可靠性。這個基準測試對於訓練能夠產生事實正確響應的模型是一個重要的進步，有助於提高模型的可信度，並拓寬其應用範圍。

Cheating LLM Benchmarks

Cheating LLM Benchmarks

Cheating LLM Benchmarks 是一個研究項目，旨在通過構建所謂的“零模型”（null models）來探索在自動語言模型（LLM）基準測試中的作弊行為。該項目通過實驗發現，即使是簡單的零模型也能在這些基準測試中取得高勝率，這挑戰了現有基準測試的有效性和可靠性。該研究對於理解當前語言模型的侷限性和改進基準測試方法具有重要意義。

MLE-bench

MLE-bench是由OpenAI推出的一個基準測試，旨在衡量AI代理在機器學習工程方面的表現。該基準測試彙集了75個來自Kaggle的機器學習工程相關競賽，形成了一套多樣化的挑戰性任務，測試了訓練模型、準備數據集和運行實驗等現實世界中的機器學習工程技能。通過Kaggle公開的排行榜數據，為每項競賽建立了人類基準。使用開源代理框架評估了多個前沿語言模型在該基準上的表現，發現表現最佳的設置——OpenAI的o1-preview配合AIDE框架——在16.9%的競賽中至少達到了Kaggle銅牌的水平。此外，還研究了AI代理的各種資源擴展形式以及預訓練汙染的影響。MLE-bench的基準代碼已經開源，以促進未來對AI代理機器學習工程能力的理解。

LLaVA-Video

LLaVA-Video是一個專注於視頻指令調優的大型多模態模型（LMMs），通過創建高質量的合成數據集LLaVA-Video-178K來解決從網絡獲取大量高質量原始數據的難題。該數據集包括詳細的視頻描述、開放式問答和多項選擇問答等任務，旨在提高視頻語言模型的理解和推理能力。LLaVA-Video模型在多個視頻基準測試中表現出色，證明了其數據集的有效性。

TAG-Bench

TAG-Bench是一個用於評估和研究自然語言處理模型在回答數據庫查詢方面性能的基準測試。它基於BIRD Text2SQL基準測試構建，並通過增加對世界知識或超越數據庫中明確信息的語義推理要求，提高了查詢的複雜性。TAG-Bench旨在推動AI和數據庫技術的融合，通過模擬真實的數據庫查詢場景，為研究者提供了一個挑戰現有模型的平臺。

Turtle Benchmark

Turtle Benchmark

Turtle Benchmark是一款基於'Turtle Soup'遊戲的新型、無法作弊的基準測試，專注於評估大型語言模型（LLMs）的邏輯推理和上下文理解能力。它通過消除對背景知識的需求，提供了客觀和無偏見的測試結果，具有可量化的結果，並且通過使用真實用戶生成的問題，使得模型無法被'遊戲化'。

llm-colosseum

llm-colosseum是一個創新的基準測試工具，它使用街霸3遊戲來評估大型語言模型（LLM）的即時決策能力。與傳統的基準測試不同，這個工具通過模擬實際遊戲場景來測試模型的快速反應、智能策略、創新思維、適應性和恢復力。

DCLM-baseline

DCLM-baseline是一個用於語言模型基準測試的預訓練數據集，包含4T個token和3B個文檔。它通過精心策劃的數據清洗、過濾和去重步驟，從Common Crawl數據集中提取，旨在展示數據策劃在訓練高效語言模型中的重要性。該數據集僅供研究使用，不適用於生產環境或特定領域的模型訓練，如代碼和數學。

LAMDA-TALENT

LAMDA-TALENT是一個綜合的表格數據分析工具箱和基準測試平臺，它集成了20多種深度學習方法、10多種傳統方法以及300多個多樣化的表格數據集。該工具箱旨在提高模型在表格數據上的性能，提供強大的預處理能力，優化數據學習，並支持用戶友好和適應性強的操作，適用於新手和專家數據科學家。

LVBench

LVBench是一個專門設計用於長視頻理解的基準測試，旨在推動多模態大型語言模型在理解數小時長視頻方面的能力，這對於長期決策制定、深入電影評論和討論、現場體育解說等實際應用至關重要。

KnowEdit

KnowEdit是一個專注於大型語言模型（LLMs）的知識編輯基準測試。它提供了一個綜合的評估框架，用於測試和比較不同的知識編輯方法在修改特定領域內LLMs行為時的有效性，同時保持跨各種輸入的整體性能。KnowEdit基準測試包括六個不同的數據集，涵蓋了事實操作、情感修改和幻覺生成等多種編輯類型。該基準測試旨在幫助研究者和開發者更好地理解和改進知識編輯技術，推動LLMs的持續發展和應用。

LMSYS Chatbot Arena

LMSYS Chatbot Arena

LMSYS Chatbot Arena 是一個在線平臺，旨在通過用戶與匿名聊天機器人模型的互動，對大型語言模型(Large Language Models, LLMs)進行基準測試。該平臺收集了超過70萬次人類投票，計算出LLM的Elo排行榜，以確定誰是聊天機器人領域的冠軍。平臺提供了一個研究預覽，具有有限的安全措施，可能生成不當內容，因此需要用戶遵守特定的使用條款。

聊天機器人

VQAScore

Evaluating Text-to-Visual Generation with Image-to-Text Generation提出了一種新的評估指標VQAScore,能夠更好地評估複雜的文本到視覺生成效果,並引入了GenAI-Bench基準測試集。VQAScore基於CLIP-FlanT5模型,能夠在文本到圖像/視頻/3D生成評估中取得最佳性能,是一種強大的替代CLIPScore的方案。GenAI-Bench則提供了包含豐富組合語義的實際場景測試文本,可用於全面評估生成模型的性能。

GenAI-Arena

GenAI-Arena是一個用於在野外對視覺生成模型進行基準測試的平臺。用戶可以匿名參與競技，對比目標模型的表現，並投票選出更優秀的模型。平臺支持不同領域的匿名模型對決，幫助用戶找到最佳的條件圖像生成模型。用戶可以點擊“New Round”開始新的對決，並通過點擊按鈕投票選擇更優秀的模型。

MMStar

MMStar是一個旨在評估大型視覺語言模型多模態能力的基準測試集。它包含1500個精心挑選的視覺語言樣本,涵蓋6個核心能力和18個細分維度。每個樣本都經過了人工審查,確保具有視覺依賴性,最小化數據洩露,並需要高級多模態能力來解決。除了傳統的準確性指標外,MMStar還提出了兩個新的指標來衡量數據洩露和多模態訓練的實際性能增益。研究人員可以使用MMStar評估視覺語言模型在多個任務上的多模態能力,並藉助新的指標發現模型中存在的潛在問題。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase