ベンチマークテスト

# ベンチマークテスト

Elimination Game

Elimination Game

Elimination Gameは、複雑なソーシャル環境における大規模言語モデル（LLM）の性能を評価するための革新的なベンチマークテストフレームワークです。「人狼ゲーム」のようなマルチプレイヤーの競争シナリオをシミュレートし、公開ディスカッション、非公開コミュニケーション、投票による淘汰メカニズムを通じて、モデルのソーシャル推論、戦略選択、欺瞞能力をテストします。このフレームワークは、AIがソーシャルゲームにおける知性を研究するための重要なツールとなるだけでなく、開発者にとって現実世界のソーシャルシーンにおけるモデルの可能性を理解する機会も提供します。主な利点としては、複数ラウンドのインタラクション設計、動的な同盟と裏切りメカニズム、詳細な評価指標があり、AIのソーシャル能力を包括的に測定できます。

M2RAG

M2RAGは、マルチモーダルコンテキストにおける検索強化生成のためのベンチマークテストコードリポジトリです。マルチモーダル検索ドキュメントを使用して質問に答え、マルチモーダル大規模言語モデル（MLLMs）がマルチモーダルコンテキストの知識を活用する能力を評価します。このモデルは、画像記述、マルチモーダル質問応答、ファクト検証、画像の再配置などのタスクで評価され、マルチモーダルコンテキスト学習におけるモデルの有効性を向上させることを目的としています。M2RAGは、研究者にとって標準化されたテストプラットフォームを提供し、マルチモーダル言語モデルの発展を促進するのに役立ちます。

人類最後の試験 (Humanity's Last Exam)

人類最後の試験 (Humanity's Last Exam)

人類最後の試験 (Humanity's Last Exam) は、世界中の専門家による協働で開発された多様なモダリティを含むベンチマークテストであり、大規模言語モデルの学術分野におけるパフォーマンスを測定することを目的としています。50カ国以上500以上の機関から約1000名の専門家が貢献した3000問以上の問題を含み、100以上の学問分野を網羅しています。本テストは、モデルの限界に挑戦することで人工知能技術の発展を促進することを目的とした、最終的なクローズド型の学術ベンチマークとなることを目指しています。主な利点はその難易度が高く、複雑な学術問題に対するモデルのパフォーマンスを効果的に評価できる点です。

FlagPerf

FlagPerfは、北京智源人工智能研究院とAIハードウェアメーカーが共同で構築した一体型のAIハードウェア評価エンジンです。産業実践を指向した指標体系を構築し、ソフトウェアスタックの組み合わせ（モデル＋フレームワーク＋コンパイラ）下でのAIハードウェアの実際的能力を評価することを目指しています。このプラットフォームは、多様な評価指標体系をサポートし、大規模モデルのトレーニングと推論のシナリオを網羅しており、複数のトレーニングフレームワークと推論エンジンをサポートし、AIハードウェアとソフトウェアエコシステムを接続します。

開発とツール

Procyon AIテキスト生成ベンチマーク

Procyon AIテキスト生成ベンチマーク

Procyon AIテキスト生成ベンチマークは、AIローカル大規模言語モデル（LLM）のパフォーマンスをテストおよび評価するために特化したベンチマークツールです。AIソフトウェアおよびハードウェア分野のリーダーと緊密に連携することで、テストがシステム内のローカルAIアクセラレーションハードウェアを最大限に活用できるようになっています。本ツールは、PCパフォーマンスの比較とコスト最適化を簡素化し、PCパフォーマンスの検証と標準化を行い、ITチームのPCライフサイクル管理を簡素化することで、迅速な意思決定を可能にし、PCパフォーマンスの向上、ハードウェアコストの削減、テスト時間の短縮を実現します。

モデルトレーニングとデプロイメント

Procyon Professional Benchmark Suite

Procyon Professional Benchmark Suite

Procyonは、UL Solutionsが開発した性能テストベンチマークツール群です。産業、企業、政府、小売、メディアのプロフェッショナルユーザー向けに設計されています。Procyonスイートの各ベンチマークテストは、一貫性があり使い慣れた体験を提供し、共通の設計と機能を共有しています。柔軟なライセンスモデルにより、ユーザーは必要に応じて適切な単一ベンチマークテストを選択できます。Procyonベンチマークテストスイートは、まもなく、プロフェッショナルユーザー向けのベンチマークテストと性能テストを幅広く提供する予定です。各ベンチマークテストは特定のユースケースに合わせて設計されており、可能な限り現実のアプリケーションを使用しています。UL Solutionsは業界パートナーと緊密に連携し、各Procyonベンチマークテストの正確性、関連性、公平性を確保しています。

開発とツール

Procyon AI 推論ベンチマーク for Android

Procyon AI 推論ベンチマーク For Android

Procyon AI 推論ベンチマーク for Androidは、NNAPIベースのベンチマークツールであり、Androidデバイス上のAI性能と品質を測定するために使用されます。一般的な機械学習タスクを実行する、人気のある最先端のニューラルネットワークモデルを用いて、エンジニアリングチームがNNAPIの実装と専用のモバイルハードウェアのAI性能を客観的かつ標準化された方法で評価することを支援します。本ツールは、Androidデバイス上の専用AI処理ハードウェアの性能を測定するだけでなく、NNAPI実装の品質検証にも役立ち、ハードウェアアクセラレータのドライバ最適化や、浮動小数点と整数最適化モデルの性能比較に重要な意味を持ちます。

開発とツール

MLPerf Client

MLPerf Clientは、MLCommonsが共同開発した新しいベンチマークテストであり、ノートパソコン、デスクトップ、ワークステーションなど、パーソナルコンピュータ上での大規模言語モデル（LLM）およびその他のAIワークロードのパフォーマンスを評価することを目的としています。本ベンチマークテストは、現実世界のAIタスクをシミュレートすることにより、システムが生成AIワークロードをどのように処理するかを理解するための明確な指標を提供します。MLPerf Clientワーキンググループは、このベンチマークテストが、イノベーションと競争を促進し、パーソナルコンピュータがAI駆動の将来の課題に対応できるようにすることを期待しています。

モデルトレーニングとデプロイ

FrontierMath

FrontierMathは、複雑な数学問題を解く上でのAIの能力限界をテストすることを目的とした数学ベンチマークテストプラットフォームです。60名以上の数学者によって共同開発され、代数幾何学からツェルメロ?フレンケル集合論まで、現代数学の全範囲を網羅しています。FrontierMathの各問題は、専門の数学者が数時間かけて取り組むことを要求するものであり、GPT-4やGeminiなどの最先端のAIシステムでさえ、2％未満しか解くことができません。このプラットフォームは、真の評価環境を提供し、すべての問題は新規で未発表のものであり、既存のベンチマークテストで一般的に見られるデータ汚染の問題を解消しています。

SimpleQA

SimpleQAは、OpenAIが公開した事実確認のためのベンチマークテストです。簡潔で、事実を求める質問への言語モデルの回答能力を測定することを目的としています。高い正確性、多様性、課題性、そして優れた研究者体験を提供するデータセットによって、言語モデルの正確性と信頼性の評価と向上を支援します。事実上正確な応答を生成できるモデルの訓練にとって重要な進歩であり、モデルの信頼性を高め、適用範囲を広げることに役立ちます。

MLE-bench

MLE-benchは、OpenAIが開発したベンチマークで、AIエージェントの機械学習エンジニアリング能力を測定することを目的としています。Kaggleの75件の機械学習エンジニアリング関連コンペティションから多様な課題を集め、モデルのトレーニング、データセットの準備、実験の実行など、現実世界の機械学習エンジニアリングスキルをテストする包括的なテストスイートを提供します。各コンペティションには、Kaggleの公開ランキングデータに基づいてヒューマンベースラインが設定されています。オープンソースのエージェントフレームワークを使用して、複数の最先端言語モデルのこのベンチマークにおけるパフォーマンスを評価しました。その結果、最適な設定（OpenAIのo1-previewとAIDEフレームワークの組み合わせ）では、16.9％のコンペティションでKaggleの銅メダルレベルに達していることが明らかになりました。さらに、AIエージェントのリソース拡張の様々な形態や、事前学習データの汚染の影響についても研究しました。MLE-benchのベンチマークコードはオープンソース化されており、AIエージェントの機械学習エンジニアリング能力に関する今後の研究を促進するものです。

AIモデル評価

LLaVA-Video

LLaVA-Videoは、ビデオ指示微調整に特化した大規模多モーダルモデル（LMMs）です。高品質な大量の生のデータをウェブから取得する困難さを解決するために、高品質な合成データセットLLaVA-Video-178Kを作成しました。このデータセットには、詳細なビデオ説明、オープンエンドの質問応答、多肢選択式の質問応答などのタスクが含まれており、ビデオ言語モデルの理解力と推論能力の向上を目指しています。LLaVA-Videoモデルは複数のビデオベンチマークテストで優れた性能を示し、データセットの有効性を証明しています。

TAG-Bench

TAG-Benchは、自然言語処理モデルによるデータベースクエリへの応答性能を評価?研究するためのベンチマークテストです。BIRD Text2SQLベンチマークを基に構築されており、世界知識の活用やデータベースに明示的に含まれない情報に関する意味推論の要求を追加することで、クエリの複雑性を高めています。TAG-Benchは、AIとデータベース技術の融合を促進することを目的としており、現実的なデータベースクエリシナリオを模倣することで、研究者にとって既存モデルに挑戦できるプラットフォームを提供します。

DCLM-baseline

DCLM-baselineは、言語モデルのベンチマークテストに使用される事前学習済みデータセットです。4Tトークンと30億のドキュメントを含み、Common Crawlデータセットから慎重にキュレーションされたデータクレンジング、フィルタリング、重複排除プロセスを経て抽出されました。効率的な言語モデルのトレーニングにおけるデータキュレーションの重要性を示すことを目的としています。このデータセットは研究目的のみに使用でき、本番環境やコードや数学のような特定分野のモデルトレーニングには適していません。

LAMDA-TALENT

LAMDA-TALENTは、20種類以上の深層学習手法、10種類以上の従来手法、そして300種類以上の多様な表形式データセットを統合した、包括的な表形式データ分析ツールボックスとベンチマークテストプラットフォームです。このツールボックスは、表形式データにおけるモデルの性能向上を目指し、強力な前処理機能、データ学習の最適化、そして初心者から専門家のデータサイエンティストまで対応できるユーザーフレンドリーで適応性の高い操作性を提供します。

AIデータマイニング

KnowEdit

KnowEditは、大規模言語モデル（LLM）に焦点を当てた知識編集ベンチマークテストです。これは、特定の領域におけるLLMの挙動修正における様々な知識編集手法の有効性をテストし比較するための包括的な評価フレームワークを提供します。同時に、様々な入力における全体的な性能も維持します。KnowEditベンチマークテストは、事実操作、感情修正、幻覚生成など、様々な編集タイプを網羅する6つの異なるデータセットで構成されています。このベンチマークテストは、研究者や開発者が知識編集技術をより深く理解し改善し、LLMの継続的な発展と応用を促進することを目的としています。

LMSYS チャットボットアリーナ

LMSYS チャットボットアリーナ

LMSYS チャットボットアリーナは、ユーザーと匿名化されたチャットボットモデル間のインタラクションを通じて、大規模言語モデル（LLM）のベンチマークテストを行うオンラインプラットフォームです。70万件を超えるユーザー投票を集計し、LLMのEloレーティングランキングを作成することで、チャットボット界の王者を決定します。本プラットフォームは研究プレビューとして提供されており、セキュリティ対策は限定的であるため、不適切なコンテンツが生成される可能性があります。そのため、利用規約の遵守が求められます。

チャットボット

VQAScore

Evaluating Text-to-Visual Generation with Image-to-Text Generationは、複雑なテキストからビジュアルへの生成効果をより適切に評価できる新しい評価指標VQAScoreを提案し、GenAI-Benchベンチマークテストセットを導入しました。VQAScoreはCLIP-FlanT5モデルに基づいており、テキストから画像?動画?3Dへの生成評価において最良の性能を達成し、CLIPScoreに代わる強力なソリューションです。GenAI-Benchは、多様な意味の組み合わせを含む現実的なシナリオのテストテキストを提供し、生成モデルの性能を包括的に評価するために使用できます。

GenAI-Arena

GenAI-Arenaは、実環境下で視覚生成モデルのベンチマークテストを行うプラットフォームです。ユーザーは匿名で競技に参加し、対象モデルのパフォーマンスを比較、より優れたモデルに投票することができます。様々な分野における匿名モデル同士の対決をサポートし、ユーザーは最適な条件下での画像生成モデルを見つけることができます。「新規対戦」をクリックして新たな対戦を開始し、ボタンをクリックしてより優れたモデルに投票できます。

Apollo LLM

FreedomIntelligenceによって維持されているApolloプロジェクトは、多言語対応の医療分野における大規模言語モデル（LLM）を提供することにより、医療AIの民主化を目指し、6億人にサービスを提供します。このプロジェクトには、モデル、データセット、ベンチマークテスト、関連コードが含まれています。

LMSYS 巨大言語モデルチャットボットアリーナランキング

LMSYS 巨大言語モデルチャットボットアリーナランキング

LMSys チャットボットアリーナランキングは、大規模言語モデル（LLM）のパフォーマンスを評価するための、クラウドソーシング型のオープンなプラットフォームです。30万人以上のユーザー投票に基づいて、Eloレーティングシステムを用いてLLMをランキングしています。ユーザーはウェブサイト上で様々なLLMと対話でき、その会話の質に基づいて投票できます。このランキングは、様々なLLMの発展傾向を追跡し、研究者や開発者にとってベンチマークツールを提供します。

AI会話機械人間

Benchmark Medical RAG

Benchmark Medical RAG

Benchmark Medical RAGは、医療分野に特化した検索拡張型質問応答（Retrieval-Augmented Generation）のベンチマークテストプラットフォームです。医療情報検索と生成モデルの研究を促進するため、一連のデータセットと評価ツールを提供しています。

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase