
MLE Bench
MLE-benchは、OpenAIが開発したベンチマークで、AIエージェントの機械学習エンジニアリング能力を測定することを目的としています。Kaggleの75件の機械学習エンジニアリング関連コンペティションから多様な課題を集め、モデルのトレーニング、データセットの準備、実験の実行など、現実世界の機械学習エンジニアリングスキルをテストする包括的なテストスイートを提供します。各コンペティションには、Kaggleの公開ランキングデータに基づいてヒューマンベースラインが設定されています。オープンソースのエージェントフレームワークを使用して、複数の最先端言語モデルのこのベンチマークにおけるパフォーマンスを評価しました。その結果、最適な設定(OpenAIのo1-previewとAIDEフレームワークの組み合わせ)では、16.9%のコンペティションでKaggleの銅メダルレベルに達していることが明らかになりました。さらに、AIエージェントのリソース拡張の様々な形態や、事前学習データの汚染の影響についても研究しました。MLE-benchのベンチマークコードはオープンソース化されており、AIエージェントの機械学習エンジニアリング能力に関する今後の研究を促進するものです。
AIモデル評価
44.2K
高品質新製品

SWE Bench Verified
SWE-bench Verifiedは、OpenAIが公開した、人間による検証済みのSWE-benchサブセットです。現実世界のソフトウェア問題に対するAIモデルの解決能力をより信頼性高く評価することを目的としています。コードリポジトリと問題の説明を提供することで、AIが記述された問題に対する修正プログラムを生成するよう促します。このツールは、モデルがソフトウェアエンジニアリングタスクを自律的に実行する能力の評価精度を高めるために開発され、OpenAI準備フレームワークの中リスクレベルの重要な構成要素です。
AIモデル評価
54.4K

タートルベンチマーク
タートルベンチマークは、『タートルスープ』ゲームをベースにした、不正行為が不可能な新しいベンチマークです。大規模言語モデル(LLM)の論理的推論能力とコンテキスト理解能力の評価に重点を置いています。背景知識を必要としないことで客観的で公平なテスト結果を提供し、定量化可能な結果を持ち、リアルユーザーが作成した問題を使用することでモデルの「ゲーム化」を防ぎます。
AIモデル評価
46.1K
海外精選

Scale Leaderboard
Scale Leaderboardは、AIモデルのパフォーマンス評価に特化したプラットフォームです。専門家による審査を経たプライベートな評価データセットを使用することで、評価結果の公平性と信頼性を確保しています。最新のデータセットとモデルを定期的にランキングに追加し、ダイナミックな競争環境を促進します。厳格な審査を受けた専門家が、分野固有の方法を用いて評価を行うため、高品質かつ信頼性の高い評価が保証されます。
AIモデル評価
49.1K

Open LLM リーダーボード
Open LLM Leaderboardは、Hugging Faceが提供する、様々な大規模言語モデルの性能を提示し比較するためのプラットフォームです。開発者、研究者、企業は、このプラットフォームを通じて、特定のタスクにおける様々なモデルの性能を確認し、自身のニーズに最適なモデルを選択することができます。
AIモデル評価
62.7K

Opencompass 2.0 大規模言語モデルランキング
OpenCompass 2.0は、大規模言語モデルのパフォーマンス評価に特化したプラットフォームです。複数のクローズドソースデータセットを用いて多角的な評価を行い、モデル全体の平均スコアと専門スキルスコアを提供します。リアルタイムでランキングを更新することで、開発者や研究者は言語、知識、推論、数学、プログラミングなどの分野における様々なモデルのパフォーマンスを把握できます。
AIモデル評価
60.7K

Mmstar
MMStarは、大規模視覚言語モデルのマルチモーダル能力を評価することを目的としたベンチマークセットです。厳選された1500個の視覚言語サンプルを含み、6つのコア能力と18の細分化された次元を網羅しています。各サンプルは、人間のレビューを経て、視覚的依存性を確保し、データ漏洩を最小限に抑え、高度なマルチモーダル能力を必要とする問題に焦点を当てています。従来の精度指標に加えて、MMStarはデータ漏洩とマルチモーダル訓練による実際のパフォーマンス向上を測定するための2つの新しい指標を提案しています。研究者はMMStarを使用して、複数のタスクにおける視覚言語モデルのマルチモーダル能力を評価し、新しい指標を活用してモデルに潜む潜在的な問題を発見することができます。
AIモデル評価
52.4K

マルチモーダル大規模言語モデル
本ツールは、最新の独自開発およびオープンソースのMLLMを定性的研究することにより、テキスト、コード、画像、動画の4つのモダリティから、その汎化能力、信頼性、因果推論能力を評価し、MLLMの透明性を高めることを目的としています。これらの属性は、様々な下流アプリケーションを支えるMLLMの信頼性を定義する上で重要な要素であると考えています。具体的には、クローズドソースのGPT-4とGemini、ならびに6つのオープンソースLLMおよびMLLMを評価しました。全体として、230個の手動設計された事例を評価し、定性的な結果は12個のスコア(モダリティ4つ×属性3つ)に要約されています。合計で14の経験的知見を明らかにし、独自開発とオープンソースのMLLMの能力と限界を理解し、より信頼性の高い多様なモダリティの下流アプリケーションをサポートすることに役立てます。
AIモデル評価
46.6K

Gpteval3d
GPTEval3Dは、GPT-4Vを基盤としたオープンソースの3D生成モデル評価ツールです。テキストから3Dモデルを生成するモデルを自動的に評価し、ELOスコアを算出、既存モデルとの比較ランキングを提供します。シンプルで使いやすい設計となっており、ユーザーによるカスタム評価データセットもサポート。GPT-4Vの評価能力を最大限に活かし、3D生成タスク研究における強力なツールとなります。
AIモデル評価
73.7K

Deepmark AI
Deepmark AIは、大規模言語モデル(LLM)の評価に使用されるベンチマークツールです。独自のデータ上で、様々なタスク固有の指標を評価できます。GPT-4、Anthropic、GPT-3.5 Turbo、Cohere、AI21などの主要な生成AI APIと事前に統合されています。
AIモデル評価
48.0K

Deepeval
DeepEvalは、LLMが問題に対する回答を評価するための多角的な指標を提供し、回答が関連性があり、一貫性があり、偏りや有害な表現を含まないことを保証します。CI/CDパイプラインとの統合も容易で、機械学習エンジニアはLLMアプリケーションの改善に伴うパフォーマンスの向上を迅速に評価?検証できます。DeepEvalはPythonに優しいオフライン評価方法を提供し、パイプラインの運用準備を確実にします。それはまさに「パイプラインのためのPytest」と言えるもので、テストの通過と同じくらいシンプルで直接的な方法で、生産と評価パイプラインのプロセスを実現します。
AIモデル評価
158.4K
おすすめAI製品
海外精選

Jules AI
Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。
開発プログラミング
39.5K

Nocode
NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。
開発プラットフォーム
38.9K

Listenhub
ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。
AI
38.1K
中国語精選

腾讯混元画像 2.0
腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。
画像生成
38.1K

Openmemory MCP
OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル(LLM)に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。
オープンソース
38.9K

Fastvlm
FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。
画像処理
38.1K
海外精選

ピカ
ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。
映像制作
17.6M
中国語精選

Liblibai
LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。
AIモデル
6.9M