M2RAG
M
M2RAG
紹介 :
M2RAGは、マルチモーダルコンテキストにおける検索強化生成のためのベンチマークテストコードリポジトリです。マルチモーダル検索ドキュメントを使用して質問に答え、マルチモーダル大規模言語モデル(MLLMs)がマルチモーダルコンテキストの知識を活用する能力を評価します。このモデルは、画像記述、マルチモーダル質問応答、ファクト検証、画像の再配置などのタスクで評価され、マルチモーダルコンテキスト学習におけるモデルの有効性を向上させることを目的としています。M2RAGは、研究者にとって標準化されたテストプラットフォームを提供し、マルチモーダル言語モデルの発展を促進するのに役立ちます。
ターゲットユーザー :
M2RAGは、マルチモーダル言語モデルの研究に従事する学者や開発者、特にマルチモーダルコンテキストでモデルの検索と生成能力を向上させたいと考えているユーザーに適しています。研究者にとって標準化されたテストプラットフォームを提供し、マルチモーダル大規模言語モデルのパフォーマンスを評価および改善するのに役立ちます。
総訪問数: 0
最も高い割合の地域: US(19.34%)
ウェブサイト閲覧数 : 45.5K
使用シナリオ
研究者はM2RAGを使用して、マルチモーダル大規模言語モデルの画像記述タスクにおけるパフォーマンスを評価できます。
開発者はM2RAGが提供するコードとデータセットを利用して、マルチモーダル検索強化生成の実験結果を迅速に再現できます。
企業はM2RAGのマルチモーダル質問応答機能に基づいて、インテリジェントなカスタマーサポートシステムを開発し、ユーザーエクスペリエンスを向上させることができます。
製品特徴
画像記述、マルチモーダル質問応答、ファクト検証、画像の再配置など、マルチモーダルタスクをサポートします。
マルチモーダル検索強化命令微調整(MM-RAIT)方式を提供し、マルチモーダルコンテキスト学習におけるモデルの性能を向上させます。
MiniCPM-V 2.6やQwen2-VLなど、さまざまな事前学習済みモデルと互換性があります。
完全なデータセットとコード実装を提供し、研究者が実験を再現および拡張するのに役立ちます。
ゼロショットと微調整の2つの設定をサポートし、さまざまな研究ニーズに対応します。
生成タスクのパフォーマンスを測定するための詳細な評価指標を提供します。
FAISSなどの技術を使用して、効率的なマルチモーダルドキュメント検索をサポートします。
ユーザーがすぐに使い始めることができる、事前学習済みモデルの微調整スクリプトを提供します。
使用チュートリアル
1. コードリポジトリのクローン作成:`git clone https://github.com/NEUIR/M2RAG`
2. 依存関係のインストール:`requirements.txt`ファイルに従って必要なPythonパッケージをインストールします。
3. データセットの準備:M2RAGデータセットをダウンロードするか、説明に従って自分で構築し、`data`フォルダに配置します。
4. テストセットクエリとマルチモーダルコーパスのエンコード:`script/get_embed_test.sh`を実行します。
5. 関連性の高いマルチモーダルドキュメントの検索:`script/retrieval_test.sh`を実行します。
6. 検索されたドキュメントを使用したゼロショット推論:`script/inference_cpmv.sh`または`script/inference_qwen.sh`を実行します。
7. 画像の再配置タスクについては、`script/compute_ppl_minicpmv.sh`または`script/compute_ppl_qwen2vl.sh`を使用して評価します。
8. 生成タスクのパフォーマンスを評価するには、`src/evaluation`内のスクリプトを使用します。
おすすめAI製品
DeepMind Gemini
Deepmind Gemini
Geminiは、Google DeepMindが開発した次世代人工知能システムです。テキスト、画像、ビデオ、音声、コード間のシームレスな相互作用をサポートし、マルチモーダル推論を実行できます。言語理解、推論、数学、プログラミングなど、複数の分野において従来のシステムを凌駕し、現在までに開発された最も強力なAIシステムの一つとなっています。エッジコンピューティングからクラウドコンピューティングまで、様々なニーズに対応できる3つの異なる規模のバージョンがあります。Geminiは、クリエイティブデザイン、ライティングアシスタント、質問応答、コード生成など、幅広い分野で活用できます。
AIモデル
11.4M
中国語精選
LiblibAI
Liblibai
LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。
AIモデル
6.9M
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase