

M2RAG
簡介 :
M2RAG是一個用於多模態上下文中的檢索增強生成的基準測試代碼庫。它通過多模態檢索文檔來回答問題,評估多模態大語言模型(MLLMs)在利用多模態上下文知識方面的能力。該模型在圖像描述、多模態問答、事實驗證和圖像重排等任務上進行了評估,旨在提升模型在多模態上下文學習中的有效性。M2RAG為研究人員提供了一個標準化的測試平臺,有助於推動多模態語言模型的發展。
需求人群 :
M2RAG適合從事多模態語言模型研究的學者和開發者,尤其是那些希望在多模態上下文中提升模型檢索和生成能力的用戶。它為研究人員提供了一個標準化的測試平臺,能夠幫助他們評估和改進多模態大語言模型的性能。
使用場景
研究人員可以使用M2RAG評估多模態大語言模型在圖像描述任務中的性能。
開發者可以利用M2RAG提供的代碼和數據集,快速復現多模態檢索增強生成的實驗結果。
企業可以基於M2RAG的多模態問答功能,開發智能客服系統,提升用戶體驗。
產品特色
支持多模態任務,包括圖像描述、多模態問答、事實驗證和圖像重排
提供多模態檢索增強指令微調(MM-RAIT)方法,提升模型在多模態上下文學習中的表現
兼容多種預訓練模型,如MiniCPM-V 2.6和Qwen2-VL
提供完整的數據集和代碼實現,方便研究人員復現和擴展實驗
支持零樣本和微調兩種設置,適用於不同的研究需求
提供詳細的評估指標,用於衡量生成任務的性能
支持多模態文檔檢索,通過FAISS等技術實現高效檢索
提供預訓練模型的微調腳本,方便用戶快速上手
使用教程
1. 克隆代碼庫:`git clone https://github.com/NEUIR/M2RAG`
2. 安裝依賴:根據`requirements.txt`文件安裝所需的Python包
3. 準備數據集:下載M2RAG數據集或按照說明自行構建,並放置在`data`文件夾中
4. 編碼測試集查詢和多模態語料庫:運行`script/get_embed_test.sh`
5. 檢索最相關的多模態文檔:運行`script/retrieval_test.sh`
6. 使用檢索到的文檔進行零樣本推理:運行`script/inference_cpmv.sh`或`script/inference_qwen.sh`
7. 對於圖像重排任務,使用`script/compute_ppl_minicpmv.sh`或`script/compute_ppl_qwen2vl.sh`進行評估
8. 使用`src/evaluation`中的腳本評估生成任務的性能
精選AI產品推薦

Deepmind Gemini
Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。
AI模型
11.4M
中文精選

Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M