Mousi : 多模態視覺語言模型

Mousi

AI模型 AI圖像生成 #多模態 #視覺語言模型 #人工智能 #圖像處理普通產品開源

簡介 :

MouSi是一種多模態視覺語言模型，旨在解決當前大型視覺語言模型（VLMs）面臨的挑戰。它採用集成專家技術，將個體視覺編碼器的能力進行協同，包括圖像文本匹配、OCR、圖像分割等。該模型引入融合網絡來統一處理來自不同視覺專家的輸出，並在圖像編碼器和預訓練LLMs之間彌合差距。此外，MouSi還探索了不同的位置編碼方案，以有效解決位置編碼浪費和長度限制的問題。實驗結果表明，具有多個專家的VLMs表現出比孤立的視覺編碼器更出色的性能，並隨著整合更多專家而獲得顯著的性能提升。

需求人群 :

MouSi可用於圖像和文本之間的匹配、文本識別、圖像分割以及解決位置編碼問題。

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 59.3K

使用場景

MouSi在人工智能研究中被用於圖像文本匹配。

一家設計公司使用MouSi進行圖像分割和處理。

MouSi在學術界被應用於文本識別和位置編碼研究。

產品特色

圖像文本匹配

OCR