Internlm XComposer2 : 自由形式テキスト画像合成と理解のためのビジョン言語大規模モデル

Internlm XComposer2

AI画像生成 AIモデル #ビジョン言語モデル #テキスト画像合成 #マルチモーダル理解 #画像生成通常製品オープンソース

紹介 :

InternLM-XComposer2は、自由形式のテキスト画像合成と理解に長けた、最先端のビジョン言語モデルです。従来のビジョン言語を理解するだけでなく、輪郭、詳細なテキスト仕様、参照画像など、様々な入力から複雑に絡み合ったテキストと画像の内容を巧みに構築し、高度にカスタマイズされたコンテンツ作成を実現します。InternLM-XComposer2は、部分LoRA（PLoRA）手法を採用しており、追加のLoRAパラメータを画像トークンに適用することで、事前学習済み言語知識の完全性を維持し、正確なビジョン理解と文学的な才能を持つテキスト構成とのバランスを実現しています。実験結果によると、InternLM2-7BをベースとしたInternLM-XComposer2は、高品質な長テキストマルチモーダルコンテンツの生成において優れた性能を示し、様々なベンチマークテストでも卓越したビジョン言語理解能力を有しており、既存のマルチモーダルモデルを大幅に上回り、一部の評価においてはGPT-4VやGemini Proを凌駕する結果も得られています。これは、マルチモーダル理解分野におけるその卓越した能力を浮き彫りにしています。InternLM-XComposer2シリーズモデルは70億パラメータで、https://github.com/InternLM/InternLM-XComposerで公開されています。

ターゲットユーザー :

テキスト画像コンテンツの自動生成、マルチモーダル作品の作成、ビジョン言語理解能力の向上に使用できます。

総訪問数： 502.6M

最も高い割合の地域： US(19.34%)

ウェブサイト閲覧数： 130.3K

使用シナリオ

InternLM-XComposer2を使用して、カスタムのテキストと画像が混在したコンテンツを生成する

InternLM-XComposer2を利用してマルチモーダル作品を作成する

ビジョン言語理解能力を向上させるために、InternLM-XComposer2を用いた実験を行う

製品特徴

自由形式テキスト画像合成

テキスト画像理解