Internvl2 5 26B MPO : 視覚と言語のインタラクション能力を向上させた、多様なモダリティに対応する大規模言語モデルです。

Internvl2 5 26B MPO

AIモデル研究機器 #多様なモダリティ #大規模言語モデル #ビジュアルクエスチョン?アンサーリング #画像キャプション生成 #混合選好最適化通常製品オープンソース

紹介 :

InternVL2_5-26B-MPOは、多様なモダリティに対応する大規模言語モデル（MLLM）です。InternVL2.5をベースに、混合選好最適化（Mixed Preference Optimization, MPO）を用いてモデル性能をさらに向上させています。画像やテキストを含む多様なモダリティのデータを処理でき、画像キャプション生成、ビジュアルクエスチョン?アンサーリングなど幅広い用途に適用可能です。画像の内容と密接に関連したテキストの理解と生成が可能である点が重要であり、多様なモダリティに対応する人工知能の境界を押し広げています。製品の背景情報には、多様なモダリティに対応するタスクにおける卓越した性能と、OpenCompass Leaderboardにおける評価結果が含まれます。本モデルは、研究者や開発者が多様なモダリティに対応する人工知能の可能性を探求し、実現するための強力なツールを提供します。

ターゲットユーザー :

本製品のターゲットユーザーは、人工知能分野の研究者、開発者、企業ユーザー、特に多様なモダリティのデータを処理?分析する必要があるユーザーです。視覚コンテンツに関連したテキストの理解と生成のための高度なツールを提供することで、スマート画像分析や自動コンテンツ生成などのアプリケーション開発に役立ちます。

総訪問数： 26.1M

最も高い割合の地域： US(17.94%)

ウェブサイト閲覧数： 48.6K

使用シナリオ

InternVL2_5-26B-MPOを使用して、自然風景の写真に関する説明を生成します。

美術作品についてビジュアルクエスチョン?アンサーリングを行い、芸術様式や歴史的背景を説明します。

ECサイトで、異なる製品の画像を比較し、詳細な購入推奨を提供します。

製品特徴

画像とテキストを含む、多様なモダリティのデータ入力に対応します。

画像の内容に関連した詳細な説明やストーリーを生成できます。

ビジュアルクエスチョン?アンサーリングを行い、画像に関する質問に答えます。

複数回の対話に対応し、一貫性のあるインタラクション体験を提供します。