Florence 2 : 統一的なビジュアルタスク基礎モデルです。

Florence 2

AI画像生成 AIモデル #ビジュアルモデル #マルチタスク学習 #自動注釈 #シーケンスツーシーケンス高品質新製品オープンソース

紹介 :

Florence-2は、統一されたプロンプトベースの表現を用いて、多様なコンピュータビジョンタスクとビジョン言語タスクを処理できる、新種のビジュアル基礎モデルです。テキストプロンプトをタスク指示として受け入れ、画像記述、物体検出、物体位置特定、セグメンテーションなど、テキスト形式で期待される結果を出力するように設計されています。このマルチタスク学習設定には、大規模で高品質な注釈データが必要です。そのため、1億2600万枚の画像を網羅する54億個の包括的なビジュアル注釈を含むFLD-5Bを共同開発しました。自動画像注釈とモデル改良の反復戦略を用いています。Florence-2のトレーニングにはシーケンスツーシーケンス構造を採用し、多様かつ包括的なビジュアルタスクを実行できるようにしました。広範な評価により、Florence-2は前例のないゼロショットおよびファインチューニング能力を備えた、強力なビジュアル基礎モデルであることが示されています。

ターゲットユーザー :

Florence-2モデルは、特に画像記述、物体検出、物体位置特定、セグメンテーションなどの分野において、複雑なビジュアルタスクの処理が必要な研究者や開発者にとって適しています。そのマルチタスク学習能力と強力なデータ処理能力により、コンピュータビジョンとビジョン言語研究を推進するための重要なツールとなっています。

総訪問数： 26.1M

最も高い割合の地域： US(17.94%)

ウェブサイト閲覧数： 56.9K

使用シナリオ

画像記述タスクでは、Florence-2は入力画像に基づいて正確な記述テキストを生成できます。

物体検出タスクでは、Florence-2は画像内の複数のオブジェクトを識別し、その位置をテキスト形式で報告できます。

物体位置特定タスクでは、Florence-2はテキスト記述と画像内の特定の領域を関連付けることができます。

製品特徴

テキストプロンプトをタスク指示として入力する方法。

様々なビジュアルタスクに対応できる、テキスト形式の期待結果を生成します。

大規模で高品質なFLD-5Bデータセットによるサポート。

自動画像注釈とモデル改良の反復戦略。