Florence-2-large
F
Florence 2 Large
紹介 :
Florence-2-largeは、マイクロソフトが開発した高度なビジョン基礎モデルです。プロンプトベースのアプローチを採用し、幅広いビジョンおよびビジョン?言語タスクに対応します。このモデルは、シンプルなテキストプロンプトを解釈して、画像キャプション生成、物体検出、セグメンテーションなどのタスクを実行できます。5億4千万枚の画像に54億個の注釈が付いたFLD-5Bデータセットを活用し、マルチタスク学習に長けています。シーケンスツーシーケンスアーキテクチャにより、ゼロショットおよびファインチューニング設定の両方で優れたパフォーマンスを発揮し、競争力のあるビジョン基礎モデルであることが証明されています。
ターゲットユーザー :
Florence-2-largeモデルは、画像の分析と理解を行う必要がある開発者や研究者にとって最適です。学術研究におけるビジョン認識の最先端を探求する場合でも、商業アプリケーションにおける画像内容の自動アノテーションや記述を実現する場合でも、このモデルは強力なサポートを提供します。
総訪問数: 26.1M
最も高い割合の地域: US(17.94%)
ウェブサイト閲覧数 : 61.5K
使用シナリオ
ソーシャルメディアで画像に自動的にキャプションを生成する。
ECサイトで商品の画像に物体検出と分類サービスを提供する。
自動運転分野で、道路標識や交通標識の認識に使用する。
製品特徴
画像キャプション生成:画像の内容に基づいて記述的なテキストを生成します。
物体検出:画像内の物体を識別し、その位置を特定します。
セグメンテーション:物体と背景など、画像内の異なる領域を区別します。
密集領域記述:画像内の密集領域の詳細な記述を生成します。
領域提案:画像内で物体が含まれている可能性のある領域を提案します。
OCR:画像からテキストを認識し、抽出します。
OCRと領域:領域情報と連携してテキスト認識を行います。
使用チュートリアル
requests、PIL、Image、transformersなどの必要なライブラリをインポートします。
AutoModelForCausalLMとAutoProcessorを使用して、事前学習済みモデルからFlorence-2-largeモデルを読み込みます。
画像キャプション生成や物体検出など、実行するタスクのプロンプトを定義します。
処理する画像データを読み込んだり、取得します。
モデルとプロセッサを使用して、テキストプロンプトと画像データをモデルが受け入れ可能な入力形式に変換します。
モデルのgenerateメソッドを呼び出して結果を生成します。
プロセッサのbatch_decodeメソッドを使用して、生成されたIDをテキストに変換します。
タスクの種類に応じて、後処理方法を使用して生成されたテキストを解析し、最終結果を取得します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase