YOLO World : リアルタイムオープンボキャブラリー物体検出

YOLO World

AI画像検出識別 AIモデル #リアルタイム #物体検出 #オープンボキャブラリー #視覚言語モデル #事前学習通常製品オープンソース

紹介 :

YOLO-Worldは、You Only Look Once (YOLO)シリーズの検出器をベースに、視覚言語モデルと大規模データセットによる事前学習によって、オープンボキャブラリー検出能力を強化した、高度なリアルタイムオープンボキャブラリー物体検出器です。再パラメータ化可能な視覚言語パスアグリゲーションネットワーク（RepVL-PAN）と領域テキストコントラスト損失を採用することで、視覚情報と言語情報の相互作用を促進しています。YOLO-Worldは、ゼロショット方式で様々な物体を効率的に検出し、高い効率性を備えています。チャレンジングなLVISデータセットにおいて、YOLO-WorldはV100上で35.4 APと52.0 FPSを実現し、精度と速度の両面で多くの最先端手法を凌駕しています。さらに、ファインチューニングされたYOLO-Worldは、物体検出やオープンボキャブラリーインスタンスセグメンテーションを含む、多くの下流タスクで優れた性能を発揮します。

ターゲットユーザー :

物体検出とオープンボキャブラリーインスタンスセグメンテーションに適用可能

総訪問数： 502.6M

最も高い割合の地域： US(19.34%)

ウェブサイト閲覧数： 115.4K

使用シナリオ

1. YOLO-Worldを用いてリアルタイムオープンボキャブラリー物体検出を実現する。

2. LVISデータセットでYOLO-Worldによるゼロショット推論を行う。

3. YOLO-Worldを用いて物体検出とオープンボキャブラリーインスタンスセグメンテーションを行う。

製品特徴

リアルタイムオープンボキャブラリー物体検出

ゼロショット方式による様々な物体の効率的な検出