Depth Anything : 大規模未ラベルデータの力を解き放つ

Depth Anything

AI画像生成 AIモデル #深度推定 #画像処理 #データ拡張 #モデル最適化中国語精選オープンソース

紹介 :

Depth Anythingは、堅牢な単眼深度推定のための非常に実用的なソリューションです。私たちは、新規の技術モジュールを追求するのではなく、あらゆる状況におけるあらゆる画像を処理できる、シンプルで強力な基礎モデルの構築を目指しました。そのため、データエンジンを設計してデータセットを拡張し、大規模な未ラベルデータ（約6200万枚）を収集および自動アノテーションすることで、データカバレッジを大幅に拡大し、汎化誤差の低減を実現しました。データ拡張を有望なものにするために、2つのシンプルかつ効果的な戦略を研究しました。まず、データ拡張ツールを活用して、より挑戦的な最適化目標を作成します。これにより、モデルは積極的に追加の視覚情報を求め、強力な表現を獲得することを余儀なくされます。次に、事前学習済みエンコーダーから豊富な意味的事前情報を継承させるための補助的な監督を開発しました。6つの公開データセットとランダムに撮影された写真を含む、そのゼロショット能力について広範な評価を行いました。その汎化能力は非常に印象的です。さらに、NYUv2とKITTIからのメトリック深度情報を使用して微調整することにより、新たな最先端技術（SOTA）を確立しました。私たちの改良された深度モデルは、より優れた深度条件付きControlNetをもたらしました。私たちのモデルはhttps://github.com/LiheYoung/Depth-Anythingで公開されています。

ターゲットユーザー :

画像処理、深度推定、コンピュータビジョン分野に適用可能。

総訪問数： 9.5K

最も高い割合の地域： US(34.58%)

ウェブサイト閲覧数： 151.5K

使用シナリオ

自動運転システムにおける単眼深度推定

仮想現実技術における画像処理への応用

ドローン分野における地形再構築

製品特徴

堅牢な単眼深度推定

データセットの拡大と自動アノテーション