

Depth Anything
紹介 :
Depth Anythingは、堅牢な単眼深度推定のための非常に実用的なソリューションです。私たちは、新規の技術モジュールを追求するのではなく、あらゆる状況におけるあらゆる画像を処理できる、シンプルで強力な基礎モデルの構築を目指しました。そのため、データエンジンを設計してデータセットを拡張し、大規模な未ラベルデータ(約6200万枚)を収集および自動アノテーションすることで、データカバレッジを大幅に拡大し、汎化誤差の低減を実現しました。データ拡張を有望なものにするために、2つのシンプルかつ効果的な戦略を研究しました。まず、データ拡張ツールを活用して、より挑戦的な最適化目標を作成します。これにより、モデルは積極的に追加の視覚情報を求め、強力な表現を獲得することを余儀なくされます。次に、事前学習済みエンコーダーから豊富な意味的事前情報を継承させるための補助的な監督を開発しました。6つの公開データセットとランダムに撮影された写真を含む、そのゼロショット能力について広範な評価を行いました。その汎化能力は非常に印象的です。さらに、NYUv2とKITTIからのメトリック深度情報を使用して微調整することにより、新たな最先端技術(SOTA)を確立しました。私たちの改良された深度モデルは、より優れた深度条件付きControlNetをもたらしました。私たちのモデルはhttps://github.com/LiheYoung/Depth-Anythingで公開されています。
ターゲットユーザー :
画像処理、深度推定、コンピュータビジョン分野に適用可能。
使用シナリオ
自動運転システムにおける単眼深度推定
仮想現実技術における画像処理への応用
ドローン分野における地形再構築
製品特徴
堅牢な単眼深度推定
データセットの拡大と自動アノテーション
データ拡張ツール
補助的な監督
ゼロショット能力の評価
メトリック深度情報の微調整
おすすめAI製品

Deepmind Gemini
Geminiは、Google DeepMindが開発した次世代人工知能システムです。テキスト、画像、ビデオ、音声、コード間のシームレスな相互作用をサポートし、マルチモーダル推論を実行できます。言語理解、推論、数学、プログラミングなど、複数の分野において従来のシステムを凌駕し、現在までに開発された最も強力なAIシステムの一つとなっています。エッジコンピューティングからクラウドコンピューティングまで、様々なニーズに対応できる3つの異なる規模のバージョンがあります。Geminiは、クリエイティブデザイン、ライティングアシスタント、質問応答、コード生成など、幅広い分野で活用できます。
AIモデル
11.4M
中国語精選

剪映dreamina
剪映DreaminaはTikTok(抖音)が提供するAIGCツールです。テキストを入力すると、AIが自動的にクリエイティブな画像を生成します。画像サイズやアスペクト比、テンプレートの種類も調整可能です。将来的には、TikTokの画像投稿やショート動画のコンテンツ制作にも活用され、TikTokのAIによるコンテンツ制作の充実を図ります。
AI画像生成
9.0M