

AIM
紹介 :
本論文では、自己回帰目標を用いて事前学習された一連の視覚モデルであるAIMを紹介します。これらのモデルは、そのテキスト対応物である大規模言語モデル(LLM)に触発されており、同様のスケーラビリティ特性を示します。具体的には、(1) モデル容量とデータ量の増加に伴い、視覚特徴の性能が向上すること、(2) 目標関数の価値が下流タスクにおけるモデルの性能と相関していることの2つの重要な発見を強調します。70億パラメータのAIMを20億枚の画像で事前学習することで、ImageNet-1kにおいて、主幹を凍結した状態で84.0%の精度を達成しました。興味深いことに、この規模においても性能飽和の兆候は見られず、AIMは大規模視覚モデルの訓練における新たな最先端技術を表す可能性を示唆しています。AIMの事前学習はLLMの事前学習と同様に、大規模訓練を安定させるための画像固有の戦略を必要としません。
ターゲットユーザー :
大規模画像データの自己回帰事前学習、および大規模視覚モデルの訓練が必要な場面に適用できます。
使用シナリオ
自動運転システムにおける大規模画像認識
医学画像解析における大規模データ事前学習
スマート監視システムにおける大規模視覚モデル訓練
製品特徴
自己回帰画像モデル事前学習
大規模視覚モデル訓練
性能最適化と拡張
おすすめAI製品

Deepmind Gemini
Geminiは、Google DeepMindが開発した次世代人工知能システムです。テキスト、画像、ビデオ、音声、コード間のシームレスな相互作用をサポートし、マルチモーダル推論を実行できます。言語理解、推論、数学、プログラミングなど、複数の分野において従来のシステムを凌駕し、現在までに開発された最も強力なAIシステムの一つとなっています。エッジコンピューティングからクラウドコンピューティングまで、様々なニーズに対応できる3つの異なる規模のバージョンがあります。Geminiは、クリエイティブデザイン、ライティングアシスタント、質問応答、コード生成など、幅広い分野で活用できます。
AIモデル
11.4M
中国語精選

剪映dreamina
剪映DreaminaはTikTok(抖音)が提供するAIGCツールです。テキストを入力すると、AIが自動的にクリエイティブな画像を生成します。画像サイズやアスペクト比、テンプレートの種類も調整可能です。将来的には、TikTokの画像投稿やショート動画のコンテンツ制作にも活用され、TikTokのAIによるコンテンツ制作の充実を図ります。
AI画像生成
9.0M