# マルチタスク学習

π0
Π0
π0は、具現化されたトレーニングを通じてAIシステムに物理的知能を与え、大型言語モデルやチャットボットアシスタントと同様に様々なタスクを実行できることを目指した汎用ロボット基礎モデルです。π0はロボット上の物理的経験を通じて物理的知能を獲得し、低レベルのモータコマンドを直接出力することで、様々なロボットを制御し、特定の用途に合わせて微調整できます。π0の開発は、大規模なマルチタスクとマルチロボットデータ収集、そして新しいネットワークアーキテクチャを組み合わせることで、これまでで最も有能で器用な汎用ロボットポリシーを提供し、人工知能の物理世界への応用における重要な進歩を示しています。
ロボット
49.7K
Florence-2-base-ft
Florence 2 Base Ft
Florence-2は、マイクロソフトが開発した高度なビジョン基礎モデルです。プロンプトベースのアプローチを採用し、幅広いビジョンタスクとビジョン?言語タスクを処理します。このモデルは、シンプルなテキストプロンプトを解釈し、画像キャプション生成、物体検出、セグメンテーションなどのタスクを実行できます。54億件の注釈を含む1億2600万枚の画像からなるFLD-5Bデータセットを使用して学習されており、マルチタスク学習に長けています。シーケンスツーシーケンスアーキテクチャにより、ゼロショット設定とファインチューニング設定の両方で優れた性能を発揮し、競争力のあるビジョン基礎モデルであることを証明しています。
AI画像生成
54.9K
Florence-2-large-ft
Florence 2 Large Ft
Florence-2-large-ftは、Microsoftが開発した高度な視覚基礎モデルです。プロンプトベースのアプローチを用いて、幅広い視覚タスクと視覚言語タスクを処理します。このモデルは、シンプルなテキストプロンプトによって、画像キャプション生成、物体検出、セグメンテーションなどのタスクを実行できます。54億件の注釈付き1.26億枚の画像を含むFLD-5Bデータセットを活用し、マルチタスク学習を実現しています。シーケンスツーシーケンスアーキテクチャにより、ゼロショット設定とファインチューニング設定の両方で優れた性能を発揮し、競争力のある視覚基礎モデルであることを実証しています。
AI画像生成
68.7K
Florence-2-base
Florence 2 Base
Florence-2は、マイクロソフトが開発した高度なビジョン基礎モデルであり、プロンプトベースのアプローチを用いて幅広いビジョンおよびビジョン言語タスクを処理します。このモデルは、簡単なテキストプロンプトを解釈し、記述、物体検出、セグメンテーションなどのタスクを実行できます。5億4000万枚の画像と54億個の注釈を含むFLD-5Bデータセットを使用して学習されており、マルチタスク学習に長けています。シーケンスツーシーケンスアーキテクチャにより、ゼロショットおよびファインチューニング設定の両方で優れた性能を示し、競争力のあるビジョン基礎モデルであることが証明されています。
AI画像生成
60.2K
Florence-2-large
Florence 2 Large
Florence-2-largeは、マイクロソフトが開発した高度なビジョン基礎モデルです。プロンプトベースのアプローチを採用し、幅広いビジョンおよびビジョン?言語タスクに対応します。このモデルは、シンプルなテキストプロンプトを解釈して、画像キャプション生成、物体検出、セグメンテーションなどのタスクを実行できます。5億4千万枚の画像に54億個の注釈が付いたFLD-5Bデータセットを活用し、マルチタスク学習に長けています。シーケンスツーシーケンスアーキテクチャにより、ゼロショットおよびファインチューニング設定の両方で優れたパフォーマンスを発揮し、競争力のあるビジョン基礎モデルであることが証明されています。
AI画像生成
61.5K
高品質新製品
Florence-2
Florence 2
Florence-2は、統一されたプロンプトベースの表現を用いて、多様なコンピュータビジョンタスクとビジョン言語タスクを処理できる、新種のビジュアル基礎モデルです。テキストプロンプトをタスク指示として受け入れ、画像記述、物体検出、物体位置特定、セグメンテーションなど、テキスト形式で期待される結果を出力するように設計されています。このマルチタスク学習設定には、大規模で高品質な注釈データが必要です。そのため、1億2600万枚の画像を網羅する54億個の包括的なビジュアル注釈を含むFLD-5Bを共同開発しました。自動画像注釈とモデル改良の反復戦略を用いています。Florence-2のトレーニングにはシーケンスツーシーケンス構造を採用し、多様かつ包括的なビジュアルタスクを実行できるようにしました。広範な評価により、Florence-2は前例のないゼロショットおよびファインチューニング能力を備えた、強力なビジュアル基礎モデルであることが示されています。
AI画像生成
58.0K
高品質新製品
StreamSpeech
Streamspeech
StreamSpeechは、マルチタスク学習に基づいたリアルタイム音声対音声翻訳モデルです。統一フレームワークを通じて翻訳と同期戦略を同時に学習することで、ストリーミング音声入力における翻訳タイミングを効果的に認識し、高品質なリアルタイムコミュニケーション体験を実現します。このモデルはCVSSベンチマークテストでトップレベルの性能を達成しており、ASRや翻訳結果などの低遅延の中間結果を提供できます。
AI翻訳
79.8K
VSP-LLM
VSP LLM
VSP-LLMは、視覚音声処理(Visual Speech Processing)と大規模言語モデル(LLMs)を組み合わせたフレームワークです。LLMの強力な能力を活用することで、コンテキストモデリング能力を最大化することを目指しています。VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するために設計されており、自己教師あり視覚音声モデルを通じて入力ビデオをLLMの入力潜在空間にマッピングします。このフレームワークは、新規な重複除去手法と低ランクアダプター(LoRA)を提案することで、効率的なトレーニングを実現します。
AIモデル
164.8K
Emu Edit
Emu Edit
Emu Editは、タスク認識と生成を通じて高精度な画像編集を行うマルチタスク画像編集モデルです。この分野における最新の技術的ブレークスルーを実現しています。Emu Editのアーキテクチャはマルチタスク学習向けに最適化されており、領域ベースの編集、自由形式の編集、物体検出とセグメンテーションなどのコンピュータビジョンタスクを含む数多くのタスクで訓練されています。さらに、これらの多様なタスクをより効果的に処理するため、生成プロセスを適切に誘導する学習済みタスク埋め込みの概念を導入しています。マルチタスク学習と学習済みタスク埋め込みの活用により、編集指示の正確な実行能力が大幅に向上しています。 Emu Editは、未学習タスクへの迅速な適応もサポートしており、タスク反転による少样本学習を実現しています。この過程では、モデルの重みを変更せずに、タスク埋め込みのみを更新して新しいタスクに適応します。実験により、Emu Editは超解像度や輪郭検出など、新しいタスクに迅速に適応できることが実証されています。そのため、アノテーションデータが限られている場合や計算リソースに制約がある場合に、Emu Editによるタスク反転は特に有効です。 指示に基づく画像編集モデルの厳格かつ根拠に基づいた評価を支援するため、7種類の異なる画像編集タスク(背景変更、全体的な画像変化、スタイル変更、オブジェクト削除、オブジェクト追加、部分的な変更、カラー/テクスチャ変更)を含む新しいベンチマークデータセットを作成し、公開しています。さらに、Emu Editとの適切な比較を行うために、Emu Editによるデータセット生成結果も公開しています。 Emu Edit 2023 Meta著作権所有
AI画像編集
115.4K
おすすめAI製品
海外精選
Jules AI
Jules AI
Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。
開発プログラミング
43.1K
NoCode
Nocode
NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。
開発プラットフォーム
42.0K
ListenHub
Listenhub
ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。
AI
41.1K
中国語精選
腾讯混元画像 2.0
腾讯混元画像 2.0
腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。
画像生成
41.1K
OpenMemory MCP
Openmemory MCP
OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル(LLM)に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。
オープンソース
42.5K
FastVLM
Fastvlm
FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。
画像処理
40.6K
海外精選
ピカ
ピカ
ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。
映像制作
17.6M
中国語精選
LiblibAI
Liblibai
LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。
AIモデル
6.9M
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase