自己教師あり学習

# 自己教師あり学習

SHMT

SHMTは、潜在拡散モデルを用いた自己教師あり階層的メイクアップ転移技術です。明示的なアノテーションを必要とせずに、ある顔のメイクアップを別の顔に自然に転移することができます。複雑な顔の特徴や表情の変化にも対応し、高品質な転移効果を提供できることが主な利点です。NeurIPS 2024で採択され、画像処理分野における革新性と実用性を示しました。

AI設計ツール

Sparsh

Sparshは、MAE、DINO、JEPAなどの自己教師あり学習アルゴリズムによって訓練された、汎用的な触覚表現の一連のモデルです。DIGIT、Gelsight'17、Gelsight Miniといった様々な触覚センサに対して有用な表現を生成でき、TacBenchで提案されている下流タスクにおいて、エンドツーエンドモデルを大幅に上回る性能を示します。また、新しい下流タスクへのデータ効率の良い学習にも対応可能です。Sparshプロジェクトには、PyTorch実装、事前学習済みモデル、そしてSparshと共に公開されるデータセットが含まれています。

Video-Foley

Video-Foleyは、革新的な動画から音声生成システムです。二乗平均平方根（RMS）を時間イベント条件として使用し、意味的音色プロンプト（音声またはテキスト）を組み合わせることで、高い制御性と同期性を備えた動画音声合成を実現します。本システムは、アノテーション不要の自己教師あり学習フレームワークを採用しており、Video2RMSとRMS2Soundの2段階から構成されています。RMS離散化やRMS-ControlNetなどの斬新な概念を取り入れ、事前学習済みのテキスト音声モデルと統合しています。Video-Foleyは、音声の時間、強度、音色、ディテールの音動画の整合性と制御において、最先端の性能を達成しています。

高品質新製品

HOI-Swap

HOI-Swapは、拡散モデルに基づいたビデオ編集フレームワークであり、ビデオ編集における手と物体のインタラクションの複雑さに焦点を当てています。このモデルは自己教師あり学習により、単一フレーム内で物体の交換を実現し、物体の属性変化に応じて手のインタラクションパターン（例えば、握り方）を調整する学習を行います。第二段階では、単一フレーム編集をビデオシーケンス全体に拡張し、モーションアライメントとビデオ生成によって、高品質なビデオ編集を実現します。

高品質新製品

MimicBrush

MimicBrushは、革新的な画像編集モデルです。ユーザーは、ソース画像内の編集領域を指定し、野外参考画像を提供することで、ゼロショット画像編集を実現できます。このモデルは、両者間の意味的対応関係を自動的に捉え、編集を一度で完了します。MimicBrushは拡散事前学習に基づいて開発され、自己教師あり学習によって異なる画像間の意味関係を捉えます。実験により、様々なテストケースにおいてその有効性と優位性が証明されています。

DenseAV

DenseAVは、ビデオを観察することで高解像度で意味のある視覚聴覚アラインメント特徴を学習する、新規のデュアルエンコーダ局所化アーキテクチャです。明示的な局所化の監視なしで単語の「意味」と音の「位置」を発見し、これら2つの関連付けのタイプを自動的に発見および区別できます。DenseAVの局所化能力は、密集した画像と音声表現を直接比較してコントラスト学習を行う、新しいマルチヘッド特徴集約演算子に由来します。さらに、DenseAVはセマンティックセグメンテーションタスクにおいて以前の最先端を大幅に上回り、パラメータ数が半分以下でImageBindを凌駕するクロスモーダル検索を実現しています。

AniTalker

AniTalkerは、単一の肖像画からリアルな会話表情アニメーションを生成できる革新的なフレームワークです。2つの自己教師あり学習戦略によって動作表現力を高めると同時に、メトリックラーニングを用いてアイデンティティエンコーダを開発することで、ラベル付きデータへの依存を効果的に削減しています。AniTalkerは、詳細でリアルな表情アニメーションを作成できるだけでなく、動的アバター作成における現実世界での応用可能性にも重点を置いています。

AI顔画像生成

AV-HuBERT

AV-HuBERTは、音声?視覚音声処理に特化した自己教師あり表現学習フレームワークです。LRS3音声?視覚音声ベンチマークテストにおいて、最先端のリップリーディング、自動音声認識（ASR）、および音声?視覚音声認識の結果を実現しています。このフレームワークは、マスキングされたマルチモーダルクラスタリング予測を通じて音声?視覚音声表現を学習し、堅牢な自己教師あり音声?視覚音声認識を提供します。

miqu-1-70b

Miqu 1-70bは、新規の自己教師あり学習方法を採用したオープンソースの大規模言語モデルです。様々な自然言語処理タスクに対応できます。パラメータ数は170億個に達し、複数のプロンプト形式に対応しており、ファインチューニングにより高品質のテキストを生成できます。強力な理解力と生成能力により、チャットボット、テキスト要約、質問応答システムなど、幅広い分野で活用できます。

視覚検査

本論文では、大規模言語モデル（LLM）が徐々に複雑化する視覚概念の生成と認識能力を体系的に評価し、テキストモデルを用いて初期の視覚表現学習システムを訓練する方法を示します。言語モデルはピクセルレベルの視覚情報を直接処理できませんが、コードで画像を表すことで研究を行います。LLMによって生成された画像は自然画像のようではありませんが、画像生成と修正の結果は、文字列の正確なモデリングが言語モデルに視覚世界の多くの側面を教えることができることを示しています。さらに、テキストモデルで生成された画像を用いた自己教師あり視覚表現学習の実験は、LLMのみを用いて、自然画像のセマンティック評価を行うことができる視覚モデルを訓練できる可能性を浮き彫りにしています。

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase