GLIGEN : プロンプトベースのオープンソース画像生成モデル

GLIGEN

AI画像生成 AIモデル #コンピュータビジョン #深層学習 #生成モデル通常製品オープンソース

紹介 :

GLIGENは、テキストプロンプトに基づいたオープンソースの画像生成モデルです。テキスト記述やバウンディングボックスなどの制約条件に基づいて画像を生成できます。このモデルは、事前学習済みのテキストから画像への拡散モデルのパラメータを固定し、そこに新しいデータを追加することで実現されています。このモジュール式設計により、効率的なトレーニングと高い推論柔軟性が得られます。GLIGENは、オープンワールドにおける条件付き画像生成をサポートし、新しく出現する概念やレイアウトに対しても高い汎化能力を備えています。

ターゲットユーザー :

["条件付き画像生成","画像編集","画像修復"]

総訪問数： 240

最も高い割合の地域： IN(74.48%)

ウェブサイト閲覧数： 90.0K

使用シナリオ

「椅子右側に座っている大きな猫」というテキスト記述と猫のバウンディングボックスを入力し、猫の画像を生成する

自動車の画像をスタイル転移条件として入力し、同様のスタイルを持つ新しい自動車画像を生成する

画像のセマンティックセグメンテーションマップを条件として利用し、セマンティックマップに従った新しい画像を生成する

製品特徴

テキスト記述とバウンディングボックスに基づいた画像生成

計画サンプリングのサポート（生成品質と条件制約のバランスをとる）