微調整

# 微調整

Animagine XL 4.0

Animagine XL 4.0

Animagine XL 4.0は、Stable Diffusion XL 1.0を微調整したアニメテーマの生成モデルです。840万枚もの多様なアニメ風画像を用いて、2650時間にわたるトレーニングが実施されました。このモデルは、テキストプロンプトによるアニメテーマ画像の生成と修正に特化しており、様々な特殊タグに対応し、画像生成の様々な側面を制御できます。主な利点としては、高品質な画像生成、豊富なアニメスタイルのディテール、特定のキャラクターやスタイルの正確な再現などが挙げられます。Cagliostro Research Labによって開発され、CreativeML Open RAIL++-Mライセンスを採用しているため、商用利用と改変が可能です。

Llama-3.3-70B-Instruct

Llama 3.3 70B Instruct

Llama-3.3-70B-Instructは、Metaが開発した70億パラメーターの大規模言語モデルで、多言語対話シーン向けに最適化されています。このモデルは最適化されたTransformerアーキテクチャを使用し、教師あり微調整（SFT）と人間からのフィードバックに基づく強化学習（RLHF）によって、有用性と安全性を向上させています。複数の言語に対応し、テキスト生成タスクを処理できるため、自然言語処理分野における重要な技術です。

チャットボット

AutoArena

AutoArenaは、大規模言語モデル（LLM）、検索拡張生成（RAG）システム、生成AIアプリケーションの評価に特化した自動化生成AI評価プラットフォームです。自動化されたヘッドツーヘッド比較により信頼性の高い評価を提供し、ユーザーは迅速、正確、かつ経済的にシステムの最適なバージョンを見つけることができます。本プラットフォームは、OpenAI、Anthropicなど、様々なベンダが提供する判定モデル、あるいはローカルで実行されるオープンソースの重み付け判定モデルの使用をサポートしています。AutoArenaは、Eloレーティングと信頼区間計算を提供し、複数回のヘッドツーヘッド投票をランキングに変換するお手伝いをします。さらに、AutoArenaは、より正確で特定の分野に特化した評価を実現するためのカスタム判定モデルの微調整をサポートしており、継続的インテグレーション（CI）プロセスに統合して、生成AIシステムの評価を自動化することも可能です。

OpenFLUX.1

OpenFLUX.1は、FLUX.1-schnellモデルを微調整したバージョンです。蒸留プロセスを削除することで、微調整が可能になり、オープンソースで緩やかなApache 2.0ライセンスが適用されています。このモデルは驚くほど美しい画像を生成でき、わずか1～4ステップで完了します。蒸留プロセスを削除し、微調整可能なオープンソースライセンスのモデルを作成するという試みです。

高品質新製品

Llama-3.2-1B

Llama-3.2-1BはMeta社が公開した多言語大規模言語モデルであり、テキスト生成タスクに特化しています。最適化されたTransformerアーキテクチャを使用し、教師あり微調整（SFT）と人間のフィードバックによる強化学習（RLHF）によって、有用性と安全性に関する人間の好みを反映するように調整されています。英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語の8言語に対応し、様々な対話ユースケースにおいて優れた性能を発揮します。

高品質新製品

Meta-Llama-3.1-8B-Instruct

Meta Llama 3.1 8B Instruct

Meta Llama 3.1は、8種類の言語をサポートする、事前学習済みおよび指示調整済みの多言語大規模言語モデル（LLM）シリーズです。対話ユースケース向けに最適化されており、教師あり微調整（SFT）と人間のフィードバックによる強化学習（RLHF）によって、安全性と有用性が向上しています。

高品質新製品

Meta-Llama-3.1-70B

Meta Llama 3.1 70B

Meta Llama 3.1はMeta社が開発した、70億個のパラメーターを持つ大規模言語モデルです。8種類の言語に対応したテキスト生成をサポートしています。最適化されたTransformerアーキテクチャを採用し、教師あり微調整と人間のフィードバックによる強化学習によって、人間にとって有益で安全な特性が向上しています。多言語対話ユースケースにおいて優れた成果を示し、多くの既存のオープンソースおよびクローズドなチャットモデルを凌駕しています。

Llama-3-70B-Tool-Use

Llama 3 70B Tool Use

Llama-3-70B-Tool-Useは、700億パラメーターの大規模言語モデルであり、高度なツール使用と機能呼び出しタスク向けに設計されています。このモデルは、バークレー機能呼び出しランキング（BFCL）において全体的な精度90.76％を達成し、公開されている全ての70B言語モデルを上回っています。Llama 3 70Bベースモデルを基に、トランスフォーマーアーキテクチャを最適化し、完全な微調整と直接選好最適化（DPO）によってトレーニングされました。入力はテキスト、出力もテキストで、ツール使用と機能呼び出し能力が強化されています。主な用途はツール使用と機能呼び出しですが、一般的な知識やオープンエンドのタスクでは、汎用的な言語モデルの方が適している可能性があります。このモデルは、場合によっては不正確または偏ったコンテンツを生成する可能性があるため、ユーザーは特定のユースケースに適した適切な安全対策の実装に注意する必要があります。このモデルは、温度とtop_pサンプリングの設定に非常に敏感です。

専門的微調整ツール (ESFT)

専門的微調整ツール (ESFT)

Expert Specialized Fine-Tuning (ESFT) は、専門家混合 (MoE) アーキテクチャを持つ大規模言語モデル (LLM) の効率的なカスタマイズ微調整手法です。タスク関連の部分のみを調整することでモデル性能を最適化し、効率性を向上させると同時に、リソースとストレージの使用を削減します。

OpenVLA

OpenVLAは、7億パラメータを持つオープンソースのビジョン?言語?行動（VLA）モデルです。Open X-Embodimentデータセット上の97万件のロボットエピソードを用いて事前学習されています。本モデルは、汎用的なロボット操作戦略において新たな業界標準を確立し、複数のロボットの制御をすぐに利用でき、パラメータ効率の高い微調整により、新しいロボット設定に迅速に適応できます。OpenVLAのチェックポイントとPyTorchトレーニングプロセスは完全にオープンソースであり、Hugging Faceからダウンロードして微調整できます。

AIKit

AIKitは、大規模言語モデル（LLM）のホスティング、デプロイ、構築、微調整のプロセスを簡素化することを目的としたオープンソースツールです。OpenAI APIと互換性のあるREST APIを提供し、様々な推論機能とフォーマットをサポートすることで、ユーザーは任意の互換性のあるクライアントを使用してリクエストを送信できます。さらに、AIKitはUnslothをサポートする拡張可能な微調整インターフェースを提供し、ユーザーに迅速でメモリ効率が高く、使いやすい微調整エクスペリエンスを提供します。

直交微調整 (OFT)

直交微調整 (OFT)

「Controlling Text-to-Image Diffusion」では、強力なテキストから画像への生成モデルを様々な下流タスクに効果的に誘導?制御する方法について研究されています。本研究では、モデルの生成能力を維持できる直交微調整 (OFT) 法が提案されています。OFTは、ニューロン間の超球面エネルギーを不変に保ち、モデルの崩壊を防ぎます。著者らは、主体駆動型生成と制御可能な生成という2つの重要な微調整タスクを検討しました。その結果、OFT法は、生成品質と収束速度において既存の方法を上回ることが示されました。

Windows AI Studio

Windows AI Studio

Windows AI Studioは、Azure AI Studio CatalogやHugging Faceなどのカタログから高度なAI開発ツールとモデルを統合することで、生成AIアプリケーションの開発を簡素化します。Azure MLとHugging Faceが提供するAIモデルカタログを閲覧し、ローカルにダウンロードして、微調整、テストを行い、Windowsアプリケーションで使用できます。すべての計算はローカルで行われますので、お使いのデバイスが負荷に耐えられるようにしてください。今後、ORT/DMLをWindows AI Studioのワークフローに統合し、開発者があらゆるWindowsハードウェア上でAIモデルを実行できるようにする予定です。

Autoblocks

Autoblocksは、製品チームがGenAI製品を迅速に反復開発するために構築された、協調的なクラウドワークスペースです。プロンプト管理、可観測性、継続的評価、微調整など、プロトタイプ設計から本番環境に至るまでのあらゆるツールを提供します。アプリケーションパイプラインの変更を迅速にテストし、ユーザーインタラクションを追跡し、ユーザー結果を評価し、データに対する視覚化と深い理解を提供します。Autoblocksはすべてのテクノロジースタックをサポートし、拡張可能なデータ取得と検索、強力な共同作業機能、AI専門家のサポート、セキュリティとプライバシー保護を含む、エンタープライズレベルのLLMOps機能を備えています。

開発とツール

Emu

Emuは、画像生成モデルの美しさを向上させるための画質調整ツールです。少量の高品質画像を用いた微調整により、生成品質を大幅に向上させることができます。Emuは1億1000万枚の画像?テキストペアで事前学習され、厳選された数千枚の高品質画像を用いて微調整されました。事前学習のみのモデルと比較して、勝率は82.9％に達します。最先端のSDXLv1.0と比較した場合、視覚的な魅力に関する選好率はそれぞれ68.4％と71.3％です。Emuは、ピクセル拡散やマスク生成トランスフォーマーモデルなど、他のアーキテクチャにも適用可能です。

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase