モデル

# モデル

DeepSeek R1-0528

Deepseek R1 0528

DeepSeek R1-0528は、有名なオープンソース大規模モデルプラットフォームであるDeepSeekが发布的にリリースした最新バージョンです。自然言語処理とプログラミングの高い性能があります。プログラミングタスクでの優れたパフォーマンスにより、複雑な問題にも正確に応答できることが注目を集めています。このモデルには多くのシナリオで適用可能な機能があり、開発者やAI研究者にとって重要なツールとなっています。今後、さらなる詳細なモデル情報や使用ガイドラインが公開されると予想されており、機能や適用範囲が強化される予定です。

ウィンズサーフウェーブ 9

ウィンズサーフウェーブ 9

SWE-1 はウィンズサーフ AI がリリースした初めてのソフトウェアエンジニアリングプロセス全体を最適化するモデルファミリーで、ソフトウェア開発を 99% 加速することを目指しています。従来のコードのみ書けるモデルとは異なり、SWE-1 はコードの作成だけでなく、ターミナル操作、他の知識やインターネットへのアクセス、製品のテスト、そしてユーザーからのフィードバックの理解まで行うことができます。SWE-1 シリーズには、SWE-1、SWE-1-lite、SWE-1-mini の3つのモデルがあり、ユーザーごとに異なるニーズに対応しています。

DeepSeek-Prover-V2-671B

Deepseek Prover V2 671B

DeepSeek-Prover-V2-671Bは、強力な推論能力を提供する高度な人工知能モデルです。最新技術に基づいており、さまざまなシナリオに適用できます。このモデルはオープンソースであり、人工知能技術の民主化と普及、技術的障壁の低減を目指しています。これにより、多くの開発者や研究者がAI技術を使用してイノベーションを行うことが可能になります。このモデルを使用することで、ユーザーは工作效率を向上させ、さまざまなプロジェクトの進捗を加速できます。

Kimi-Audio

Kimi-Audioは、音声認識やオーディオ会話などの様々なオーディオ処理タスクを処理することを目的とした、高度なオープンソースのオーディオ基礎モデルです。1300万時間以上の多様なオーディオデータとテキストデータで大規模に事前学習されており、強力なオーディオ推論と言語理解能力を備えています。主な利点として、優れた性能と柔軟性があり、研究者や開発者がオーディオ関連の研究開発を行うのに適しています。

ファッションポーチ

中国語精選

Wan2.1-FLF2V-14B

Wan2.1 FLF2V 14B

Wan2.1-FLF2V-14Bは、ビデオ生成分野の進歩を促進することを目的とした、オープンソースの大規模ビデオ生成モデルです。このモデルは、複数のベンチマークテストで優れた性能を示しており、消費者向けGPUに対応し、480Pおよび720Pのビデオを効率的に生成できます。テキストからビデオ、画像からビデオなど、複数のタスクで優れた性能を発揮し、強力なビジュアルテキスト生成能力を備えており、様々な現実的なアプリケーションシナリオに適しています。

ビデオアップデート

クエーサーアルファ

クエーサーアルファ

openrouter は革新的なマルチモデルチャットインターフェースであり、ユーザーはブラウザ上で様々な言語モデルと簡単にやり取りできます。シンプルなインターフェースにより、チャットがより直感的で楽しくなり、ロールプレイング、プログラミング支援など、様々なユーザーニーズに対応します。この製品はデータをローカルに保存するため、ユーザーのプライバシーとデータセキュリティを確保します。ウェブアプリケーションであるため、ユーザーはソフトウェアをインストールする必要がなく、いつでもどこでもアクセスでき、使いやすさと柔軟性を向上させます。

チャットボット

EasyControl Ghibli

Easycontrol Ghibli

EasyControl Ghibliは、Hugging Faceプラットフォームをベースにした新しくリリースされたモデルで、様々な人工知能タスクの制御と管理を簡素化することを目的としています。このモデルは、高度な技術とユーザーフレンドリーなインターフェースを組み合わせることで、ユーザーがより直感的な方法でAIと対話できるようにします。主な利点は使いやすさと強力な機能であり、初心者から専門家まで、あらゆる背景を持つユーザーが簡単に利用できます。

開発ツール

Selene API

Selene APIは、Atla AIが発表した高度なAI評価モデルです。世界をリードするLLM-as-a-Judge技術を使用することで、AIアプリケーションを正確に評価できます。この製品の主な利点は、その高い精度と信頼性であり、様々な評価基準において最先端モデルを凌駕します。正確なスコアを提供するだけでなく、実行可能なフィードバックも生成し、開発者がAIアプリケーションを最適化するのに役立ちます。Selene APIの背景情報として、安全なAIの未来を構築することに取り組んでいるAtla AI社によって開発されたことが挙げられます。現在、無料トライアルを提供しており、使用量ベースの価格モデルを採用しています。

R1-Omni

R1-Omniは、強化学習によってモデルの推論能力と汎化能力を向上させた、革新的なマルチモーダル感情認識モデルです。HumanOmni-0.5Bを基に開発され、感情認識タスクに特化しており、視覚および音声モーダル情報から感情分析を行うことができます。主な利点としては、強力な推論能力、感情認識性能の顕著な向上、および分布外データにおける優れたパフォーマンスが挙げられます。感情分析、スマートカスタマーサービスなどの分野でマルチモーダルな理解が必要なシナリオに適用でき、重要な研究および応用価値を有しています。

家庭用サービス

markdownify-mcp

Markdownify MCP

Markdownifyは、Model Context Protocolベースのサーバーツールであり、さまざまなファイルタイプとウェブコンテンツをMarkdown形式に変換できます。PDF、画像、音声（転写を含む）、DOCX、XLSX、PPTXなど、さまざまなファイル形式の変換をサポートしており、YouTube動画の字幕、Bingの検索結果、ウェブコンテンツもMarkdownに変換できます。大量の非構造化データを処理する場合に、可読性の高いMarkdownテキストを迅速に生成し、作業効率を向上させることができるため、情報を効率的に整理?共有する必要があるユーザーにとって非常に実用的です。

AI共同研究者

AI共同研究者

AI共同研究者は、Googleの研究チームが開発したマルチエージェントAIシステムであり、人工知能技術を用いて科学研究を支援することを目的としています。Gemini 2.0を基盤として構築されており、科学的方法の推論プロセスを模倣し、新たな研究仮説と実験計画を生成できます。マルチエージェントの協調を通じて、生成、熟考、ランキング、進化などの様々なメカニズムを用いて、出力結果を継続的に最適化します。AI共同研究者の主な利点としては、新規な科学仮説の効率的な生成、強力な学際的知識統合能力、そして科学者との協調能力が挙げられます。本システムは現在研究段階にあり、世界トップレベルの研究機関との連携を通じて、生物医学分野などにおける応用可能性を実証しています。

OmniParser V2

OmniParser V2は、Microsoft Researchチームが開発した、大規模言語モデル（LLM）をグラフィカルユーザーインターフェース（GUI）を理解し操作できるインテリジェントエージェントに変換することを目的とした、高度なAIモデルです。この技術は、インターフェースのスクリーンショットをピクセル空間から解釈可能な構造化された要素に変換することで、LLMがインタラクティブなアイコンをより正確に認識し、画面上で所定のアクションを実行できるようにします。OmniParser V2は、小さなアイコンの検出と高速な推論において顕著な進歩を遂げ、GPT-4oと組み合わせたScreenSpot Proベンチマークテストでは、平均精度39.6％を達成し、元のモデルの0.8％をはるかに上回っています。さらに、OmniParser V2はOmniToolツールを提供しており、さまざまなLLMとの連携をサポートし、GUI自動化のさらなる発展を推進します。

自動化ワークフロー

Goku

Gokuは、テキストプロンプトに基づいて高品質な動画コンテンツを生成できる、動画生成に特化したAIモデルです。高度なストリーム生成技術に基づいており、スムーズで魅力的な動画を生成でき、広告、エンターテインメント、クリエイティブコンテンツ制作など、様々なシーンに適用可能です。Gokuの主な利点は、その高い生成能力と複雑なシーンにおける優れた表現力であり、動画制作コストの大幅な削減とコンテンツの魅力向上を実現します。本モデルは、香港大学とByteDance（バイトダンス）の研究チームが共同で開発し、動画生成技術の発展を目指しています。

Qwen2.5-Max

Qwen2.5-Maxは、20兆トークンを超える事前学習と、教師あり微調整、さらに人間のフィードバックによる強化学習を用いて後学習された大規模Mixture-of-Expert (MoE) モデルです。複数のベンチマークテストで優れた性能を示し、強力な知識とコーディング能力を備えています。阿里巴巴クラウドを通じてAPIインターフェースを提供しており、開発者は様々なアプリケーションシナリオで利用できます。主な利点としては、強力な性能、柔軟なデプロイ方法、効率的なトレーニング技術があり、人工知能分野によりスマートなソリューションを提供することを目指しています。

PengChengStarling

Pengchengstarling

PengChengStarlingは、多言語自動音声認識（ASR）に特化したオープンソースツールキットで、icefallプロジェクトをベースに開発されています。データ処理、モデル訓練、推論、微調整、デプロイといったASRの全プロセスをサポートしています。パラメータ設定の最適化とRNN-Transducerアーキテクチャへの言語IDの統合により、多言語ASRシステムのパフォーマンスを大幅に向上させています。主な利点としては、効率的な多言語サポート、柔軟な設定設計、強力な推論性能が挙げられます。PengChengStarlingのモデルは、様々な言語で優れた性能を発揮し、モデルサイズが小さく推論速度が非常に速いため、効率的な音声認識が必要な場面に最適です。

Fashion-Hut-Modeling-LoRA

Fashion Hut Modeling LoRA

Fashion-Hut-Modeling-LoRAは、Diffusion技術に基づいたテキストから画像を生成するモデルです。主に、高品質なファッションモデルの画像生成に使用されます。特定の学習パラメータとデータセットによって、テキストプロンプトに基づき、特定のスタイルとディテールを持つファッション写真の画像を生成できます。ファッションデザイン、広告制作などの分野で重要な応用価値があり、デザイナーや広告担当者がクリエイティブなコンセプト画像を迅速に生成するのに役立ちます。現在、モデルは学習段階にあり、生成結果が不十分な場合がありますが、大きな可能性を示しています。このモデルの学習データセットは14枚の高解像度画像で構成され、AdamWオプティマイザーと一定の学習率スケジューラなどのパラメータを使用し、画像のディテールと品質に重点を置いて学習が行われました。

Humiris AI

Humiris AIは、高度なAIインフラを提供し、ユーザーによる様々なアプリケーションの構築を支援します。主な利点として、高精度、高速性、低コスト、そして柔軟な展開オプションが挙げられます。効率的なAIソリューションを必要とする企業や開発者を対象とし、SaaS環境へのアクセスまたはオンプレミス展開のオプションを提供することで、様々な業界のニーズに対応します。現在、公式ウェブサイトでは具体的な価格が明示されていません。詳細な料金については、お問い合わせください。

開発プラットフォーム

QVQ-72B-Preview

QVQ 72B Preview

QVQ-72B-PreviewはQwenチームが開発した実験的な研究モデルであり、視覚推論能力の強化に焦点を当てています。このモデルは、多様な分野の理解と推論において強力な能力を示し、特に数学的推論タスクにおいて著しい進歩を遂げています。視覚推論において進歩が見られる一方で、QVQはQwen2-VL-72Bを完全に代替するものではなく、複数ステップの視覚推論においては、画像内容への注意が徐々に低下し、幻覚が生じる可能性があります。さらに、QVQは基本的な認識タスクにおいて、Qwen2-VL-72Bよりも著しく優れた改善を示していません。

LiteMCP

LiteMCPは、MCP（Model Context Protocol）サーバーを効率的に構築するためのTypeScriptフレームワークです。シンプルなツール、リソース、プロンプトの定義をサポートし、完全なTypeScriptサポート、内蔵のエラー処理、CLIツールによるテストとデバッグ機能を提供します。開発者はLiteMCPにより、MCPサーバーの開発とデプロイのための効率的で使いやすいプラットフォームを得ることができ、AIや機械学習モデルの相互作用と協調を促進します。LiteMCPはMITライセンスのオープンソースソフトウェアであり、MCPサーバーの迅速な構築とデプロイを希望する開発者や企業に最適です。

開発とツール

Skywork-o1-Open-PRM-Qwen-2.5-1.5B

Skywork O1 Open PRM Qwen 2.5 1.5B

Skywork-o1-Open-PRM-Qwen-2.5-1.5Bは、Skyworkチームが開発した一連のモデルです。これらのモデルは、o1スタイルの熟考と推論能力を組み合わせたものです。増分過程報酬によって推論能力を強化するように設計されており、小規模で複雑な問題の解決に適しています。単純なOpenAI o1モデルの再現とは異なり、Skywork o1 Openシリーズモデルは、出力において固有の思考、計画、反省能力を示すだけでなく、標準的なベンチマークテストにおける推論スキルも顕著に向上しています。このシリーズは、AI能力の戦略的な進歩を表しており、従来は弱かった基礎モデルを推論タスクにおける最先端技術（SOTA）へと押し上げています。

Skywork-o1-Open-Llama-3.1-8B

Skywork O1 Open Llama 3.1 8B

Skywork-o1-Open-Llama-3.1-8Bは、昆侖科技Skyworkチームが開発した一連のモデルであり、o1スタイルの熟考と推論能力を統合しています。このシリーズのモデルは、出力において、天性の思考力、計画力、省察力を示すだけでなく、標準的なベンチマークテストにおける推論能力も著しく向上しています。このシリーズは、AI能力の戦略的な進歩を表しており、元々弱い基礎モデルを推論タスクにおける最先端技術（SOTA）へと押し上げています。

LTXV ドキュメント

LTXV ドキュメント

LTXV ドキュメントは、LTX ビデオ技術に関する詳細なドキュメントとリソースへのリンクを提供します。クイックスタートガイド、統合とアクセス方法、技術ドキュメント、コミュニティサポートなどが含まれています。この技術は、ビデオコンテンツの作成と管理、特に統合とモデルアクセスを通じて、強力なビデオ処理と分析プラットフォームをユーザーに提供することに重点を置いています。LTXV 技術の背景情報として、Lightricks 社によって開発されており、同社はビデオ技術分野で豊富な技術蓄積と影響力を持っています。本製品は専門的なビデオ技術ドキュメントとして位置付けられており、ビデオ技術の詳細な理解を必要とする開発者や研究者向けです。

ドキュメント

Google AI for Developers

Google AI For Developers

Gemini APIは、Google AI Studioが提供する強力なAIモデルです。開発者は、このAPIを使用して、Googleの最先端AIモデルを容易にアプリケーションに統合できます。このAPIは、Python、Node.js、Go、Android、Dart (Flutter)、Swiftなど、複数のプログラミング言語とプラットフォームをサポートしています。Gemini APIの主な利点は、コンテンツ生成や言語理解などの複雑なAIタスクを処理できる強力な生成能力です。さらに、柔軟性とカスタマイズ性に優れたGemmaオープンモデルを提供しており、責任あるAI開発を加速します。Gemini APIは、生産性向上、画像処理、ビデオ編集など、あらゆる分野で最新のAI技術を活用してアプリケーションを強化したい開発者向けに設計されています。現在は無料ですが、価格設定は時間とサービスの進展に伴って変更される可能性があります。

開発とツール

CriticGPT

CriticGPT は GPT-4 モデルを基に開発されたツールであり、ChatGPT のコード出力のレビューを支援することを目的としています。エラーの特定とコメントの提供を通じて、トレーナーによるレビューの精度と効率性を向上させます。潜在的な問題を効果的に捉え、AI モデルの改善に大きく貢献します。

AIコードアシスタント

AIModels.fyi

AIModels.fyiはAI分野に特化したプラットフォームであり、毎日更新されるAI論文、モデル、ツールの概要を提供しています。重要な影響力を持つAI開発をアルゴリズムで選別し、複雑なモデルや論文を簡潔で分かりやすいガイドに変換することで、ユーザーが迅速に理解と活用を可能にします。さらに、購読者はパーソナライズされたAIコンテンツ、博士号がなくても理解できるトップレベルのモデル、論文、ツールのガイド、そしてAI専門家や開発者と交流できる独自のDiscordコミュニティへのアクセス権を得ることができます。

AI情報プラットフォーム

BasicPrompt

BasicPromptは、汎用的なプロンプトの作成、デプロイ、テストを支援するツールです。Uブロックを使用して汎用的なプロンプトを作成できるエディターを提供しています。BasicPromptは、異なる言語モデルに適したプロンプトを自動的に最適化します。内蔵のテストツールを使用して、様々なモデルにおけるプロンプトのパフォーマンスを評価できます。また、BasicPromptは、コーディングなしでプロンプトをアプリケーションにワンクリックでデプロイできます。BasicPromptを使用することで、プロンプトを迅速に作成、デプロイ、共有し、チームメンバーが容易に貢献できるようになります。

開発とツール

AllNewModels

AllNewModelsは、最新のLLMモデルを数多く提供するウェブサイトです。最大のメリットは、最新のLLMモデル全てを単一のサブスクリプションで利用できる点です。ユーザーは様々な選択肢と柔軟性を持ち、個々のモデルを別々に購入?利用する必要がありません。AllNewModelsは、プロフェッショナル向けのサービスとして位置付けられています。

Model Muse AI

Model Museは、ECサイト向けアパレルブランドにバーチャルファッションモデルを提供するプラットフォームです。最新のAI画像生成技術を活用し、高コストな従来の撮影に代わる、ブランド独自のモデルイメージを創造します。プラットフォーム上でモデルの特徴を簡単にカスタマイズでき、ブランドの真の声を反映させることができます。

AI設計ツール

Line2Depth SD 1.5

Line2depth SD 1.5

Line2Depth SD 1.5は、Canny、線画、Softedgeなどの制御ネットワークを利用し、線画のみから奥行きのある画像を作成できるモデルです。プロンプトに「depth, 3d」を追加してください。Loraファイル名の後の数字は、統合されたLoraの数を示しており、それぞれ異なる結果を生み出しますので、最適なものを選んでください。

高品質新製品

Mistral-22B-v0.2

Mistral 22B V0.2

Mistral-22B-v0.2は、優れた数学的能力とプログラミング能力を示す強力なモデルです。V1と比較して、V2モデルは整合性と多様な会話能力が大幅に向上しています。本モデルは再調整により検閲が撤廃され、あらゆる質問に答えることができます。トレーニングデータは主に多様な会話を含み、特にプログラミング内容に重点が置かれています。さらに、本モデルはエージェント能力を備えており、現実世界のタスクを実行できます。32kのコンテキスト長を使用してトレーニングが行われました。使用時にはGUANACOプロンプト形式に従う必要があります。

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase