オープンソース

# オープンソース

OmniAvatar

OmniAvatarは先進的な音声駆動の動画生成モデルであり、高品質なバーチャルキャラクターのアニメーションを生成できます。その重要性は音声と視覚のコンテンツを組み合わせることにより、効率的な身体のアニメーションを実現することにあります。これはさまざまなアプリケーションシナリオに適しています。この技術はディープラーニングアルゴリズムを使用し、高精度なアニメーション生成を実現し、多様な入力形式をサポートしており、映画、ゲーム、ソーシャルメディア分野に定位しています。このモデルはオープンソースであり、技術の共有と応用を促進しています。

動画アニメーション

OmniGen2

OmniGen2は、ビジュアル言語モデルと拡散モデルを組み合わせた効率的なマルチモーダル生成モデルで、視覚理解、画像生成、および編集などの機能を備えています。オープンソースの特性により、研究者や開発者に対して強力な基礎を提供し、カスタマイズ可能なAIの探索を支援します。

Kimi-Dev

Kimi-Dev は強力なオープンソースコード LLM で、ソフトウェアエンジニアリングの問題を解決することを目指しています。大規模な強化学習を経て最適化され、現実の開発環境での正確さと堅牢性を保証します。Kimi-Dev-72B は SWE-bench バenchmark で 60.4% のパフォーマンスを達成し、他のオープンソースモデルを上回り、現在最も先進的なコード LLM の一つです。このモデルは Hugging Face と GitHub でダウンロードおよびデプロイが可能で、開発者や研究者向けに設計されています。

プログラミング

Chatterbox AI

Resemble AI が提供する最初のオープンソースのプロダクショングレードテキスト-to-音声(TTS)モデルである Chatterbox は、卓越したパフォーマンスと安定性を誇っています。閉じられた高級システムと比較しても優れた効果があります。このモデルのユニークな点は感情の強調コントロールが可能であり、ビデオ、ゲーム、AIアシスタントなど、さまざまなシナリオに対応できる点です。また、価格競争力があり、超低遅延で生産用途にも最適です。

テキスト-to-音声

DeepSeek R1-0528

Deepseek R1 0528

DeepSeek R1-0528は、有名なオープンソース大規模モデルプラットフォームであるDeepSeekが发布的にリリースした最新バージョンです。自然言語処理とプログラミングの高い性能があります。プログラミングタスクでの優れたパフォーマンスにより、複雑な問題にも正確に応答できることが注目を集めています。このモデルには多くのシナリオで適用可能な機能があり、開発者やAI研究者にとって重要なツールとなっています。今後、さらなる詳細なモデル情報や使用ガイドラインが公開されると予想されており、機能や適用範囲が強化される予定です。

Unmute

Unmuteは革新的な音声認識と音声合成ツールで、ユーザーが自然な言語でAIと効果的にインタラクトできるように設計されています。その低遅延技術により、スムーズなユーザーエクスペリエンスを保証し、リアルタイムフィードバックが必要なシナリオに適しています。本製品はオープンソースとして公開され、さらなる開発者やユーザーの参加を促進します。価格についてはまだ発表されていませんが、無料と有料の組み合わせモデルを予定しています。

テキストから音声

DMind

DMind-1 および DMind-1-mini は、Web3 任務向けのドメイン固有の大型言語モデルであり、他の汎用モデルよりも高い分野精度、指示フォローキャパシティ、専門的な理解力を提供します。DMind-1 は専門家の手によってカスタマイズされた Web3 データで微調整され、強化学習とヒューマンフィードバックに基づいてアラインされ、複雑な指示やマルチラウンド対話に対応します。それはブロックチェーン、DeFi、智能契約などの分野に適しています。DMind-1-mini はより軽量なバージョンであり、リアルタイムアプリケーションやリソース効率の高いシナリオでの利用に特に適しています。代理配置やチェーン上のツールなどにも活用できます。製品の料金や詳細情報は未確定です。

高品質新製品

ミ positional Agent

ミ Positional Agent

ミ positional Agent は、ブラウザと連携でき、深い研究、自動計画などの機能を持つ簡潔でありながら強力な代理フレームワークです。複雑なタスクや研究を行うユーザーに適しています。開発者はこのフレームワークを使ってさまざまなモデルやツールを簡単に統合できます。このフレームワークは作業効率を高め、ユーザーに便利な体験をもたらし、さまざまな科学研究や商業用途に最適です。この製品はオープンソースであり、ユーザーは自由に使用や改造が可能です。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

AgentCPM-GUI

AgentCPM-GUI はオープンソースのモバイル端末向け大規模言語モデル（LLM）エージェントで、中英語のアプリケーションを操作するために設計されています。ユーザーがスクリーンショットを提供することで、自動的にタスクを実行することができます。その主な特長は、効果的な GUI 要素理解、高度な推論能力、および中国語アプリケーションへの正確なサポートです。この技術の目的は、モバイル端末上のエージェントのユーザーエクスペリエンスを向上させ、特に複雑なタスク処理において力を発揮します。この商品はモバイル端末での生産性を向上させるための位置づけで、あらゆる種類のユーザーに適合します。

インテリジェントエージェント

SurfSense

SurfSense はオープンソースのAI研究アシスタントであり、検索エンジン、Slack、Notionなど複数の外部リソースを統合したツールです。これにより、ユーザーは効率的にリサーチおよび情報管理を行えます。この製品は複数のファイル形式に対応しており、自然言語での対話ができ、コンテンツの迅速な生成も可能です。SurfSense は研究の効率向上を目指し、知識管理に高いニーズを持つユーザー向けに設計されています。

DeerFlow

DeerFlow は、言語モデルとウェブ検索、クロール、Python 実行などの専用ツールを結合したディープラーニングフレームワークです。このプロジェクトはオープンソースコミュニティから生まれ、貢献の還元を重視しており、多彩な柔軟な機能を備えています。様々な研究ニーズに対応可能です。

オープンソース

NoteLLM

NoteLLM はユーザ生成コンテンツに特化した検索可能な大規模言語モデルであり、推薦システムのパフォーマンスを向上させることを目指しています。テーマ生成と埋め込み生成の組み合わせにより、ノートの内容に対する理解と処理力を向上させています。このモデルはエンドツーエンドのチューニング戦略を採用しており、マルチモーダル入力に対応し、多様なコンテンツ領域での応用可能性を広げています。その重要なポイントは、ノート推薦の精度と体験を効果的に向上させることで、特に小紅書などのUGCプラットフォームに最適です。

マルチモーダル処理

Agent-as-a-Judge

Agent As A Judge

Agent-as-a-Judge は、代理システム間の相互評価により作業効率と品質を向上させる新しい自動評価システムです。この製品は評価時間とコストを大幅に削減し、継続的なフィードバック信号を提供することで、代理システムが自ら改善することを促します。このシステムは主に AI 開発タスクに広く利用されており、特にコートジェネレーション分野で活躍しています。このシステムはオープンソースであり、開発者がカスタマイズや追加開発を行えるように設計されています。

DeepSeek-Prover-V2-671B

Deepseek Prover V2 671B

DeepSeek-Prover-V2-671Bは、強力な推論能力を提供する高度な人工知能モデルです。最新技術に基づいており、さまざまなシナリオに適用できます。このモデルはオープンソースであり、人工知能技術の民主化と普及、技術的障壁の低減を目指しています。これにより、多くの開発者や研究者がAI技術を使用してイノベーションを行うことが可能になります。このモデルを使用することで、ユーザーは工作效率を向上させ、さまざまなプロジェクトの進捗を加速できます。

F Lite

F Liteは、FreepikとFalによって作成された大規模な拡散モデルで、100億パラメーターを持ちます。著作権クリアかつ安全な作業環境（SFW）に特化して訓練されました。モデルはFreepikの内部データセットに基づいており、約8000万枚の合法的な画像データを含んでいます。これは、このスケールのモデルが法的?安全なコンテンツに焦点を当てた最初の取り組みです。技術報告書にはモデルの詳細が記載されており、CreativeML Open RAIL-Mライセンスのもとで配布されています。モデルの設計はオープンでアクセスしやすいAIの促進を目指しています。

Step1X-Edit

Step1X-Editは実用的な汎用画像編集フレームワークであり、MLLMの画像理解能力を利用して編集指示を解析し、編集トークンを生成し、DiTネットワークによって画像にデコードします。その重要性は、実ユーザーの編集ニーズを効果的に満たし、画像編集の利便性と柔軟性を向上させる点にあります。

["チャイニーズフード],["AIデジタルアーツ]

Wiredoor

Wiredoor は、自己ホスト型のオープンソース Ingress as a Service プラットフォームであり、ユーザーはプライベートネットワークまたはローカルネットワークで実行されているアプリケーションをインターネットに安全に公開できます。WireGuard が提供するリバース VPN 接続と組み込みの NGINX リバースプロキシを活用することで、高性能と低遅延を実現します。Wiredoor は開発者と運用担当者に包括的な制御権を提供し、パブリッククラウドソリューションへの依存を回避します。この製品は無料でオープンソースであり、Kubernetes や Docker を含むあらゆる環境に適しています。

自己ホスト型

Kimi-Audio

Kimi-Audioは、音声認識やオーディオ会話などの様々なオーディオ処理タスクを処理することを目的とした、高度なオープンソースのオーディオ基礎モデルです。1300万時間以上の多様なオーディオデータとテキストデータで大規模に事前学習されており、強力なオーディオ推論と言語理解能力を備えています。主な利点として、優れた性能と柔軟性があり、研究者や開発者がオーディオ関連の研究開発を行うのに適しています。

ファッションポーチ

deepwiki

devops-exercisesは、求職者がDevOps面接の準備をするためのリポジトリです。様々な技術やツールに関する練習問題が含まれており、ユーザーのスキルと面接でのパフォーマンス向上を支援します。このプロジェクトはオープンソースであり、DevOps分野で成長したいすべての人に適しています。Docker、Kubernetes、AWSなどの人気技術を網羅しており、初心者から経験豊富なプロフェッショナルまで対応できます。このプロジェクトは完全に無料で利用でき、コミュニティの学習と成長を促進します。

Flex.2-preview

Flex.2は現在最も柔軟なテキストから画像への拡散モデルであり、組み込みの再描画機能と汎用的な制御機能を備えています。これはコミュニティによってサポートされているオープンソースプロジェクトであり、人工知能の民主化を促進することを目指しています。Flex.2は8億のパラメーターを備え、512トークンの長さの入力に対応し、OSIのApache 2.0ライセンスに準拠しています。このモデルは多くのクリエイティブなプロジェクトで強力なサポートを提供できます。ユーザーはフィードバックを通じてモデルを継続的に改善し、技術の進歩を促進することができます。

チャットボット

Dia AI

Diaは、Nari Labsが開発した1.6億パラメータのテキスト音声変換（TTS）モデルであり、テキストから直接、非常にリアルな会話を生成できます。このモデルは、感情やトーンのコントロールをサポートしており、笑い声や咳などの非言語的なコミュニケーションも生成できます。その事前学習済みモデルの重みはHugging Faceでホストされており、英語の生成に対応しています。この製品は、研究や教育用途にとって非常に重要であり、対話生成技術の発展を促進します。

パーソナルケア、ビューティー、ファッション

suna

Sunaは、自然な会話を通じてユーザーが研究、データ分析、日常の課題を簡単に解決できるオープンソースのAIアシスタントです。強力な機能と直感的なインターフェースを組み合わせることで、複雑な問題を効率的に解決し、ワークフローを自動化できます。Sunaのツールキットには、シームレスなブラウザ自動化、ファイル管理、Webサイトの展開、およびさまざまなAPIとの統合が含まれています。その機能は強力で柔軟性があり、さまざまなユーザーニーズに対応できます。

[" ??????????, ???????? ????? ]

Search-R1は、推論を行い、検索エンジンを呼び出すことができる大規模言語モデル（LLM）をトレーニングすることを目的とした強化学習フレームワークです。veRLをベースに構築されており、様々な強化学習手法と異なるLLMアーキテクチャをサポートしており、ツール拡張推論の研究開発において、効率性と拡張性を備えています。

モバイルアプリケーションと周辺機器

LeoMoon Wiki-Go

Leomoon Wiki Go

LeoMoon Wiki-Goは、Go言語で構築された高速で現代的な平面ファイルWikiです。シンプルさとパフォーマンスに重点を置き、Markdown形式をサポートし、データベースに完全に依存せず、メンテナンスフリーです。個人知識管理、チームワーク、社内文書に最適です。

ジャンパーパンツ

ChatTS-14B

ChatTS-14Bは、時系列の理解と推論に特化した言語モデルであり、合成データによって時系列データの処理能力を向上させることを目的としています。このモデルは、データ分析、金融予測などの分野で広く応用でき、ユーザーにより深いレベルの時系列に関する洞察を提供し、優れた推論能力と正確性を備えています。

データ分析

AI Playground

AI Playgroundは、ユーザーにAI画像作成、画像スタイライズ、チャットボット機能を提供することを目的としたオープンソースプロジェクトです。Intel? Arc? GPUを搭載したPC向けに設計されており、様々な生成AIライブラリとモデルをサポートしています。このアプリケーションの主な利点は、強力な画像生成能力と使いやすい操作性です。AI開発者、デザイナー、愛好家に適しており、高度なAI技術を探求し活用するのに役立ちます。このソフトウェアは、ユーザーが自由にモデルを選択してダウンロードできる柔軟性を提供し、様々なアプリケーションシナリオに適しています。

AIデジタルアシスタント

中国語精選

Wan2.1-FLF2V-14B

Wan2.1 FLF2V 14B

Wan2.1-FLF2V-14Bは、ビデオ生成分野の進歩を促進することを目的とした、オープンソースの大規模ビデオ生成モデルです。このモデルは、複数のベンチマークテストで優れた性能を示しており、消費者向けGPUに対応し、480Pおよび720Pのビデオを効率的に生成できます。テキストからビデオ、画像からビデオなど、複数のタスクで優れた性能を発揮し、強力なビジュアルテキスト生成能力を備えており、様々な現実的なアプリケーションシナリオに適しています。

ビデオアップデート

EaseVoice Trainer

Easevoice Trainer

EaseVoice Trainerは、音声合成と変換のトレーニングプロセスを簡素化および強化することを目的としたバックエンドプロジェクトです。このプロジェクトはGPT-SoVITSを改良したもので、ユーザーエクスペリエンスとシステムの保守性に重点を置いています。元のプロジェクトとは異なる設計理念に基づいており、小規模な実験から大規模な生産まで、幅広いシナリオに適した、よりモジュール化されカスタマイズ可能なソリューションを提供することを目指しています。このツールは、開発者や研究者が音声合成と変換の研究開発をより効率的に行うのに役立ちます。

["ヴィカス?オル?ウパカーラン],["モダルプラーシクシャン?オル?パリニヨージャン]

PureChat

PureChat は、AI と最先端技術を組み合わせた最新のチャットアプリケーションです。Vue3 と ElementPlus を使用して構築されており、OpenAI、Ollama、DeepSeek などの大規模言語モデルを内蔵しています。Markdown レンダリングとチャットログのスクリーンショット機能をサポートしており、ユーザーのコミュニケーション効率と体験を大幅に向上させることが主な利点です。PureChat は、開発者が最新の技術を迅速に習得するためのプラットフォームを提供することに尽力しています。

チャットボット

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase