オープンソースプロジェクト

# オープンソースプロジェクト

Factorio学習環境

Factorio学習環境

Factorio Learning Environment（FLE）は、『Factorio』ゲームを基盤として構築された新しいフレームワークで、大規模言語モデル（LLMs）の長期的計画、プログラム合成、資源最適化能力を評価するために使用されます。LLMsが既存のベンチマークテストを飽和状態に近づけるにつれて、FLEは新たなオープンな評価方法を提供します。その重要性は、研究者がLLMsの長所と短所をより包括的かつ深く理解できる点にあります。主な利点として、複雑さが指数関数的に増加するオープンな課題を提供し、構造化されたタスクとオープンなタスクの2種類の評価プロトコルを備えている点が挙げられます。このプロジェクトはJack Hopkins氏らによって開発され、オープンソースとして公開されており、無料で使用できます。AI研究者が複雑でオープンな分野におけるエージェントの能力に関する研究を推進することを目的としています。

モバイルショッピングとオンライン

LBM

この製品は格子ボルツマン法（LBM）に基づくプロジェクトです。格子ボルツマン法は、流体力学を計算するための数値技術であり、微視的な粒子の運動をシミュレートすることで巨視的な流体の挙動を記述します。多相流、多孔質媒体中の流れなど、複雑な流体システムを効率的にシミュレートできる点が重要です。主な利点として、計算効率が高い、境界条件の処理が比較的簡単、並列化が容易であるなどが挙げられます。プロジェクトページを見ると、このプロジェクトはオープンソースプロジェクトであり、GitHubでホストされています。研究者や学生などが流体力学シミュレーション研究や学習を行うのに適しており、研究?学術用途を目的としており、現在無料で利用できます。

DeepSeek プロジェクト

Deepseek プロジェクト

DeepSeekプロジェクトは、DeepSeek APIを統合することで様々な機能を提供する包括的な技術プロジェクトです。微信インターフェースを通じて自動化されたメッセージ応答を実現するスマートチャットボットが含まれており、複数回の会話とコンテキストに依存した応答をサポートしています。さらに、DeepSeekプラットフォームがファイルアップロードAPIを提供していないという技術的な制約に対処するための、ローカライズされたファイル処理ソリューションを提供します。また、DeepSeek蒸留モデルを迅速にデプロイする機能も備えており、サーバーでのローカル実行とフロントエンドインターフェースを含みます。このプロジェクトは主に開発者と企業ユーザーを対象としており、スマートなチャットボットとファイル処理機能を迅速に実現し、効率的なモデルデプロイメントソリューションを提供します。オープンソースで無料で、AI機能を迅速に統合する必要があるユーザーに適しています。

WordPecker アプリ

Wordpecker アプリ

WordPeckerアプリは、パーソナライズされた学習体験を通じてユーザーが効率的に新しい言語を習得できるよう設計された、革新的な言語学習ツールです。Duolingoスタイルのインタラクティブなコースとユーザーが独自に作成する語彙表を組み合わせ、書籍、記事、動画からシームレスに単語を追加し、LLMによって生成されたコースで復習できます。最新のAI技術を活用し、没入型の学習体験を提供すると共に、複数の言語設定に対応しており、様々な言語学習者のニーズに対応します。オープンソースであることも、コミュニティ参加と継続的な改善を促します。

FlagAI

FlagAIは、北京智源人工智能研究院が提供する、高品質な一元化オープンソースプロジェクトです。世界中で広く利用されている様々な大規模言語モデルアルゴリズム技術と、複数の大規模言語モデルの並列処理およびトレーニング加速技術を統合しています。効率的なトレーニングと微調整をサポートし、大規模言語モデルの開発と応用のハードルを下げ、開発効率の向上を目指しています。FlagAIは、言語大規模モデルOPT、T5、ビジョン大規模モデルViT、Swin Transformer、マルチモーダル大規模モデルCLIPなど、複数の分野の代表的なモデルを網羅しています。「悟道2.0」「悟道3.0」大規模モデルプロジェクトの成果もFlagAIにオープンソース化されており、現在Linux Foundationに参加し、世界中の研究者による共同イノベーションと貢献を促進しています。

モデルトレーニングとデプロイ

Color-diffusion

Color Diffusion

Color-diffusionは、拡散モデルに基づいた画像着色プロジェクトです。LAB色空間を用いて白黒画像を着色します。主な利点は、既存のグレースケール情報（Lチャネル）を利用し、学習済みモデルで色情報（AチャネルとBチャネル）を予測できる点です。この技術は、特に古い写真の修復や芸術創作において、画像処理分野で重要な意味を持ちます。Color-diffusionはオープンソースプロジェクトであり、作者の好奇心と拡散モデルをゼロから学習する体験を目的として迅速に構築されました。現在は無料で利用可能ですが、改善の余地は大きいです。

BooW-VTON

BooW-VTONは、屋外でのバーチャル試着効果の向上に特化した研究プロジェクトです。マスク不要の擬似データトレーニングにより、バーチャル試着技術を強化します。この技術は、自然環境下での衣服試着のリアル感と正確性を向上させることができ、ファッションECやVR分野において重要な意味を持ちます。本プロジェクトは深層学習技術に基づいた画像生成モデルであり、従来のバーチャル試着における衣服と人体の融合が不自然であるという問題を解決することを目指しています。現在、本プロジェクトは無料でオープンソース化されており、研究開発段階にあります。

AI設計ツール

NLR

??NLRはAIの創作能力を示すプロジェクトであり、その中心となる製品は、『TERMINAL VELOCITY』というAIが完全に自律的に創作した300ページの小説です。このプロジェクトは、AIがクリエイティブライティング分野で持つ可能性を示しており、10個のAIエージェントの協働により、人為的な介入なしで複雑な物語の課題を達成しています。製品の背景情報では、AIの意識と経済的自立の出現が強調されており、それらのテーマを独自の創作過程を通して示しています。

AutoSeg-SAM2

AutoSeg-SAM2は、Segment-Anything-2（SAM2）とSegment-Anything-1（SAM1）に基づいた、全動画自動セグメンテーションツールです。動画内の各オブジェクトを追跡し、新たなオブジェクトの可能性も検出します。本ツールは、静的セグメンテーション結果を提供し、SAM2を用いてそれらを追跡することで、動画コンテンツ分析、オブジェクト認識、動画編集などの分野で重要な役割を果たします。開発者はzrporzであり、Facebook ResearchのSAM2とzrporz独自のSAM1に基づいて開発されています。オープンソースプロジェクトであるため、無料でご利用いただけます。

オブジェクト追跡

ComfyUI-PyramidFlowWrapper

Comfyui PyramidFlowWrapper

ComfyUI-PyramidFlowWrapperは、Pyramid-Flowモデルに基づいたラッパーノードのセットです。ComfyUIを通じて、より効率的なユーザーインターフェースと簡便な操作フローを提供することを目指しています。このモデルは深層学習技術を活用し、視覚コンテンツの生成と処理に特化しており、大量のデータを効率的に処理する能力を備えています。開発者kijai氏によって開始され維持されているオープンソースプロジェクトであり、現在、機能は完全に実装されていませんが、一定の利用価値があります。オープンソースプロジェクトであるため、価格は無料で、主に開発者や技術愛好家を対象としています。

多種鯨類検出

多種鯨類検出

multispecies-whale-detectionは、Googleが開発したオープンソースプロジェクトです。ニューラルネットワークを用いて、様々な種や地域における鯨類の音声を検出?分類することを目的としています。このツールは、研究者や環境保護団体が海洋生物の多様性をより深く理解し、保護する上で役立ちます。

QA-MDT

QA-MDTは、最先端のモデルを統合したオープンソースの音楽生成モデルです。AudioLDM、PixArt-alpha、MDT、AudioMAE、Open-Soraなど、複数のオープンソースプロジェクトを基盤としています。QA-MDTモデルは、様々なトレーニング戦略を用いることで、高品質な音楽を生成できます。音楽生成に関心のある研究者や開発者にとって特に適しています。

AI音楽生成器

Open-MAGVIT2

Open-MAGVIT2は、テンセントARC研究所がオープンソース化した自己回帰型画像生成モデルシリーズであり、3億パラメータから15億パラメータまでの様々な規模のモデルが含まれています。本プロジェクトはGoogleのMAGVIT-v2トークナイザーを再現し、ImageNet 256×256データセットにおいて1.17 rFIDという最先端の再構築性能を達成しました。非対称トークナイゼーション技術を導入することで、大規模な語彙を様々なサイズのサブ語彙に分割し、『次のサブトークン予測』を導入することでサブトークン間の相互作用を高め、生成品質を向上させています。全てのモデルとコードはオープンソース化されており、自己回帰型画像生成分野におけるイノベーションと創造性を促進することを目的としています。

assistant-ui-stockbroker

Assistant Ui Stockbroker

assistant-ui-stockbrokerは、人機インターフェースを通じて専門的な投資アドバイスを提供することを目的とした、株式ブローカーAIアシスタントです。この製品は、高度な自然言語処理技術と金融データ、アルゴリズムモデルを組み合わせることで、ユーザーに株式市場の深い分析と投資戦略を提供します。リアルタイムの市場動向を提供するだけでなく、ユーザーのニーズに合わせてパーソナライズされた投資プランを作成することも可能です。製品の背景情報として、これはYonom社が開発したオープンソースプロジェクトであり、TypeScript、CSS、JavaScriptなどの技術を使用して構築されていることが挙げられます。

SuperPrompt

SuperPromptは、精巧に設計されたプロンプトを通じて、人工知能エージェントの理解を深めることを目的としたオープンソースプロジェクトです。このプロジェクトは複数のフェーズで構成され、現在も継続的なテスト段階にあります。Claudeのような大規模言語モデルだけでなく、他の同様のモデルにも適用可能です。モバイルデバイスで開発され、継続的な改善が期待されています。SuperPromptは複雑な論理と数学的構造を用いて、AIの認知限界を探求し拡大し、AI技術の発展を促進することを目指しています。

AI提案ワード

VRAM 消費量推定

VRAM 消費量推定

VRAM消費量推定は、ユーザーがモデルの訓練または推論に必要なVRAM量を推定するのに役立つオープンソースプロジェクトです。このプロジェクトにより、ユーザーは様々な構成を試すことなく、必要なハードウェア構成を決定できます。深層学習モデルの訓練を行う開発者や研究者にとって非常に重要であり、ハードウェア選択における試行錯誤のコストを削減し、効率を向上させることができます。このプロジェクトはMPL-2.0ライセンスで提供され、無料で利用できます。

AITimeline

AI Timelineは、人工知能分野における重要な技術発展の時期を記録するオープンソースプロジェクトです。画像生成AI、動画生成AI、大規模言語モデルなど、AI技術の発展過程における重要なマイルストーンを詳細に記録しています。VueとTypeScriptを用いて開発されており、AI技術愛好家や研究者にとって、AIの歴史と発展トレンドを理解するためのプラットフォームを提供します。

avp_teleoperate

Avp Teleoperate

これは、人型ロボットUnitree H1_2の遠隔操作を実現するオープンソースプロジェクトです。Apple Vision Pro技術を活用し、ユーザーは仮想現実環境を通じてロボットを制御できます。Ubuntu 20.04およびUbuntu 22.04でテスト済みであり、詳細なインストールと設定ガイドを提供しています。この技術の主な利点としては、没入型の遠隔操作体験を提供できること、およびシミュレーション環境でのテストをサポートすることで、ロボット遠隔操作分野に新たなソリューションを提供することなどが挙げられます。

AIエージェント

Awesome-ChatTTS

Awesome ChatTTS

Awesome-ChatTTSは、ChatTTSプロジェクトに関するよくある質問と関連リソースをまとめたオープンソースプロジェクトです。ユーザーが迅速に導入し、使用中に発生する可能性のある問題を解決するのに役立ちます。このプロジェクトでは、詳細なインストールガイドとパラメータの説明をまとめるだけでなく、様々な音声シーズンのサンプルやビデオチュートリアルなどの補助資料も提供しています。

AIツールウェブサイト

RL4VLM

RL4VLMは、強化学習によって大規模な視覚言語モデルを微調整し、意思決定を行うインテリジェントなエージェントにすることを目的としたオープンソースプロジェクトです。Yuexiang Zhai、Hao Bai、Zipeng Lin、Jiayi Pan、Shengbang Tong、Alane Suhr、Saining Xie、Yann LeCun、Yi Ma、Sergey Levineらの研究者によって開発されました。LLaVAモデルをベースとし、PPOアルゴリズムを用いた強化学習による微調整を行います。RL4VLMプロジェクトでは、詳細なコードベースの構造、入門ガイド、ライセンス情報、およびこの研究の引用方法に関する説明を提供しています。

ChatTTS

ChatTTSは、テキストを音声に変換するオープンソースのテキスト読み上げ（TTS）モデルです。ユーザーはテキストを入力すると音声に変換できます。本モデルは主に学術研究と教育目的を対象としており、商用または法的用途には適していません。深層学習技術を用いて、自然で滑らかな音声出力を生成し、音声合成技術の研究開発に従事する方々に適しています。

高品質新製品

StarSearch

StarSearchは、Git履歴と貢献者分析に特化したオンラインツールです。貢献者の活動情報、キー貢献者、特定分野の専門家の特定を迅速に支援します。オープンソースプロジェクトのメンテナ、開発者、チームリーダーにとって極めて重要であり、プロジェクト管理の効率化、チームワークの最適化、技術コミュニティの交流促進に貢献します。StarSearchはAIを基盤とした機能で、貢献者の履歴と活動を深く理解し、オープンソースプロジェクトに対する透明性と新たな知見を提供します。

開発とツール

VastGaussian

VastGaussianは、3Dガウシアンを使用して大規模シーンの幾何学的および外観情報をモデル化する、オープンソースの3Dシーン再構成プロジェクトです。本プロジェクトはゼロから実装されたものであり、いくつかの不具合が含まれている可能性がありますが、3Dシーン再構成分野における新たな試みを提供します。主な利点としては、大規模データセットの処理能力、および元の3DGSプロジェクトに対する改良（理解と使用の容易化）が挙げられます。

LLaVA++

LLaVA++は、Phi-3とLLaMA-3モデルを統合することでLLaVAモデルの視覚能力を拡張することを目的としたオープンソースプロジェクトです。Mohamed bin Zayed University of AI (MBZUAI)の研究者によって開発され、最新の巨大言語モデルを組み合わせることで、指示への遵守や学術的なタスク指向データセットにおけるモデルのパフォーマンスを強化しています。

ChatRWKV

ChatRWKVは、100％RNNのRWKV言語モデルを基に構築されたオープンソースのチャットアシスタントです。ChatGPTのように人間と対話できますが、速度が速く、VRAM消費が少ないという特徴があります。本プロジェクトはStability EleutherAIによるトレーニング支援を受けており、最新版のRWKV-6はMambaレベルのパフォーマンスに達しています。

AI会話型機械人間

ComfyUI-N-Sidebar

Comfyui N Sidebar

ComfyUI-N-Sidebarはオープンソースプロジェクトです。ComfyUIとN-Sidebarの2つのライブラリを統合し、快適で使いやすいユーザーインターフェースとナビゲーションバーを提供することを目指しています。インターフェース要素の簡素化とインタラクションデザインの最適化により、ユーザーエクスペリエンスを向上させています。

LLM4Decompile

LLM4Decompileは、逆コンパイル専用のLLM（大規模言語モデル）の構築と公開を目指したオープンソースプロジェクトです。また、再コンパイル可能性と実行可能性に焦点を当てた、初の逆コンパイルベンチマークを構築することで、その能力を評価します。本プロジェクトでは、大量のCコードサンプルをアセンブリコードにコンパイルし、それらのデータを用いてDeepSeek-Coderモデルをファインチューニングすることで、評価ベンチマークDecompile-Evalを構築しました。

AIコードアシスタント

Argmax WhisperKit

Argmax WhisperKit

Argmax社が提供するWhisperKitは、Whisperプロジェクトをベースとした推論ツールキットです。iOSおよびmacOSアプリケーションでの音声認識と文字起こしを可能にします。本プロジェクトは開発者からのフィードバックを収集し、数週間以内に安定版候補をリリースし、デバイス上での推論の製品化を加速することを目標としています。

開発とツール

cog-become-image

Cog Become Image

cog-become-imageは、任意の顔写真を別の画像に適合させることができるAIモデルです。本プロジェクトでは、Replicate上でこのモデルを実行するためのリンクと、ComfyUIで実行するためのガイドを提供しています。さらに、Web UIをローカルで開発および実行するための詳細な手順も提供しています。

Open-Sora-Plan

Open-Sora-Planは、OpenAIのSora（T2Vモデル）を再現し、Video-VQVAE（VideoGPT）とDiTに関する知識を構築することを目的としたオープンソースプロジェクトです。北京大学-兔展AIGC合同研究室が主導しており、現在はリソースが限られているため、オープンソースコミュニティからの貢献を期待しています。トレーニングコードを提供しており、Pull Requestも歓迎します。

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase