機械学習

# 機械学習

Kimi-Dev

Kimi-Dev は強力なオープンソースコード LLM で、ソフトウェアエンジニアリングの問題を解決することを目指しています。大規模な強化学習を経て最適化され、現実の開発環境での正確さと堅牢性を保証します。Kimi-Dev-72B は SWE-bench バenchmark で 60.4% のパフォーマンスを達成し、他のオープンソースモデルを上回り、現在最も先進的なコード LLM の一つです。このモデルは Hugging Face と GitHub でダウンロードおよびデプロイが可能で、開発者や研究者向けに設計されています。

プログラミング

WorldPM-72B

WorldPM-72B は、大規模な学習によって得られた統合嗜好モデリングモデルであり、優れた汎用性と高い表現能力を持っています。このモデルは 1500 万件以上の嗜好データに基づいており、客観的な知識に関する嗜好認識において大きな可能性を示しています。より質の高いテキストコンテンツの生成に使用でき、特に執筆分野において重要な応用価値を持っています。

自然言語処理

docsynecx by SynecX AI Labs

Docsynecx By SynecX AI Labs

docsynecxは、AI、機械学習、OCR技術を利用して、インボイス処理、領収書、船荷証券などを含む各種文書を自動化するスマートな文書処理AIプラットフォームです。このプラットフォームは、構造化、半構造化、非構造化データを迅速かつ正確に抽出、分類、整理できます。

Step1X-Edit

Step1X-Editは実用的な汎用画像編集フレームワークであり、MLLMの画像理解能力を利用して編集指示を解析し、編集トークンを生成し、DiTネットワークによって画像にデコードします。その重要性は、実ユーザーの編集ニーズを効果的に満たし、画像編集の利便性と柔軟性を向上させる点にあります。

["チャイニーズフード],["AIデジタルアーツ]

Nes2Net

Nes2Netは、基礎モデル駆動の音声反詐欺タスク向けに設計された軽量なネスト型アーキテクチャであり、低いエラー率を特長としており、オーディオディープフェイク検出に適しています。このモデルは複数のデータセットで優れたパフォーマンスを示しており、事前学習済みモデルとコードはGitHubで公開されているため、研究者や開発者が容易に使用できます。音声処理とセキュリティ分野に適しており、音声認識と反詐欺の効率性と正確性の向上を目指しています。

EaseVoice Trainer

Easevoice Trainer

EaseVoice Trainerは、音声合成と変換のトレーニングプロセスを簡素化および強化することを目的としたバックエンドプロジェクトです。このプロジェクトはGPT-SoVITSを改良したもので、ユーザーエクスペリエンスとシステムの保守性に重点を置いています。元のプロジェクトとは異なる設計理念に基づいており、小規模な実験から大規模な生産まで、幅広いシナリオに適した、よりモジュール化されカスタマイズ可能なソリューションを提供することを目指しています。このツールは、開発者や研究者が音声合成と変換の研究開発をより効率的に行うのに役立ちます。

["ヴィカス?オル?ウパカーラン],["モダルプラーシクシャン?オル?パリニヨージャン]

FramePack

FramePackは、入力フレームのコンテキストを圧縮することで、ビデオ生成の品質と効率を向上させる革新的なビデオ生成モデルです。主な利点として、ビデオ生成におけるドリフト問題を解決し、双方向サンプリング手法によりビデオ品質を維持することで、長尺ビデオの生成が必要なユーザーに適しています。この技術的背景は、既存モデルの徹底的な研究と実験に基づいており、ビデオ生成の安定性と一貫性を向上させます。

ビデオアップデート

GenPRM

GenPRMは、生成推論によってテスト時の計算効率を向上させる、新興のプロセス報酬モデル（PRM）です。この技術は、複雑なタスクの処理においてより正確な報酬評価を提供し、機械学習や人工知能の様々な分野のアプリケーションに適用できます。主な利点は、リソースが限られている状況下でモデル性能を最適化し、実アプリケーションにおける計算コストを削減できることです。

モデル精密射撃と精密射撃

高品質新製品

Skywork-OR1

Skywork-OR1は、昆侖万维天工チームが開発した高性能な数学コード推論モデルです。本モデルシリーズは、同等の規模のパラメータにおいて業界をリードする推論性能を実現し、大規模モデルにおける論理的理解と複雑なタスク解決における能力のボトルネックを突破しました。Skywork-OR1シリーズには、数学的推論、汎用推論、高性能推論タスクにそれぞれ焦点を当てた、Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview、Skywork-OR1-32B-Previewの3つのモデルが含まれています。今回のオープンソース化は、モデルの重みだけでなく、トレーニングデータセットと完全なトレーニングコードも網羅しており、すべての資源はGitHubとHuggingfaceプラットフォームにアップロードされています。AIコミュニティに完全に再現可能な実践的な参考を提供します。このような包括的なオープンソース戦略は、推論能力研究におけるAIコミュニティ全体の進歩を促進するのに役立ちます。

Pusa

Pusaはフレームレベルのノイズ制御によって動画拡散モデリングに革新的な手法を取り入れ、高品質な動画生成を実現します。テキストから動画、画像から動画など、様々な動画生成タスクに適用可能です。優れたモーションの忠実度と効率的なトレーニングプロセスにより、ユーザーが容易に動画生成タスクを実行できるオープンソースのソリューションを提供します。

ビデオアップデート

Dream 7B

Dream 7Bは、香港大学NLPグループとファーウェイ?ノアの方舟研究所が共同で発表した最新の拡散型大規模言語モデルです。テキスト生成分野において優れた性能を示しており、特に複雑な推論、長期計画、文脈の一貫性などに優れています。本モデルは高度なトレーニング方法を採用しており、強力な計画能力と柔軟な推論能力を備え、様々なAIアプリケーションにより強力なサポートを提供します。

Versatile-OCR-Program

Versatile OCR Program

この製品は、複雑な教育資料から構造化データを抽出するために特別に設計されたOCRシステムです。多言語テキスト、数式、表、図表に対応し、機械学習トレーニングに適した高品質のデータセットを生成できます。このシステムは、様々な技術とAPIを利用して、高精度の抽出結果を提供し、学術研究や教育関係者の使用に適しています。

データ分析

Arthur Engine

Arthur Engineは、AI/MLワークロードの監視とガバナンスを目的としたツールであり、一般的なオープンソース技術とフレームワークを活用しています。エンタープライズ版は、パフォーマンスの向上と、カスタマイズ可能なエンタープライズレベルの保護メカニズムや指標などの追加機能を提供し、組織におけるAIの可能性を最大限に引き出します。モデルの有効な評価と最適化を行い、データの安全とコンプライアンスを確保します。

モバイルショッピングとオンライン

DeepSeek-V3-0324

Deepseek V3 0324

DeepSeek-V3-0324は、685億パラメーターを持つ高度なテキスト生成モデルです。BF16とF32テンソルタイプを採用し、効率的な推論とテキスト生成をサポートします。このモデルの主な利点は、その強力な生成能力とオープンソースの特性であり、様々な自然言語処理タスクに広く適用できます。このモデルは、開発者と研究者に強力なツールを提供し、テキスト生成分野でのブレークスルーを支援することを目的としています。

RF-DETR

RF-DETRは、エッジデバイスに高精度とリアルタイム性能を提供することを目的とした、Transformerベースのリアルタイム物体検出モデルです。Microsoft COCOベンチマークで60 APを超える競争力のある性能と高速な推論速度を備え、様々な実用的なアプリケーションシナリオに適しています。RF-DETRは、現実世界の物体検出問題を解決することを目的としており、防犯、自動運転、スマート監視など、高効率かつ正確な検出が必要な業界に適しています。

["ラクシーパチャーン],["AI モデル]

LHM

LHM（大規模アニメーション可能人間再構築モデル）は、マルチモーダル?トランスフォーマーアーキテクチャを利用して高精細な3Dアバターを再構築し、単一画像からアニメーション可能な3D人間像の生成をサポートします。本モデルは、衣服の形状とテクスチャを詳細に保持でき、特に顔の識別とディテールの復元において優れた性能を発揮し、3D再構築精度が高い要求されるアプリケーションシーンに適しています。

3Dモデリング

Pruna

Prunaは開発者向けに設計されたモデル最適化フレームワークであり、量子化、剪定、コンパイルなどのさまざまな圧縮アルゴリズムを通じて、機械学習モデルの推論を高速化し、サイズを縮小し、計算コストを削減します。LLM、ビジョン変換器など、さまざまなモデルタイプに適用でき、Linux、MacOS、Windowsなど複数のプラットフォームをサポートしています。Prunaは、より高度な最適化機能と優先サポートを提供するエンタープライズ版Pruna Proも提供しており、ユーザーが実際のアプリケーションで効率を向上させることができます。

["ヴィーカス?オール?ウパカーラン],["モジュール?プラシクシャン?オール?パリニヨジャン]

SpatialLM

SpatialLMは、3D点群データの処理用に設計された大規模言語モデルであり、建物要素やオブジェクトのセマンティックカテゴリを含む、構造化された3Dシーン理解出力を生成できます。単眼ビデオシーケンス、RGBD画像、LiDARセンサーなど、さまざまなソースから点群データを処理でき、特殊なデバイスは必要ありません。SpatialLMは、自律ナビゲーションや複雑な3Dシーン分析タスクにおいて重要な応用価値を持ち、空間推論能力を大幅に向上させます。

3Dモデリング

Orpheus TTS

Orpheus TTSは、Llama-3bモデルに基づいたオープンソースのテキスト読み上げシステムであり、より自然な人間の音声合成を提供することを目指しています。強力な音声クローン作成機能と感情表現機能を備えており、様々なリアルタイムアプリケーションシナリオに適しています。この製品は無料で、開発者と研究者に便利な音声合成ツールを提供することを目的としています。

["パースウェア],["バックパック]

Firefox翻訳モデル

Firefox翻訳モデル

Firefox翻訳モデルは、Mozillaが開発したCPU最適化されたニューラル機械翻訳モデルのセットで、Firefoxブラウザの翻訳機能向けに設計されています。このモデルは効率的なCPUアクセラレーション技術により、迅速かつ正確な翻訳サービスを提供し、複数の言語ペアをサポートしています。主な利点としては、高性能、低遅延、および複数の言語のサポートが挙げられます。このモデルはFirefoxブラウザの翻訳機能の中核技術であり、ユーザーにシームレスなウェブページ翻訳体験を提供します。

高品質新製品

Colabのデータサイエンスエージェント

Colabのデータサイエンスエージェント

ColabのData Science Agentは、Googleが提供するGeminiベースのインテリジェントツールで、データサイエンスのワークフローを簡素化することを目的としています。自然言語による記述から、データのインポート、分析、可視化などのタスクを含む完全なColabノートブックコードを自動生成します。このツールの主な利点は、時間の節約、効率の向上、そして生成されたコードの修正と共有が可能な点です。データサイエンティスト、研究者、開発者、特にデータから迅速に洞察を得たいと考えているユーザーを対象としています。現在、条件を満たすユーザーに無料で提供されています。

データ分析

3FS

3FSは、AIトレーニングと推論ワークロード向けに設計された高性能分散ファイルシステムです。最新のSSDとRDMAネットワークを活用し、共有ストレージ層を提供することで、分散アプリケーションの開発を簡素化します。その主な利点は、高性能、強力な整合性、およびさまざまなワークロードへの対応であり、AI開発と展開の効率を大幅に向上させることができます。このシステムは大規模なAIプロジェクトに適しており、特にデータ準備、トレーニング、および推論フェーズで優れた性能を発揮します。

開発とツール

Thunder Compute

Thunder Compute

Thunder Computeは、AI/ML開発に特化したGPUクラウドサービスプラットフォームです。仮想化技術により、ユーザーは非常に低いコストで高性能GPUリソースを使用できます。主な利点は低価格であり、従来のクラウドサービスプロバイダーと比較して最大80％のコスト削減を実現できます。このプラットフォームは、NVIDIA Tesla T4、A100など、さまざまな主要なGPUモデルをサポートしており、7 Gbps以上のネットワーク接続を提供して、データ転送の高効率性を確保します。Thunder Computeの目標は、AI開発者と企業のハードウェアコストを削減し、モデルのトレーニングとデプロイを高速化し、AI技術の普及と応用を促進することです。

開発プラットフォーム

olmOCR

olmOCRは、Allen Institute for Artificial Intelligence (AI2)が開発したオープンソースのツールキットであり、大規模言語モデル（LLM）のトレーニングに使用するためにPDF文書を線形化することを目的としています。このツールキットは、PDF文書をLLM処理に適した形式に変換することで、従来のPDF文書の複雑な構造を解決し、モデルトレーニングに直接使用できない問題に対処します。自然テキスト解析、複数バージョン比較、言語フィルタリング、SEOスパムの削除など、さまざまな機能をサポートしています。olmOCRの主な利点は、大量のPDF文書を効率的に処理し、最適化されたプロンプト戦略とモデルの微調整により、テキスト解析の精度と効率を向上させることができることです。このツールキットは、大量のPDFデータを処理する必要がある研究者や開発者、特に自然言語処理や機械学習の分野に従事する方に適しています。

開発ツール

TensorPool

TensorPoolは、機械学習モデルのトレーニングの簡素化に特化したクラウドGPUプラットフォームです。直感的なコマンドラインインターフェース（CLI）を提供することで、ユーザーはタスクを簡単に記述し、GPUのオーケストレーションと実行を自動的に処理できます。TensorPoolの中核技術には、インテリジェントなスポットノードリカバリ技術が含まれており、プリエンプティブインスタンスが中断された場合にジョブを即座に再開できるため、プリエンプティブインスタンスのコストメリットとオンデマンドインスタンスの信頼性を兼ね備えています。さらに、TensorPoolはリアルタイムのマルチクラウド分析を通じて最も安価なGPUオプションを選択し、ユーザーは実際の実行時間のみを支払う必要があり、アイドル状態のマシンによる追加コストを心配する必要はありません。TensorPoolの目標は、開発者がクラウドプロバイダーの設定に多くの時間を費やすことなく、機械学習エンジニアリングの速度と効率を向上させることです。個人プランとエンタープライズプランを提供しており、個人プランは毎週5ドルの無料クレジットを提供し、エンタープライズプランはより高度なサポートと機能を提供します。

モデルトレーニングとデプロイメント

The Ultra-Scale Playbook

The Ultra Scale Playbook

The Ultra-Scale Playbookは、Hugging Face Spacesで提供されるモデルツールであり、超大規模システムの最適化と設計に特化しています。高度な技術フレームワークを活用することにより、開発者や企業が効率的に大規模システムを構築および管理することを支援します。このツールの主な利点には、高い拡張性、最適化されたパフォーマンス、そして容易な統合機能が含まれます。人工知能、機械学習、ビッグデータ処理など、複雑なデータと大規模な計算タスクを処理する必要があるシナリオに適しています。現在、オープンソースとして提供されており、あらゆる規模の企業や開発者にご利用いただけます。

開発とツール

Heron

Heronは、ドキュメント処理の自動化に特化した生産性向上ツールです。高度なAI技術により、ドキュメントデータの迅速な受信、分類、解析、およびCRMシステムへの直接的な構造化データ同期を実現します。Heronの主な利点は、効率的なデータ処理能力、強力な機械学習サポート、既存の業務プロセスとのシームレスな統合です。中小企業の融資、法律、保険業界など、大量のドキュメント処理を必要とする企業を主なターゲットとしており、時間とコストの削減、意思決定効率の向上を目指しています。Heronの価格設定は柔軟で、お客様のニーズに合わせてカスタマイズされた価格を提供します。作業効率の向上をテクノロジーで実現したい企業に最適です。

自動化ワークフロー

DeepResearch123

Deepresearch123

DeepResearch123は、研究者、開発者、愛好家向けに豊富なAI研究リソース、ドキュメント、実践事例を提供することを目的としたAI研究リソースナビゲーションプラットフォームです。機械学習、深層学習、人工知能など、複数の分野における最新の研究成果を網羅しており、ユーザーが関連知識を迅速に理解し習得するのに役立ちます。主な利点として、リソースが豊富で、分類が明確であるため、ユーザーは容易に検索して学習できます。AI研究に興味のあるあらゆる層の人々を対象としており、初心者から専門家まで、誰でも利用できます。現在、プラットフォームは無料で公開されており、ユーザーはすべての機能を無料で利用できます。

AI情報プラットフォーム

Finbar

Finbarは、世界中の基礎金融データ提供に特化したプラットフォームです。高度なOCR、機械学習、自然言語処理技術により、膨大な金融文書から構造化データを迅速に抽出し、データ公開後数秒でユーザーに提供します。データ更新速度の速さと高い自動化が主な特長であり、人手によるデータ処理にかかる時間とコストを大幅に削減できます。金融機関やアナリストを主なターゲットとし、データの迅速な取得と分析による業務効率の向上を支援します。具体的な価格や位置付けは現時点では不明ですが、複数のトップヘッジファンドが既に利用しています。

中国語精選

Momodel.cn

Moは、AI技術の学習と応用に特化したプラットフォームです。基礎から高度まで体系的な学習リソースを提供し、あらゆる学習者がAIスキルを習得し、実践的なプロジェクトに活用できるよう支援します。大学生、社会人初心者、スキルアップを目指す専門家など、あらゆる学習者の皆様に、オーダーメイドのコース、実践プロジェクト、ツールを提供し、人工知能の深い理解と応用を支援します。

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase