
Level Navi Agent Search
Level-Navi Agentは、複雑な問題を分解し、インターネット上の情報を段階的に検索してユーザーの質問に答えることができる、オープンソースの汎用ウェブ検索エージェントフレームワークです。金融、ゲーム、スポーツ、映画、イベントなど5つの分野を網羅するWeb24データセットを提供することで、検索タスクにおけるモデルのパフォーマンス評価の基準を提供します。このフレームワークはゼロショット学習と少ショット学習をサポートし、大規模言語モデルの中国語ウェブ検索エージェント分野における応用にとって重要な参考資料となります。
AI検索
44.2K
海外精選

Signs
SignsはNVIDIAが支援する革新的なプラットフォームで、人工知能技術を通じてアメリカ手話(ASL)の学習を支援するとともに、手話ビデオの録画を通じてデータへの貢献を可能にし、世界最大規模のオープンな手話データセット構築を目指しています。AIによるリアルタイムフィードバックと3Dアニメーション技術を活用し、初心者にも使いやすい学習体験を提供する一方、手話コミュニティにデータ支援を提供することで、手話学習の普及と多様化を促進します。2025年下半期にはデータセットを公開し、関連技術やサービスの開発を促進する予定です。
学習教育
57.1K

Dolphin R1
Dolphin R1は、Cognitive Computationsチームによって作成されたデータセットであり、DeepSeek-R1 Distillモデルのような推論モデルのトレーニングを目的としています。このデータセットには、DeepSeek-R1からの30万件の推論サンプル、Gemini 2.0 flash thinkingからの30万件の推論サンプル、そしてDolphinチャットからの20万件のサンプルが含まれています。これらのデータセットの組み合わせにより、研究者や開発者は豊富なトレーニングリソースを取得し、モデルの推論能力と対話能力の向上に役立ちます。このデータセットの作成は、Dria、Chutes、Crusoe Cloudなどの複数企業の支援を受けており、これらのスポンサーはデータセットの開発に計算リソースと資金を提供しています。Dolphin R1データセットの公開は、自然言語処理分野の研究開発に重要な基盤を提供し、関連技術の発展を促進します。
AIモデル
48.9K

Nemotron CC
Nemotron-CCは、Common Crawlを基にした6.3兆トークンのデータセットです。分類器の統合、合成データによる書き換え、そしてヒューリスティックなフィルタリングへの依存軽減を通じて、6.3兆トークンの大規模言語モデルの長期事前学習用データセットへと変換されています。これは、4.4兆トークンのグローバルに重複除去された生のトークンと、1.9兆トークンの合成生成トークンで構成されます。本データセットは、正確性とデータ量のバランスに優れ、大規模言語モデルの訓練に重要な役割を果たします。
AIモデル
47.7K

Llm Datasets
mlabonne/llm-datasets は、大規模言語モデル(LLM)のファインチューニングに焦点を当てた、高品質なデータセットとツールの集まりです。研究者や開発者向けに、厳選され最適化されたデータセットを提供し、言語モデルのトレーニングと最適化を支援します。主な利点として、データセットの多様性と高品質が挙げられ、様々な使用事例をカバーすることで、モデルの汎化能力と精度が向上します。さらに、データセットの理解と活用を支援するツールと概念も提供しています。背景としては、mlabonne氏によって作成?保守されており、LLM分野の発展を目指しています。
AIモデル
50.0K

AGIBOT WORLD
AGIBOT WORLDは、多用途ロボット戦略の進歩を目的として設計された大規模なロボット学習データセットです。基礎モデル、ベンチマーク、エコシステムを含み、学術界と産業界に高品質のロボットデータを提供し、エンボディドAIへの道を切り開くことを目指しています。このデータセットには、100台以上のロボットによる100万件以上の軌跡データが含まれており、100以上の現実世界のシナリオを網羅し、精密操作、ツール使用、複数ロボットの協調作業などのタスクが含まれています。最先端のマルチモーダルハードウェア(ビジュアル触覚センサー、耐久性のある6自由度を持つ巧みなハンド、全身制御可能な移動型双腕ロボットなど)を採用し、模倣学習、マルチエージェント協調などの研究を支援します。AGIBOT WORLDの目標は、大規模なロボット学習を変革し、拡張可能なロボットシステムの生産を促進することです。オープンソースプラットフォームとして、研究者や実践者がエンボディドAIの未来を共同で形作ることを求めています。
AIモデル
47.2K

Rapbank
RapBankは、ラップ音楽に特化したデータセットです。YouTubeから大量のラップソングを収集し、精巧に設計されたデータ前処理手順を提供しています。このデータセットは、大量のラップ音楽コンテンツを提供し、音楽生成モデルの訓練とテストに使用できるため、音楽生成分野において重要な意味を持ちます。RapBankデータセットには94,164曲のソングリンクが含まれており、92,371曲がダウンロードされました。総再生時間は5,586時間に達し、84種類の言語を網羅しています。英語の楽曲の総再生時間が最も長く、総再生時間の約3分の2を占めています。
音楽生成
44.2K

RLVR GSM MATH IF Mixed Constraints
RLVR-GSM-MATH-IF-Mixed-Constraintsデータセットは、様々な種類の数学問題とその解答を含む、強化学習モデルの訓練と検証を目的とした数学問題に特化したデータセットです。このデータセットの重要性は、より高度な教育支援ツールの開発、ひいては生徒の数学問題解決能力の向上に役立つ点にあります。製品背景情報として、このデータセットはallenaiによってHugging Faceプラットフォームで公開されており、GSM8kとMATHの2つのサブセット、および検証可能な制約付きのIFプロンプトを含み、MIT LicenseとODC-BY licenseで利用可能です。
学習教育
46.6K

Mammoth VL
MAmmoTH-VLは、指示調整技術により、多様なモダリティの大規模言語モデル(MLLMs)のマルチモーダルタスクにおける性能を大幅に向上させる大規模マルチモーダル推論プラットフォームです。本プラットフォームは、オープンモデルを用いて、1200万件の指示と応答のペアを含む、多様な推論集約型タスクを網羅した、詳細かつ忠実な根拠を提供するデータセットを作成しました。MAmmoTH-VLは、MathVerse、MMMU-Pro、MuirBenchなどのベンチマークテストにおいて最先端の性能を達成し、教育と研究分野における重要性を示しています。
AIモデル
45.3K

Fineweb2
FineWeb2は、Hugging Faceが提供する大規模な多言語事前学習済みデータセットで、1000種類以上の言語を網羅しています。自然言語処理(NLP)モデルの事前学習と微調整、特に多言語対応を目的として、綿密に設計されています。その高品質、大規模性、多様性から知られており、モデルが言語を跨いでの共通の特徴を学習し、特定の言語タスクにおける性能を向上させるのに役立ちます。FineWeb2は、複数の言語の事前学習データセットにおいて優れた性能を示し、場合によっては、単一言語用に設計されたデータベースよりも優れた結果を出すこともあります。
AIモデル
44.7K

Olmo 2 1124 13B Preference Mixture
OLMo 2 1124 13B Preference Mixtureは、Hugging Faceが提供する大規模な多言語データセットです。377,700件の生成ペアを含み、特に選好学習と指示追従において、言語モデルのトレーニングと最適化に使用されます。このデータセットの重要性は、多様性と大規模なデータ環境を提供することで、より正確でパーソナライズされた言語処理技術の開発に役立つ点にあります。
AIモデル
44.4K

Scholarqabench
ScholarQABenchは、大規模言語モデル(LLM)が研究者の科学文献総合を支援する能力をテストするための包括的な評価プラットフォームです。OpenScholarプロジェクトから派生し、複数のデータセットと評価スクリプトを含む包括的な評価フレームワークを提供することで、様々な科学分野におけるモデルの性能を測定します。このプラットフォームの重要性は、研究者や開発者が、科学文献研究における言語モデルの実用性と正確性を理解し、向上させることができる点にあります。
研究機器
44.2K

Dolmino Mix 1124
DOLMino dataset mix for OLMo2 stage 2 annealing trainingは、OLMo2モデルの第2段階アニーリングトレーニング用に、様々な高品質データを混合したデータセットです。このデータセットは、ウェブページ、STEM論文、百科事典など、多様なデータタイプを含んでおり、テキスト生成タスクにおけるモデルのパフォーマンス向上を目指しています。よりスマートで正確な自然言語処理モデルの開発に役立つ、豊富なトレーニングリソースを提供するという点で重要です。
モデルトレーニングとデプロイ
45.8K
海外精選

Tülu 3
Tülu 3は、より多くのタスクやユーザーに適応するためにファインチューニングされた、一連のオープンソースの先進的な言語モデルです。これらのモデルは、独自のメソッドの一部詳細、新規技術、そして確立された学術研究を組み合わせることで、複雑なトレーニングプロセスを実現しています。Tülu 3の成功は、綿密なデータ管理、厳格な実験、革新的な方法論、そして改良されたトレーニングインフラに根ざしています。データ、レシピ、そして発見を公開することで、Tülu 3はコミュニティに新たな革新的なファインチューニング手法を探求する能力を与えようとしています。
言語モデル
54.6K

Workflowllm
WorkflowLLMは、データ中心のフレームワークであり、大規模言語モデル(LLM)のワークフローオーケストレーション能力の強化を目指しています。その中核となるのはWorkflowBenchです。これは、83個のアプリケーション、28個のカテゴリ、1503個のAPIからなる106763個のサンプルを含む、大規模な教師あり微調整データセットです。WorkflowLLMは、Llama-3.1-8Bモデルを微調整することで、ワークフローオーケストレーションタスク向けに最適化されたWorkflowLlamaモデルを作成します。実験結果から、WorkflowLlamaは複雑なワークフローのオーケストレーションにおいて優れた性能を示し、未知のAPIへの汎化能力も高いことが明らかになっています。
ワークフローオーケストレーション
49.1K

Genxd
GenXDは、3Dおよび4Dシーン生成に特化したフレームワークです。日常生活でよく見られるカメラや物体の動きを利用して、一般的な3Dおよび4D生成の共同研究を行います。コミュニティには大規模な4Dデータが不足しているため、GenXDはまず、ビデオからカメラの姿勢と物体の動きの強度を取得するデータ策定プロセスを提案しました。このプロセスに基づいて、GenXDは大規模な現実世界の4DシーンデータセットであるCamVid-30Kを導入しました。すべての3Dおよび4Dデータを利用することで、GenXDフレームワークはあらゆる3Dまたは4Dシーンを生成できます。カメラと物体の動きを分離し、3Dおよび4Dデータからシームレスに学習するマルチビュー時間モジュールを提案しています。さらに、GenXDは、複数の条件付きビューをサポートするために、マスク潜在条件を採用しています。GenXDは、カメラの軌跡に従うビデオと、3D表現に昇格できる一貫性のある3Dビューを生成できます。様々な現実世界および合成データセットで広範な評価を行い、GenXDが3Dおよび4D生成において、従来の方法と比較して有効性と多機能性を備えていることを示しました。
3Dモデリング
50.0K

Sparsh
Sparshは、MAE、DINO、JEPAなどの自己教師あり学習アルゴリズムによって訓練された、汎用的な触覚表現の一連のモデルです。DIGIT、Gelsight'17、Gelsight Miniといった様々な触覚センサに対して有用な表現を生成でき、TacBenchで提案されている下流タスクにおいて、エンドツーエンドモデルを大幅に上回る性能を示します。また、新しい下流タスクへのデータ効率の良い学習にも対応可能です。Sparshプロジェクトには、PyTorch実装、事前学習済みモデル、そしてSparshと共に公開されるデータセットが含まれています。
研究機器
48.6K

1X ワールドモデル
1X ワールドモデルは、ロボットの行動に対する世界の反応をシミュレートできる機械学習プログラムです。ビデオ生成と自動運転車のワールドモデル技術の進歩を基盤として、ロボットに仮想シミュレータを提供し、未来のシナリオを予測し、ロボット戦略を評価します。このモデルは、剛体、落下物体の影響、部分観測可能性、変形可能な物体、関節を持つ物体などの複雑な物体相互作用を処理できるだけでなく、変化する環境下での評価も可能であり、ロボット技術の発展に不可欠です。
モデルトレーニングとデプロイ
45.3K

Gamegen O
GameGen-Oは、オープンワールドビデオゲームの生成用に特化して設計された、初の拡散変換モデルです。革新的なキャラクター、ダイナミックな環境、複雑なアクション、多様なイベントなど、ゲームエンジンの様々な特性をシミュレートすることで、高品質なオープンワールドの生成を実現します。さらに、インタラクティブな制御機能を提供し、ゲームプレイのシミュレーションを可能にします。GameGen-Oの開発には、ゼロからの包括的なデータ収集と処理が含まれており、最初のオープンワールドビデオゲームデータセット(OGameData)の構築、独自のデータパイプラインによる効率的なソート、評価、フィルタリング、タイトルの分離などが行われました。この強力かつ広範なOGameDataが、モデルのトレーニングプロセスの基盤となっています。
AIゲーム制作
67.9K

CSGO
CSGOは、コンテンツスタイル合成に基づいたテキストから画像を生成するモデルです。データ構築パイプラインにより、スタイル変換済みデータの3元組を生成、自動的にクレンジングを行い、21万件の画像3元組を含む、大規模なスタイル変換データセットIMAGStyleを構築しました。CSGOモデルはエンドツーエンドで学習され、コンテンツ特徴とスタイル特徴を明確に分離し、独立した特徴注入によって実現しています。画像駆動型スタイル変換、テキスト駆動型スタイル合成、テキスト編集駆動型スタイル合成を実現しており、微調整なしで推論可能、元のテキストから画像生成モデルの生成能力を維持、スタイル変換とスタイル合成を統一といった利点があります。
AI画像生成
62.9K

Medtrinity 25M
MedTrinity-25Mは大規模な多モーダルデータセットであり、多様な粒度の医学注釈を含んでいます。複数の著者によって共同開発され、医学画像およびテキスト処理分野の研究促進を目指しています。データセットの構築には、データ抽出、多粒度テキスト記述の生成などのステップが含まれており、様々な医学画像解析タスク(VQA、病理画像解析など)をサポートしています。
AI医療健康
78.1K

Data Juicer
Data-Juicerは、大規模言語モデル(LLM)に高品質で豊富、かつ扱いやすいデータを提供することを目的とした、ワンストップのマルチモーダルデータ処理システムです。システム化され、再利用可能なデータ処理ライブラリを提供し、データとモデルの協調開発をサポートします。サンドボックスラボを通して迅速な反復処理を実現し、データとモデルに基づいたフィードバックループ、可視化、多角的な自動評価などの機能を提供することで、ユーザーがデータとモデルをより深く理解し、改善する支援をします。Data-Juicerは積極的に更新とメンテナンスが行われており、機能、データレシピ、データセットが定期的に強化?追加されています。
AIデータマイニング
59.6K
高品質新製品

MINT 1T
MINT-1TはSalesforce AIがオープンソースとして公開したマルチモーダルデータセットであり、1兆個のテキストトークンと34億枚の画像が含まれており、既存のオープンソースデータセットの10倍の規模を誇ります。HTML文書だけでなく、PDF文書やarXiv論文も含まれており、データセットの多様性を豊かにしています。MINT-1Tデータセットの構築には、多様なソースからのデータ収集、処理、フィルタリングのプロセスが含まれており、データの高品質と多様性が確保されています。
モデルトレーニングとデプロイメント
51.9K

SA V データセット
SA-Vデータセットは、汎用物体分割モデルのトレーニング用に設計されたオープンワールドビデオデータセットです。多様な51,000本のビデオと643,000個の时空分割マスク(masklets)が含まれています。本データセットはコンピュータビジョン研究用であり、CC BY 4.0ライセンスの下で使用できます。ビデオの内容は多様で、場所、物体、シーンなどの主題が含まれ、マスクは建物などの大規模な物体から室内装飾などの詳細なものまで多岐に渡ります。
AI画像検出識別
72.0K
高品質新製品

Segment Anything Model 2
Segment Anything Model 2 (SAM 2)は、Meta社のAI研究部門FAIRによって発表されたビジョンセグメンテーションモデルです。シンプルなトランスフォーマーアーキテクチャとストリーミングメモリ設計により、リアルタイムの動画処理を実現しています。ユーザーインタラクションを通じてモデル循環データエンジンを構築し、これまでにない規模の動画セグメンテーションデータセットSA-Vを収集しました。SAM 2はSA-Vでトレーニングされており、幅広いタスクとビジョン領域において高い性能を発揮します。
AI画像検出識別
53.3K

DCLM Baseline
DCLM-baselineは、言語モデルのベンチマークテストに使用される事前学習済みデータセットです。4Tトークンと30億のドキュメントを含み、Common Crawlデータセットから慎重にキュレーションされたデータクレンジング、フィルタリング、重複排除プロセスを経て抽出されました。効率的な言語モデルのトレーニングにおけるデータキュレーションの重要性を示すことを目的としています。このデータセットは研究目的のみに使用でき、本番環境やコードや数学のような特定分野のモデルトレーニングには適していません。
AIモデル
51.3K

Ultraedit
UltraEditは、約400万件の編集サンプルを含む大規模な画像編集データセットです。自動生成され、指示に基づいた画像編集を特徴としています。大規模言語モデル(LLM)の創造性と、人間の評価者によるコンテキスト編集例を活用することで、大規模かつ高品質な画像編集サンプルを体系的に生成する手法を提供します。UltraEditの主な利点は以下の通りです。1) 大規模言語モデルの創造性と人間の評価者によるコンテキスト編集例を活用することで、より幅広い編集指示を提供します。2) 写真や美術作品など、現実の画像に基づいたデータソースを使用することで、多様性を高め、バイアスを軽減します。3) 高品質で自動生成された領域注釈によって強化された、領域ベースの編集もサポートします。
AI画像編集
56.3K

Pixelprose
PixelProseは、tomg-group-umdによって作成された大規模データセットであり、最先端の視覚言語モデルGemini 1.0 Pro Visionを用いて、1600万件を超える詳細な画像記述を生成しています。このデータセットは、画像テキスト変換技術の開発と改良に非常に重要であり、画像記述生成、視覚的質問応答などのタスクに使用できます。
AI画像検出識別
53.5K

Emo Visual Data
emo-visual-dataは、glm-4vとstep-free-apiプロジェクトによって作成されたビジュアルアノテーションを用いて収集された、5329個の表情包を含む公開データセットです。本データセットは、マルチモーダル大規模言語モデルの訓練とテストに使用でき、画像コンテンツとテキスト記述間の関係の理解に重要な意味を持ちます。
AI画像検出識別
51.3K

Ultramedical
UltraMedicalプロジェクトは、生物医学分野の専門汎用モデルの開発を目指しています。これらのモデルは、試験、臨床場面、研究課題に関する質問に答えることを目的としており、幅広い一般知識を備え、分野横断的な問題にも効果的に対処できるように設計されています。監督微調整(SFT)、直接選好最適化(DPO)、オッズ比選好最適化(ORPO)などの高度なアライメント技術を用いて、大規模言語モデルをUltraMedicalデータセットで訓練し、生物医学コミュニティのニーズに効果的に対応できる強力かつ多機能なモデルを作成します。
AI医療健康
46.6K
- 1
- 2
- 3
おすすめAI製品
海外精選

Jules AI
Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。
開発プログラミング
41.1K

Nocode
NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。
開発プラットフォーム
40.3K

Listenhub
ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。
AI
40.0K
中国語精選

腾讯混元画像 2.0
腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。
画像生成
39.5K

Openmemory MCP
OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル(LLM)に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。
オープンソース
40.6K

Fastvlm
FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。
画像処理
39.2K
海外精選

ピカ
ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。
映像制作
17.6M
中国語精選

Liblibai
LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。
AIモデル
6.9M