数据集

# 数据集

Level-Navi Agent-Search

Level Navi Agent Search

Level-Navi Agent是一个开源的通用网络搜索代理框架，能够将复杂问题分解并逐步搜索互联网上的信息，直至回答用户问题。它通过提供Web24数据集，覆盖金融、游戏、体育、电影和事件等五大领域，为评估模型在搜索任务上的表现提供了基准。该框架支持零样本和少样本学习，为大语言模型在中文网络搜索代理领域的应用提供了重要参考。

Signs

Signs 是一个由 NVIDIA 支持的创新平台，旨在通过人工智能技术帮助用户学习美国手语（ASL），并允许用户通过录制手语视频贡献数据，以构建全球最大的开放手语数据集。该平台利用 AI 实时反馈和 3D 动画技术，为初学者提供友好的学习体验，同时为手语社区提供数据支持，推动手语学习的普及和多样性。平台计划在 2025 年下半年公开数据集，以促进更多相关技术和服务的开发。

Dolphin R1

Dolphin R1是一个由Cognitive Computations团队创建的数据集，旨在训练类似DeepSeek-R1 Distill模型的推理模型。该数据集包含30万条来自DeepSeek-R1的推理样本、30万条来自Gemini 2.0 flash thinking的推理样本以及20万条Dolphin聊天样本。这些数据集的组合为研究人员和开发者提供了丰富的训练资源，有助于提升模型的推理能力和对话能力。该数据集的创建得到了Dria、Chutes、Crusoe Cloud等多家公司的赞助支持，这些赞助商为数据集的开发提供了计算资源和资金支持。Dolphin R1数据集的发布，为自然语言处理领域的研究和开发提供了重要的基础，推动了相关技术的发展。

Nemotron-CC

Nemotron-CC是一个基于Common Crawl的6.3万亿token的数据集。它通过分类器集成、合成数据改写和减少启发式过滤器的依赖，将英文Common Crawl转化为一个6.3万亿token的长期预训练数据集，包含4.4万亿全球去重的原始token和1.9万亿合成生成的token。该数据集在准确性和数据量之间取得了更好的平衡，对于训练大型语言模型具有重要意义。

llm-datasets

mlabonne/llm-datasets 是一个专注于大型语言模型（LLM）微调的高质量数据集和工具的集合。该产品为研究人员和开发者提供了一系列经过精心筛选和优化的数据集，帮助他们更好地训练和优化自己的语言模型。其主要优点在于数据集的多样性和高质量，能够覆盖多种使用场景，从而提高模型的泛化能力和准确性。此外，该产品还提供了一些工具和概念，帮助用户更好地理解和使用这些数据集。其背景信息包括由 mlabonne 创建和维护，旨在推动 LLM 领域的发展。

AGIBOT WORLD

AGIBOT WORLD是一个专为推进多用途机器人策略而设计的大规模机器人学习数据集。它包括基础模型、基准测试和一个生态系统，旨在为学术界和工业界提供高质量的机器人数据，为具身AI铺平道路。该数据集包含100多台机器人的100万条以上轨迹，覆盖100多个真实世界场景，涉及精细操控、工具使用和多机器人协作等任务。它采用尖端的多模态硬件，包括视觉触觉传感器、耐用的6自由度灵巧手和具有全身控制的移动双臂机器人，支持模仿学习、多智能体协作等研究。AGIBOT WORLD的目标是改变大规模机器人学习，推进可扩展的机器人系统生产，是一个开源平台，邀请研究人员和实践者共同塑造具身AI的未来。

RapBank

RapBank是一个专注于说唱音乐的数据集，它从YouTube收集了大量说唱歌曲，并提供了一个精心设计的数据预处理流程。这个数据集对于音乐生成领域具有重要意义，因为它提供了大量的说唱音乐内容，可以用于训练和测试音乐生成模型。RapBank数据集包含94,164首歌曲链接，成功下载了92,371首歌曲，总时长达到5,586小时，覆盖84种不同的语言，其中英语歌曲的总时长最高，占总时长的大约三分之二。

RLVR-GSM-MATH-IF-Mixed-Constraints

RLVR GSM MATH IF Mixed Constraints

RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集，它包含了多种类型的数学问题和相应的解答，用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具，提高学生解决数学问题的能力。产品背景信息显示，该数据集由allenai在Hugging Face平台上发布，包含了GSM8k和MATH两个子集，以及带有可验证约束的IF Prompts，适用于MIT License和ODC-BY license。

MAmmoTH-VL

MAmmoTH-VL是一个大规模多模态推理平台，它通过指令调优技术，显著提升了多模态大型语言模型（MLLMs）在多模态任务中的表现。该平台使用开放模型创建了一个包含1200万指令-响应对的数据集，覆盖了多样化的、推理密集型的任务，并提供了详细且忠实的理由。MAmmoTH-VL在MathVerse、MMMU-Pro和MuirBench等基准测试中取得了最先进的性能，展现了其在教育和研究领域的重要性。

FineWeb2

FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集，覆盖超过1000种语言。该数据集经过精心设计，用于支持自然语言处理(NLP)模型的预训练和微调，特别是在多种语言上。它以其高质量、大规模和多样性而闻名，能够帮助模型学习跨语言的通用特征，提升在特定语言任务上的表现。FineWeb2在多个语言的预训练数据集中表现出色，甚至在某些情况下，比一些专门为单一语言设计的数据库表现更好。

OLMo 2 1124 13B Preference Mixture

Olmo 2 1124 13B Preference Mixture

OLMo 2 1124 13B Preference Mixture是一个由Hugging Face提供的大型多语言数据集，包含377.7k个生成对，用于训练和优化语言模型，特别是在偏好学习和指令遵循方面。该数据集的重要性在于它提供了一个多样化和大规模的数据环境，有助于开发更加精准和个性化的语言处理技术。

ScholarQABench

ScholarQABench是一个用于测试大型语言模型（LLMs）在协助研究人员进行科学文献综合方面能力的综合评估平台。它来源于OpenScholar项目，提供了一个全面的评估框架，包括多个数据集和评估脚本，以衡量模型在不同科学领域的表现。该平台的重要性在于它能够帮助研究人员和开发者理解并提升语言模型在科学文献研究中的实用性和准确性。

dolmino-mix-1124

Dolmino Mix 1124

DOLMino dataset mix for OLMo2 stage 2 annealing training是一个混合了多种高质数据的数据集，用于在OLMo2模型训练的第二阶段。这个数据集包含了网页页面、STEM论文、百科全书等多种类型的数据，旨在提升模型在文本生成任务中的表现。它的重要性在于为开发更智能、更准确的自然语言处理模型提供了丰富的训练资源。

模型训练与部署

Tülu 3

Tülu 3是一系列开源的先进语言模型，它们经过后训练以适应更多的任务和用户。这些模型通过结合专有方法的部分细节、新颖技术和已建立的学术研究，实现了复杂的训练过程。Tülu 3的成功根植于精心的数据管理、严格的实验、创新的方法论和改进的训练基础设施。通过公开分享数据、配方和发现，Tülu 3旨在赋予社区探索新的和创新的后训练方法的能力。

WorkflowLLM

WorkflowLLM是一个以数据为中心的框架，旨在增强大型语言模型（LLMs）在工作流编排方面的能力。核心是WorkflowBench，这是一个大规模的监督式微调数据集，包含来自83个应用、28个类别的1503个API的106763个样本。WorkflowLLM通过微调Llama-3.1-8B模型，创建了专门针对工作流编排任务优化的WorkflowLlama模型。实验结果表明，WorkflowLlama在编排复杂工作流方面表现出色，并且能够很好地泛化到未见过的API。

工作流编排

GenXD

GenXD是一个专注于3D和4D场景生成的框架，它利用日常生活中常见的相机和物体运动来联合研究一般的3D和4D生成。由于社区缺乏大规模的4D数据，GenXD首先提出了一个数据策划流程，从视频中获取相机姿态和物体运动强度。基于此流程，GenXD引入了一个大规模的现实世界4D场景数据集：CamVid-30K。通过利用所有3D和4D数据，GenXD框架能够生成任何3D或4D场景。它提出了多视图-时间模块，这些模块分离相机和物体运动，无缝地从3D和4D数据中学习。此外，GenXD还采用了掩码潜在条件，以支持多种条件视图。GenXD能够生成遵循相机轨迹的视频以及可以提升到3D表示的一致3D视图。它在各种现实世界和合成数据集上进行了广泛的评估，展示了GenXD在3D和4D生成方面与以前方法相比的有效性和多功能性。

Sparsh

Sparsh是一系列通过自监督算法（如MAE、DINO和JEPA）训练的通用触觉表示。它能够为DIGIT、Gelsight'17和Gelsight Mini生成有用的表示，并在TacBench提出的下游任务中大幅度超越端到端模型，同时能够为新下游任务的数据高效训练提供支持。Sparsh项目包含PyTorch实现、预训练模型和与Sparsh一起发布的数据集。

1X World Model

1X 世界模型是一种机器学习程序，能够模拟世界如何响应机器人的行为。它基于视频生成和自动驾驶汽车世界模型的技术进步，为机器人提供了一个虚拟模拟器，能够预测未来的场景并评估机器人策略。这个模型不仅能够处理复杂的对象交互，如刚体、掉落物体的影响、部分可观察性、可变形物体和铰接物体，还能够在不断变化的环境中进行评估，这对于机器人技术的发展至关重要。

模型训练与部署

GameGen-O

GameGen-O 是首个为生成开放世界视频游戏而定制的扩散变换模型。该模型通过模拟游戏引擎的多种特性，如创新角色、动态环境、复杂动作和多样化事件，实现了高质量、开放领域的生成。此外，它还提供了交互式可控性，允许游戏玩法模拟。GameGen-O 的开发涉及从零开始的全面数据收集和处理工作，包括构建首个开放世界视频游戏数据集（OGameData），通过专有的数据管道进行高效的排序、评分、过滤和解耦标题。这个强大且广泛的 OGameData 构成了模型训练过程的基础。

CSGO

CSGO是一个基于内容风格合成的文本到图像生成模型，它通过一个数据构建管道生成并自动清洗风格化数据三元组，构建了首个大规模的风格迁移数据集IMAGStyle，包含210k图像三元组。CSGO模型采用端到端训练，明确解耦内容和风格特征，通过独立特征注入实现。它实现了图像驱动的风格迁移、文本驱动的风格合成以及文本编辑驱动的风格合成，具有无需微调即可推理、保持原始文本到图像模型的生成能力、统一风格迁移和风格合成等优点。

MedTrinity-25M

MedTrinity-25M是一个大规模多模态数据集，包含多粒度的医学注释。它由多位作者共同开发，旨在推动医学图像和文本处理领域的研究。数据集的构建包括数据提取、多粒度文本描述生成等步骤，支持多种医学图像分析任务，如视觉问答（VQA）、病理学图像分析等。

MINT-1T

MINT-1T是由Salesforce AI开源的多模态数据集，包含一万亿个文本标记和34亿张图像，规模是现有开源数据集的10倍。它不仅包含HTML文档，还包括PDF文档和ArXiv论文，丰富了数据集的多样性。MINT-1T的数据集构建涉及多种来源的数据收集、处理和过滤步骤，确保了数据的高质量和多样性。

模型训练与部署

SA-V Dataset

SA-V Dataset是一个专为训练通用目标分割模型设计的开放世界视频数据集，包含51K个多样化视频和643K个时空分割掩模（masklets）。该数据集用于计算机视觉研究，允许在CC BY 4.0许可下使用。视频内容多样，包括地点、对象和场景等主题，掩模从建筑物等大规模对象到室内装饰等细节不等。

AI图像检测识别

Segment Anything Model 2

Segment Anything Model 2

Segment Anything Model 2 (SAM 2)是Meta公司AI研究部门FAIR推出的一个视觉分割模型，它通过简单的变换器架构和流式内存设计，实现实时视频处理。该模型通过用户交互构建了一个模型循环数据引擎，收集了迄今为止最大的视频分割数据集SA-V。SAM 2在该数据集上训练，提供了在广泛任务和视觉领域中的强大性能。

AI图像检测识别

DCLM-baseline

DCLM-baseline是一个用于语言模型基准测试的预训练数据集，包含4T个token和3B个文档。它通过精心策划的数据清洗、过滤和去重步骤，从Common Crawl数据集中提取，旨在展示数据策划在训练高效语言模型中的重要性。该数据集仅供研究使用，不适用于生产环境或特定领域的模型训练，如代码和数学。

UltraEdit

UltraEdit是一个大规模的图像编辑数据集，包含约400万份编辑样本，自动生成，基于指令的图像编辑。它通过利用大型语言模型（LLMs）的创造力和人类评估员的上下文编辑示例，提供了一个系统化的方法来生产大规模和高质量的图像编辑样本。UltraEdit的主要优点包括：1) 它通过利用大型语言模型的创造力和人类评估员的上下文编辑示例，提供了更广泛的编辑指令；2) 其数据源基于真实图像，包括照片和艺术作品，提供了更大的多样性和减少了偏见；3) 它还支持基于区域的编辑，通过高质量、自动生成的区域注释得到增强。

PixelProse

PixelProse是一个由tomg-group-umd创建的大规模数据集，它利用先进的视觉-语言模型Gemini 1.0 Pro Vision生成了超过1600万个详细的图像描述。这个数据集对于开发和改进图像到文本的转换技术具有重要意义，可以用于图像描述生成、视觉问答等任务。

AI图像检测识别

emo-visual-data

Emo Visual Data

emo-visual-data 是一个公开的表情包视觉标注数据集，它通过使用 glm-4v 和 step-free-api 项目完成的视觉标注，收集了5329个表情包。这个数据集可以用于训练和测试多模态大模型，对于理解图像内容和文本描述之间的关系具有重要意义。

AI图像检测识别

UltraMedical

UltraMedical项目旨在开发生物医学领域的专业通用模型，这些模型旨在回答与考试、临床场景和研究问题相关的问题，同时保持广泛的通用知识基础，以有效处理跨领域问题。通过使用先进的对齐技术，包括监督微调(SFT)、直接偏好优化(DPO)和赔率比偏好优化(ORPO)，训练大型语言模型在UltraMedical数据集上，以创建强大且多功能的模型，有效服务于生物医学社区的需求。

FlashRAG

FlashRAG是一个Python工具包，用于检索增强生成(RAG)研究的复现和开发。它包括32个预处理的基准RAG数据集和12种最先进的RAG算法。FlashRAG提供了一个广泛且可定制的框架，包括检索器、重排器、生成器和压缩器等RAG场景所需的基本组件，允许灵活组装复杂流程。此外，FlashRAG还提供了高效的预处理阶段和优化的执行，支持vLLM、FastChat等工具加速LLM推理和向量索引管理。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase