# 數據集

Level-Navi Agent-Search
Level Navi Agent Search
Level-Navi Agent是一個開源的通用網絡搜索代理框架,能夠將複雜問題分解並逐步搜索互聯網上的信息,直至回答用戶問題。它通過提供Web24數據集,覆蓋金融、遊戲、體育、電影和事件等五大領域,為評估模型在搜索任務上的表現提供了基準。該框架支持零樣本和少樣本學習,為大語言模型在中文網絡搜索代理領域的應用提供了重要參考。
AI搜索
53.8K
國外精選
Signs
Signs
Signs 是一個由 NVIDIA 支持的創新平臺,旨在通過人工智能技術幫助用戶學習美國手語(ASL),並允許用戶通過錄制手語視頻貢獻數據,以構建全球最大的開放手語數據集。該平臺利用 AI 即時反饋和 3D 動畫技術,為初學者提供友好的學習體驗,同時為手語社區提供數據支持,推動手語學習的普及和多樣性。平臺計劃在 2025 年下半年公開數據集,以促進更多相關技術和服務的開發。
學習教育
69.3K
Dolphin R1
Dolphin R1
Dolphin R1是一個由Cognitive Computations團隊創建的數據集,旨在訓練類似DeepSeek-R1 Distill模型的推理模型。該數據集包含30萬條來自DeepSeek-R1的推理樣本、30萬條來自Gemini 2.0 flash thinking的推理樣本以及20萬條Dolphin聊天樣本。這些數據集的組合為研究人員和開發者提供了豐富的訓練資源,有助於提升模型的推理能力和對話能力。該數據集的創建得到了Dria、Chutes、Crusoe Cloud等多家公司的贊助支持,這些贊助商為數據集的開發提供了計算資源和資金支持。Dolphin R1數據集的發佈,為自然語言處理領域的研究和開發提供了重要的基礎,推動了相關技術的發展。
AI模型
66.5K
Nemotron-CC
Nemotron CC
Nemotron-CC是一個基於Common Crawl的6.3萬億token的數據集。它通過分類器集成、合成數據改寫和減少啟發式過濾器的依賴,將英文Common Crawl轉化為一個6.3萬億token的長期預訓練數據集,包含4.4萬億全球去重的原始token和1.9萬億合成生成的token。該數據集在準確性和數據量之間取得了更好的平衡,對於訓練大型語言模型具有重要意義。
AI模型
48.6K
llm-datasets
Llm Datasets
mlabonne/llm-datasets 是一個專注於大型語言模型(LLM)微調的高質量數據集和工具的集合。該產品為研究人員和開發者提供了一系列經過精心篩選和優化的數據集,幫助他們更好地訓練和優化自己的語言模型。其主要優點在於數據集的多樣性和高質量,能夠覆蓋多種使用場景,從而提高模型的泛化能力和準確性。此外,該產品還提供了一些工具和概念,幫助用戶更好地理解和使用這些數據集。其背景信息包括由 mlabonne 創建和維護,旨在推動 LLM 領域的發展。
AI模型
51.1K
AGIBOT WORLD
AGIBOT WORLD
AGIBOT WORLD是一個專為推進多用途機器人策略而設計的大規模機器人學習數據集。它包括基礎模型、基準測試和一個生態系統,旨在為學術界和工業界提供高質量的機器人數據,為具身AI鋪平道路。該數據集包含100多臺機器人的100萬條以上軌跡,覆蓋100多個真實世界場景,涉及精細操控、工具使用和多機器人協作等任務。它採用尖端的多模態硬件,包括視覺觸覺傳感器、耐用的6自由度靈巧手和具有全身控制的移動雙臂機器人,支持模仿學習、多智能體協作等研究。AGIBOT WORLD的目標是改變大規模機器人學習,推進可擴展的機器人系統生產,是一個開源平臺,邀請研究人員和實踐者共同塑造具身AI的未來。
AI模型
49.1K
RapBank
Rapbank
RapBank是一個專注於說唱音樂的數據集,它從YouTube收集了大量說唱歌曲,並提供了一個精心設計的數據預處理流程。這個數據集對於音樂生成領域具有重要意義,因為它提供了大量的說唱音樂內容,可以用於訓練和測試音樂生成模型。RapBank數據集包含94,164首歌曲鏈接,成功下載了92,371首歌曲,總時長達到5,586小時,覆蓋84種不同的語言,其中英語歌曲的總時長最高,佔總時長的大約三分之二。
音樂生成
50.8K
RLVR-GSM-MATH-IF-Mixed-Constraints
RLVR GSM MATH IF Mixed Constraints
RLVR-GSM-MATH-IF-Mixed-Constraints數據集是一個專注於數學問題的數據集,它包含了多種類型的數學問題和相應的解答,用於訓練和驗證強化學習模型。這個數據集的重要性在於它能夠幫助開發更智能的教育輔助工具,提高學生解決數學問題的能力。產品背景信息顯示,該數據集由allenai在Hugging Face平臺上發佈,包含了GSM8k和MATH兩個子集,以及帶有可驗證約束的IF Prompts,適用於MIT License和ODC-BY license。
學習教育
45.0K
MAmmoTH-VL
Mammoth VL
MAmmoTH-VL是一個大規模多模態推理平臺,它通過指令調優技術,顯著提升了多模態大型語言模型(MLLMs)在多模態任務中的表現。該平臺使用開放模型創建了一個包含1200萬指令-響應對的數據集,覆蓋了多樣化的、推理密集型的任務,並提供了詳細且忠實的理由。MAmmoTH-VL在MathVerse、MMMU-Pro和MuirBench等基準測試中取得了最先進的性能,展現了其在教育和研究領域的重要性。
AI模型
51.6K
FineWeb2
Fineweb2
FineWeb2是由Hugging Face提供的一個大規模多語言預訓練數據集,覆蓋超過1000種語言。該數據集經過精心設計,用於支持自然語言處理(NLP)模型的預訓練和微調,特別是在多種語言上。它以其高質量、大規模和多樣性而聞名,能夠幫助模型學習跨語言的通用特徵,提升在特定語言任務上的表現。FineWeb2在多個語言的預訓練數據集中表現出色,甚至在某些情況下,比一些專門為單一語言設計的數據庫表現更好。
AI模型
47.2K
OLMo 2 1124 13B Preference Mixture
Olmo 2 1124 13B Preference Mixture
OLMo 2 1124 13B Preference Mixture是一個由Hugging Face提供的大型多語言數據集,包含377.7k個生成對,用於訓練和優化語言模型,特別是在偏好學習和指令遵循方面。該數據集的重要性在於它提供了一個多樣化和大規模的數據環境,有助於開發更加精準和個性化的語言處理技術。
AI模型
45.8K
ScholarQABench
Scholarqabench
ScholarQABench是一個用於測試大型語言模型(LLMs)在協助研究人員進行科學文獻綜合方面能力的綜合評估平臺。它來源於OpenScholar項目,提供了一個全面的評估框架,包括多個數據集和評估腳本,以衡量模型在不同科學領域的表現。該平臺的重要性在於它能夠幫助研究人員和開發者理解並提升語言模型在科學文獻研究中的實用性和準確性。
研究工具
45.8K
dolmino-mix-1124
Dolmino Mix 1124
DOLMino dataset mix for OLMo2 stage 2 annealing training是一個混合了多種高質數據的數據集,用於在OLMo2模型訓練的第二階段。這個數據集包含了網頁頁面、STEM論文、百科全書等多種類型的數據,旨在提升模型在文本生成任務中的表現。它的重要性在於為開發更智能、更準確的自然語言處理模型提供了豐富的訓練資源。
模型訓練與部署
47.5K
國外精選
Tülu 3
Tülu 3
Tülu 3是一系列開源的先進語言模型,它們經過後訓練以適應更多的任務和用戶。這些模型通過結合專有方法的部分細節、新穎技術和已建立的學術研究,實現了複雜的訓練過程。Tülu 3的成功根植於精心的數據管理、嚴格的實驗、創新的方法論和改進的訓練基礎設施。通過公開分享數據、配方和發現,Tülu 3旨在賦予社區探索新的和創新的後訓練方法的能力。
語言模型
54.4K
WorkflowLLM
Workflowllm
WorkflowLLM是一個以數據為中心的框架,旨在增強大型語言模型(LLMs)在工作流編排方面的能力。核心是WorkflowBench,這是一個大規模的監督式微調數據集,包含來自83個應用、28個類別的1503個API的106763個樣本。WorkflowLLM通過微調Llama-3.1-8B模型,創建了專門針對工作流編排任務優化的WorkflowLlama模型。實驗結果表明,WorkflowLlama在編排複雜工作流方面表現出色,並且能夠很好地泛化到未見過的API。
工作流編排
51.9K
GenXD
Genxd
GenXD是一個專注於3D和4D場景生成的框架,它利用日常生活中常見的相機和物體運動來聯合研究一般的3D和4D生成。由於社區缺乏大規模的4D數據,GenXD首先提出了一個數據策劃流程,從視頻中獲取相機姿態和物體運動強度。基於此流程,GenXD引入了一個大規模的現實世界4D場景數據集:CamVid-30K。通過利用所有3D和4D數據,GenXD框架能夠生成任何3D或4D場景。它提出了多視圖-時間模塊,這些模塊分離相機和物體運動,無縫地從3D和4D數據中學習。此外,GenXD還採用了掩碼潛在條件,以支持多種條件視圖。GenXD能夠生成遵循相機軌跡的視頻以及可以提升到3D表示的一致3D視圖。它在各種現實世界和合成數據集上進行了廣泛的評估,展示了GenXD在3D和4D生成方面與以前方法相比的有效性和多功能性。
3D建模
53.3K
Sparsh
Sparsh
Sparsh是一系列通過自監督算法(如MAE、DINO和JEPA)訓練的通用觸覺表示。它能夠為DIGIT、Gelsight'17和Gelsight Mini生成有用的表示,並在TacBench提出的下游任務中大幅度超越端到端模型,同時能夠為新下游任務的數據高效訓練提供支持。Sparsh項目包含PyTorch實現、預訓練模型和與Sparsh一起發佈的數據集。
研究工具
44.7K
1X World Model
1X World Model
1X 世界模型是一種機器學習程序,能夠模擬世界如何響應機器人的行為。它基於視頻生成和自動駕駛汽車世界模型的技術進步,為機器人提供了一個虛擬模擬器,能夠預測未來的場景並評估機器人策略。這個模型不僅能夠處理複雜的對象交互,如剛體、掉落物體的影響、部分可觀察性、可變形物體和鉸接物體,還能夠在不斷變化的環境中進行評估,這對於機器人技術的發展至關重要。
模型訓練與部署
48.0K
GameGen-O
Gamegen O
GameGen-O 是首個為生成開放世界視頻遊戲而定製的擴散變換模型。該模型通過模擬遊戲引擎的多種特性,如創新角色、動態環境、複雜動作和多樣化事件,實現了高質量、開放領域的生成。此外,它還提供了交互式可控性,允許遊戲玩法模擬。GameGen-O 的開發涉及從零開始的全面數據收集和處理工作,包括構建首個開放世界視頻遊戲數據集(OGameData),通過專有的數據管道進行高效的排序、評分、過濾和解耦標題。這個強大且廣泛的 OGameData 構成了模型訓練過程的基礎。
AI遊戲創作
70.9K
CSGO
CSGO
CSGO是一個基於內容風格合成的文本到圖像生成模型,它通過一個數據構建管道生成並自動清洗風格化數據三元組,構建了首個大規模的風格遷移數據集IMAGStyle,包含210k圖像三元組。CSGO模型採用端到端訓練,明確解耦內容和風格特徵,通過獨立特徵注入實現。它實現了圖像驅動的風格遷移、文本驅動的風格合成以及文本編輯驅動的風格合成,具有無需微調即可推理、保持原始文本到圖像模型的生成能力、統一風格遷移和風格合成等優點。
AI圖像生成
70.7K
MedTrinity-25M
Medtrinity 25M
MedTrinity-25M是一個大規模多模態數據集,包含多粒度的醫學註釋。它由多位作者共同開發,旨在推動醫學圖像和文本處理領域的研究。數據集的構建包括數據提取、多粒度文本描述生成等步驟,支持多種醫學圖像分析任務,如視覺問答(VQA)、病理學圖像分析等。
AI醫療健康
101.0K
優質新品
MINT-1T
MINT 1T
MINT-1T是由Salesforce AI開源的多模態數據集,包含一萬億個文本標記和34億張圖像,規模是現有開源數據集的10倍。它不僅包含HTML文檔,還包括PDF文檔和ArXiv論文,豐富了數據集的多樣性。MINT-1T的數據集構建涉及多種來源的數據收集、處理和過濾步驟,確保了數據的高質量和多樣性。
模型訓練與部署
65.7K
SA-V Dataset
SA V Dataset
SA-V Dataset是一個專為訓練通用目標分割模型設計的開放世界視頻數據集,包含51K個多樣化視頻和643K個時空分割掩模(masklets)。該數據集用於計算機視覺研究,允許在CC BY 4.0許可下使用。視頻內容多樣,包括地點、對象和場景等主題,掩模從建築物等大規模對象到室內裝飾等細節不等。
AI圖像檢測識別
87.8K
優質新品
Segment Anything Model 2
Segment Anything Model 2
Segment Anything Model 2 (SAM 2)是Meta公司AI研究部門FAIR推出的一個視覺分割模型,它通過簡單的變換器架構和流式內存設計,實現即時視頻處理。該模型通過用戶交互構建了一個模型循環數據引擎,收集了迄今為止最大的視頻分割數據集SA-V。SAM 2在該數據集上訓練,提供了在廣泛任務和視覺領域中的強大性能。
AI圖像檢測識別
59.6K
DCLM-baseline
DCLM Baseline
DCLM-baseline是一個用於語言模型基準測試的預訓練數據集,包含4T個token和3B個文檔。它通過精心策劃的數據清洗、過濾和去重步驟,從Common Crawl數據集中提取,旨在展示數據策劃在訓練高效語言模型中的重要性。該數據集僅供研究使用,不適用於生產環境或特定領域的模型訓練,如代碼和數學。
AI模型
59.9K
UltraEdit
Ultraedit
UltraEdit是一個大規模的圖像編輯數據集,包含約400萬份編輯樣本,自動生成,基於指令的圖像編輯。它通過利用大型語言模型(LLMs)的創造力和人類評估員的上下文編輯示例,提供了一個系統化的方法來生產大規模和高質量的圖像編輯樣本。UltraEdit的主要優點包括:1) 它通過利用大型語言模型的創造力和人類評估員的上下文編輯示例,提供了更廣泛的編輯指令;2) 其數據源基於真實圖像,包括照片和藝術作品,提供了更大的多樣性和減少了偏見;3) 它還支持基於區域的編輯,通過高質量、自動生成的區域註釋得到增強。
AI圖像編輯
65.1K
PixelProse
Pixelprose
PixelProse是一個由tomg-group-umd創建的大規模數據集,它利用先進的視覺-語言模型Gemini 1.0 Pro Vision生成了超過1600萬個詳細的圖像描述。這個數據集對於開發和改進圖像到文本的轉換技術具有重要意義,可以用於圖像描述生成、視覺問答等任務。
AI圖像檢測識別
55.5K
emo-visual-data
Emo Visual Data
emo-visual-data 是一個公開的表情包視覺標註數據集,它通過使用 glm-4v 和 step-free-api 項目完成的視覺標註,收集了5329個表情包。這個數據集可以用於訓練和測試多模態大模型,對於理解圖像內容和文本描述之間的關係具有重要意義。
AI圖像檢測識別
63.2K
UltraMedical
Ultramedical
UltraMedical項目旨在開發生物醫學領域的專業通用模型,這些模型旨在回答與考試、臨床場景和研究問題相關的問題,同時保持廣泛的通用知識基礎,以有效處理跨領域問題。通過使用先進的對齊技術,包括監督微調(SFT)、直接偏好優化(DPO)和賠率比偏好優化(ORPO),訓練大型語言模型在UltraMedical數據集上,以創建強大且多功能的模型,有效服務於生物醫學社區的需求。
AI醫療健康
51.3K
FlashRAG
Flashrag
FlashRAG是一個Python工具包,用於檢索增強生成(RAG)研究的復現和開發。它包括32個預處理的基準RAG數據集和12種最先進的RAG算法。FlashRAG提供了一個廣泛且可定製的框架,包括檢索器、重排器、生成器和壓縮器等RAG場景所需的基本組件,允許靈活組裝複雜流程。此外,FlashRAG還提供了高效的預處理階段和優化的執行,支持vLLM、FastChat等工具加速LLM推理和向量索引管理。
AI開發助手
53.5K
精選AI產品推薦
中文精選
騰訊混元圖像 2.0
騰訊混元圖像 2.0
騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型,顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構,使得圖像生成速度可達到毫秒級,避免了傳統生成的等待時間。同時,模型通過強化學習算法與人類美學知識的結合,提升了圖像的真實感和細節表現,適合設計師、創作者等專業用戶使用。
圖片生成
82.2K
國外精選
Lovart
Lovart
Lovart 是一款革命性的 AI 設計代理,能夠將創意提示轉化為藝術作品,支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程,節省時間並提升創意靈感。Lovart 當前處於測試階段,用戶可加入等候名單,隨時體驗設計的樂趣。
AI設計工具
64.9K
FastVLM
Fastvlm
FastVLM 是一種高效的視覺編碼模型,專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器,減少了高分辨率圖像的編碼時間和輸出的 token 數量,使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力,適用於各種應用場景,尤其在需要快速響應的移動設備上表現優異。
AI模型
51.6K
KeySync
Keysync
KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題,同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果,適用於自動配音等實際應用場景。
視頻編輯
49.4K
Manus
Manus
Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品,能夠直接交付完整的任務成果,而不僅僅是提供建議或答案。它採用 Multiple Agent 架構,運行在獨立虛擬機中,能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現,展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’,幫助用戶高效完成各種複雜任務。
個人助理
1.5M
Trae國內版
Trae國內版
Trae是一款專為中文開發場景設計的AI原生IDE,將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能,顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白,滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具,旨在為專業開發者提供強大的技術支持,目前尚未明確公開價格,但預計會採用付費模式以匹配其高端定位。
開發與工具
139.1K
國外精選
Pika
Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M
中文精選
LiblibAI
Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase