
Crawl4llm
Crawl4LLM是一個開源的網絡爬蟲項目,旨在為大型語言模型(LLM)的預訓練提供高效的數據爬取解決方案。它通過智能選擇和爬取網頁數據,幫助研究人員和開發者獲取高質量的訓練語料。該工具支持多種文檔評分方法,能夠根據配置靈活調整爬取策略,以滿足不同的預訓練需求。項目基於Python開發,具有良好的擴展性和易用性,適合在學術研究和工業應用中使用。
開發與工具
67.3K

Nemotron CC
Nemotron-CC是一個基於Common Crawl的6.3萬億token的數據集。它通過分類器集成、合成數據改寫和減少啟發式過濾器的依賴,將英文Common Crawl轉化為一個6.3萬億token的長期預訓練數據集,包含4.4萬億全球去重的原始token和1.9萬億合成生成的token。該數據集在準確性和數據量之間取得了更好的平衡,對於訓練大型語言模型具有重要意義。
AI模型
48.0K
優質新品

中文互聯網語料資源平臺
中文互聯網語料資源平臺是由中國網絡空間安全協會主辦的專業網站,旨在為人工智能大模型的預訓練提供高質量、安全合規的中文語料資源。該平臺匯聚了來自企業、高校和科研單位的協同優勢,依託‘共建-共享’機制,形成了包括中文互聯網基礎語料2.0、人民網主流價值數據集、國家版本館明清文獻語料等多個高質量語料庫。這些語料庫經過嚴格的信源篩選、格式清洗、語言過濾、數據去重、內容過濾、隱私過濾等處理步驟,確保了數據的合法性、真實性、準確性和客觀性。平臺的資源對於推動國家人工智能技術創新和產業發展具有重要意義,可幫助大模型更好地理解和生成中文內容,提升其知識能力與價值觀對齊。
AI模型
187.1K

Modernbert Large
ModernBERT-large是一個現代化的雙向編碼器Transformer模型(BERT風格),在2萬億個英文和代碼數據上預訓練,具有長達8192個token的原生上下文長度。該模型採用了最新的架構改進,如旋轉位置嵌入(RoPE)以支持長上下文,局部-全局交替注意力以提高長輸入的效率,以及無填充和Flash Attention以提高推理效率。ModernBERT-long適合處理需要處理長文檔的任務,如檢索、分類和大型語料庫中的語義搜索。模型訓練數據主要是英文和代碼,因此可能在其他語言上的表現會較低。
AI搜索
50.0K

Yulan Mini
YuLan-Mini是由中國人民大學AI Box團隊開發的一款輕量級語言模型,具有2.4億參數,儘管僅使用1.08T的預訓練數據,但其性能可與使用更多數據訓練的行業領先模型相媲美。該模型特別擅長數學和代碼領域,為了促進可復現性,團隊將開源相關的預訓練資源。
AI模型
50.2K

POINTS Yi 1.5 9B Chat
POINTS-Yi-1.5-9B-Chat是一個視覺語言模型,它集成了最新的視覺語言模型技術和微信AI提出的新技術。該模型在預訓練數據集過濾、模型湯(Model Soup)技術等方面有顯著創新,能夠顯著減少預訓練數據集的大小並提高模型性能。它在多個基準測試中表現優異,是視覺語言模型領域的一個重要進展。
AI模型
45.3K

Fineweb2
FineWeb2是由Hugging Face提供的一個大規模多語言預訓練數據集,覆蓋超過1000種語言。該數據集經過精心設計,用於支持自然語言處理(NLP)模型的預訓練和微調,特別是在多種語言上。它以其高質量、大規模和多樣性而聞名,能夠幫助模型學習跨語言的通用特徵,提升在特定語言任務上的表現。FineWeb2在多個語言的預訓練數據集中表現出色,甚至在某些情況下,比一些專門為單一語言設計的數據庫表現更好。
AI模型
46.9K

Tablegpt2
TableGPT2是一個大型多模態模型,專門針對表格數據進行預訓練和微調,以解決實際應用中表格數據整合不足的問題。該模型在超過593.8K的表格和2.36M的高質量查詢-表格-輸出元組上進行了預訓練和微調,規模前所未有。TableGPT2的關鍵創新之一是其新穎的表格編碼器,專門設計用於捕獲模式級別和單元格級別的信息,增強了模型處理模糊查詢、缺失列名和不規則表格的能力。在23個基準測試指標上,TableGPT2在7B模型上平均性能提升了35.20%,在72B模型上提升了49.32%,同時保持了強大的通用語言和編碼能力。
AI模型
97.7K

Fineweb
FineWeb數據集包含超過15萬億個經過清洗和去重的英文網頁數據,來源於CommonCrawl。該數據集專為大型語言模型預訓練設計,旨在推動開源模型的發展。數據集經過精心處理和篩選,以確保高質量,適用於各種自然語言處理任務。
AI數據挖掘
65.4K
優質新品

Chinese Tiny LLM
Chinese Tiny LLM(CT-LLM)是針對中文設計的首個大語言模型,擁有20億參數,並在12000億中文語料庫上進行預訓練。CT-LLM專注於提高對中文語言的理解和生成能力,利用大規模的中文數據預訓練,實現對中文文本的高效處理。雖然重點優化了中文處理,CT-LLM也展示了對英文和編程代碼的良好處理能力,體現了模型的多語言適應性。在中文語言任務的基準測試CHC-Bench上,CT-LLM展現了出色的性能,證明了其在理解和應用中文方面的高效能力。CT-LLM從零開始訓練,主要使用中文數據進行預訓練,開放了整個數據過濾過程、訓練動態、訓練和評估數據,以及模型的中間檢查點等所有相關信息。該開放資源的做法使得其他研究者、開發者能夠訪問這些資源,利用這些資料進行自己的研究或進一步改進模型。
AI模型
67.9K

MM1
蘋果發佈了自己的大語言模型MM1,這是一個最高有30B規模的多模態LLM。通過預訓練和SFT,MM1模型在多個基準測試中取得了SOTA性能,展現了上下文內預測、多圖像推理和少樣本學習能力等吸引人的特性。
AI模型
62.4K

YOLO World
YOLO-World是一款先進的即時開放詞彙物體檢測器,基於You Only Look Once (YOLO)系列檢測器,並通過視覺-語言建模和大規模數據集的預訓練,增強了開放詞彙檢測能力。其採用新的可重新參數化的視覺-語言路徑聚合網絡(RepVL-PAN)和區域-文本對比損失,促進了視覺和語言信息之間的交互。YOLO-World在零-shot方式下高效地檢測各種對象,具有高效率。在具有挑戰性的LVIS數據集上,YOLO-World在V100上實現了35.4 AP和52.0 FPS,在準確性和速度方面均優於許多最新方法。此外,經過微調的YOLO-World在多項下游任務上表現出色,包括物體檢測和開放詞彙實例分割。
AI圖像檢測識別
118.4K
精選AI產品推薦
中文精選

騰訊混元圖像 2.0
騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型,顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構,使得圖像生成速度可達到毫秒級,避免了傳統生成的等待時間。同時,模型通過強化學習算法與人類美學知識的結合,提升了圖像的真實感和細節表現,適合設計師、創作者等專業用戶使用。
圖片生成
80.6K
國外精選

Lovart
Lovart 是一款革命性的 AI 設計代理,能夠將創意提示轉化為藝術作品,支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程,節省時間並提升創意靈感。Lovart 當前處於測試階段,用戶可加入等候名單,隨時體驗設計的樂趣。
AI設計工具
63.8K

Fastvlm
FastVLM 是一種高效的視覺編碼模型,專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器,減少了高分辨率圖像的編碼時間和輸出的 token 數量,使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力,適用於各種應用場景,尤其在需要快速響應的移動設備上表現優異。
AI模型
51.1K

Keysync
KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題,同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果,適用於自動配音等實際應用場景。
視頻編輯
48.3K

Manus
Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品,能夠直接交付完整的任務成果,而不僅僅是提供建議或答案。它採用 Multiple Agent 架構,運行在獨立虛擬機中,能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現,展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’,幫助用戶高效完成各種複雜任務。
個人助理
1.5M

Trae國內版
Trae是一款專為中文開發場景設計的AI原生IDE,將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能,顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白,滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具,旨在為專業開發者提供強大的技術支持,目前尚未明確公開價格,但預計會採用付費模式以匹配其高端定位。
開發與工具
137.7K
國外精選

Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M
中文精選

Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M