
Intel Core Ultra Desktop Processors
英特爾®酷睿™至尊200系列臺式機處理器是首款面向臺式機平臺的AI PC處理器,為發燒友帶來卓越的遊戲體驗和行業領先的計算性能,同時顯著降低功耗。這些處理器擁有多達8個下一代性能核心(P-cores)和多達16個下一代能效核心(E-cores),與上一代相比,在多線程工作負載中性能提升高達14%。這些處理器是首款為發燒友配備神經處理單元(NPU)的臺式機處理器,內置Xe GPU,支持最先進的媒體功能。
AI模型推理訓練
43.3K

Intel Gaudi 3 AI Accelerator
Intel® Gaudi® 3 AI Accelerator是英特爾推出的一款高性能人工智能加速器,它基於高效的英特爾® Gaudi® 平臺構建,具備出色的MLPerf基準性能,旨在處理要求苛刻的訓練和推理任務。該加速器支持數據中心或雲中的大型語言模型、多模態模型和企業RAG等人工智能應用程序,能夠在您可能已經擁有的以太網基礎設施上運行。無論您需要單個加速器還是數千個加速器,英特爾Gaudi 3都可以在您的AI成功中發揮關鍵作用。
AI模型推理訓練
45.8K

Aimo Progress Prize
這個GitHub倉庫包含了訓練和推理代碼,用於複製我們在AI數學奧林匹克(AIMO)進展獎1中的獲勝解決方案。我們的解決方案由四個主要部分組成:一個用於微調DeepSeekMath-Base 7B以使用工具集成推理(TIR)解決數學問題的配方;兩個約100萬個數學問題和解決方案的高質量訓練數據集;一個自洽解碼算法,用於生成具有代碼執行反饋的解決方案候選項(SC-TIR);四個來自AMC、AIME和MATH的精心選擇的驗證集,以指導模型選擇並避免對公共排行榜的過擬合。
AI模型推理訓練
59.3K

Hipporag
HippoRAG是一個啟發自人類長期記憶的新型檢索增強生成(RAG)框架,它使得大型語言模型(LLMs)能夠持續地整合跨外部文檔的知識。該框架通過實驗表明,HippoRAG能夠以更低的計算成本提供通常需要昂貴且高延遲迭代LLM流水線的RAG系統能力。
AI模型推理訓練
57.4K

Intel NPU Acceleration Library
Intel NPU Acceleration Library是英特爾為神經處理單元(NPU)開發的加速庫,旨在提高深度學習和機器學習應用的性能。該庫提供了針對英特爾硬件優化的算法和工具,支持多種深度學習框架,能夠顯著提升模型的推理速度和效率。
AI模型推理訓練
102.7K

Opendit
OpenDiT是一個開源項目,提供了一個基於Colossal-AI的Diffusion Transformer(DiT)的高性能實現,專為增強DiT應用(包括文本到視頻生成和文本到圖像生成)的訓練和推理效率而設計。OpenDiT通過以下技術提升性能:在GPU上高達80%的加速和50%的內存減少;包括FlashAttention、Fused AdaLN和Fused layernorm核心優化;包括ZeRO、Gemini和DDP的混合並行方法,還有對ema模型進行分片進一步降低內存成本;FastSeq:一種新穎的序列並行方法,特別適用於DiT等工作負載,其中激活大小較大但參數大小較小;單節點序列並行可以節省高達48%的通信成本;突破單個GPU的內存限制,減少整體訓練和推理時間;通過少量代碼修改獲得巨大性能改進;用戶無需瞭解分佈式訓練的實現細節;完整的文本到圖像和文本到視頻生成流程;研究人員和工程師可以輕鬆使用和調整我們的流程到實際應用中,無需修改並行部分;在ImageNet上進行文本到圖像訓練併發布檢查點。
AI模型推理訓練
138.3K

T3
大型語言模型在訓練和推斷中越來越依賴於分佈式技術。這些技術需要在設備之間進行通信,隨著設備數量的增加,這可能會降低擴展效率。雖然一些分佈式技術可以重疊,從而隱藏獨立計算的通信,但類似張量並行(TP)的技術固有地將通信與模型執行串行化。隱藏這種串行化通信的一種方法是以細粒度的方式將其與生產者操作(通信數據的產生)交錯在一起。然而,在軟件中實現這種細粒度的通信和計算交錯可能很困難。此外,與任何併發執行一樣,它需要在計算和通信之間共享計算和內存資源,導致資源爭用,從而降低了重疊效率。為了克服這些挑戰,我們提出了T3,它應用硬件-軟件共同設計,透明地重疊串行通信,同時最小化與計算的資源爭用。T3通過簡單配置生產者的輸出地址空間,透明地融合了生產者操作和隨後的通信,需要進行輕微的軟件更改。在硬件層面,T3添加了輕量級的跟蹤和觸發機制,以編排生產者的計算和通信。它進一步利用增強計算的存儲器來進行通信的相關計算。因此,T3減少了資源爭用,並有效地將串行通信與計算重疊。對於重要的Transformer模型,如T-NLG,T3將通信密集型子層的速度提高了30%的幾何平均值(最大47%),並將數據移動減少了22%的幾何平均值(最大36%)。此外,隨著模型的擴展,T3的好處仍然存在:對於sim500億參數模型的子層,幾何平均值為29%,PALM和MT-NLG。
AI模型推理訓練
45.3K

Zero Bubble Pipeline Parallelism
Zero Bubble Pipeline Parallelism是大規模分佈式訓練的關鍵組成部分之一,其效率受到管道泡沫的影響。我們引入了一種調度策略,成功實現了在同步訓練語義下零管道泡沫。這一改進的關鍵思想是將反向計算分為兩部分,一部分計算輸入的梯度,另一部分計算參數的梯度。基於這一思想,我們手工設計了新穎的管道調度,明顯優於基準方法。我們進一步開發了一種算法,根據特定模型配置和內存限制自動找到最佳調度。此外,為了真正實現零泡泡,我們引入了一種新穎的技術,在優化器步驟期間繞過同步。實驗評估表明,我們的方法在類似內存限制下的吞吐量比1F1B調度高出了最多23%。當內存約束放寬時,這一數字可以進一步提高至31%。我們相信我們的結果標誌著在發揮管道並行潛力方面邁出了重要的一步。
AI模型推理訓練
54.9K

Reft
ReFT是一種增強大型語言模型(LLMs)推理能力的簡單而有效的方法。它首先通過監督微調(SFT)對模型進行預熱,然後使用在線強化學習,具體來說是本文中的PPO算法,進一步微調模型。ReFT通過自動對給定問題進行大量推理路徑的採樣,並從真實答案中自然地得出獎勵,從而顯著優於SFT。ReFT的性能可能通過結合推理時策略(如多數投票和重新排名)進一步提升。需要注意的是,ReFT通過學習與SFT相同的訓練問題而獲得改進,而無需依賴額外或增強的訓練問題。這表明ReFT具有更強的泛化能力。
AI模型推理訓練
53.5K

Efficient LLM
這是一種在 Intel GPU 上實現的高效的 LLM 推理解決方案。通過簡化 LLM 解碼器層、使用分段 KV 緩存策略和自定義的 Scaled-Dot-Product-Attention 內核,該解決方案在 Intel GPU 上相比標準的 HuggingFace 實現可實現高達 7 倍的令牌延遲降低和 27 倍的吞吐量提升。詳細功能、優勢、定價和定位等信息請參考官方網站。
AI模型推理訓練
44.4K

Robogen
RoboGen 是一款基於生成式模擬的自動機器人學習產品。它通過自動生成多樣化的任務、場景和訓練監督,實現大規模機器人技能學習。RoboGen 具備自主提出、生成、學習的能力,可以不斷生成與各種任務和環境相關的技能演示。
AI模型推理訓練
59.6K

Eureka
Eureka是一種人類級獎勵設計算法,通過編碼大型語言模型實現。它利用最先進的語言模型(如GPT-4)的零樣本生成、編寫代碼和上下文改進能力,對獎勵代碼進行進化優化。生成的獎勵可以用於通過強化學習獲得複雜的技能。Eureka生成的獎勵函數在29個開源強化學習環境中,包括10種不同的機器人形態,優於人類專家設計的獎勵函數。Eureka還能夠靈活地改進獎勵函數,以提高生成獎勵的質量和安全性。通過與課程學習相結合,使用Eureka獎勵函數,我們首次展示了一個模擬的Shadow Hand能夠進行旋轉筆的技巧,熟練地以快速的速度在圓圈中操縱筆。
AI模型推理訓練
65.7K

Teachable Machine
Teachable Machine是一個基於網頁的工具,使用戶可以快速輕鬆地創建機器學習模型,無需專業知識或編碼能力。用戶只需收集並整理樣本數據,Teachable Machine將自動訓練模型,然後用戶可以測試模型準確性,最後將模型導出使用。
AI模型推理訓練
210.0K
精選AI產品推薦
中文精選

騰訊混元圖像 2.0
騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型,顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構,使得圖像生成速度可達到毫秒級,避免了傳統生成的等待時間。同時,模型通過強化學習算法與人類美學知識的結合,提升了圖像的真實感和細節表現,適合設計師、創作者等專業用戶使用。
圖片生成
80.6K
國外精選

Lovart
Lovart 是一款革命性的 AI 設計代理,能夠將創意提示轉化為藝術作品,支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程,節省時間並提升創意靈感。Lovart 當前處於測試階段,用戶可加入等候名單,隨時體驗設計的樂趣。
AI設計工具
63.8K

Fastvlm
FastVLM 是一種高效的視覺編碼模型,專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器,減少了高分辨率圖像的編碼時間和輸出的 token 數量,使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力,適用於各種應用場景,尤其在需要快速響應的移動設備上表現優異。
AI模型
51.1K

Keysync
KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題,同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果,適用於自動配音等實際應用場景。
視頻編輯
48.3K

Manus
Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品,能夠直接交付完整的任務成果,而不僅僅是提供建議或答案。它採用 Multiple Agent 架構,運行在獨立虛擬機中,能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現,展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’,幫助用戶高效完成各種複雜任務。
個人助理
1.5M

Trae國內版
Trae是一款專為中文開發場景設計的AI原生IDE,將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能,顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白,滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具,旨在為專業開發者提供強大的技術支持,目前尚未明確公開價格,但預計會採用付費模式以匹配其高端定位。
開發與工具
137.7K
國外精選

Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M
中文精選

Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M