機器學習

# 機器學習

Kimi-Dev

Kimi-Dev 是一款強大的開源編碼 LLM，旨在解決軟件工程中的問題。它通過大規模強化學習優化，確保在真實開發環境中的正確性和穩健性。Kimi-Dev-72B 在 SWE-bench 驗證中實現了 60.4% 的性能，超越其他開源模型，是目前最先進的編碼 LLM 之一。該模型可在 Hugging Face 和 GitHub 上下載和部署，適合開發者和研究人員使用。

AlphaOne

AlphaOne（α1）是一種調節大型推理模型（LRMs）在測試時思維進度的通用框架。通過引入 α 時刻和動態安排慢速思維轉變，α1 實現了慢速到快速推理的靈活調節。這一方法統一併推廣了現有的單調縮放方法，優化了推理能力與計算效率。該產品適用於需要處理複雜推理任務的科研人員和開發者。

Scoop Analytics

Scoop Analytics

Scoop Analytics是一款AI數據分析工具，利用Agentic Analytics™技術自動運行機器學習算法，發現洞察並生成演示文稿，無需編碼。其主要優點在於實時性、智能性和易用性。產品定位於為商業團隊提供實時數據分析解決方案。

WorldPM-72B

WorldPM-72B 是一個通過大規模訓練獲得的統一偏好建模模型，具有顯著的通用性和較強的表現能力。該模型基於 15M 偏好數據，展示了在客觀知識的偏好識別方面的巨大潛力。適合用於生成更高質量的文本內容，尤其在寫作領域具有重要的應用價值。

Audio-SDS

Audio-SDS 是一個將 Score Distillation Sampling（SDS）概念應用於音頻擴散模型的框架。該技術能夠在不需要專門數據集的情況下，利用大型預訓練模型進行多種音頻任務，如物理引導的衝擊聲合成和基於提示的源分離。其主要優點在於通過一系列迭代優化，使得複雜的音頻生成任務變得更為高效。此技術具有廣泛的應用前景，能夠為未來的音頻生成和處理研究提供堅實基礎。

docsynecx by SynecX AI Labs

Docsynecx By SynecX AI Labs

docsynecx是一款智能文檔處理AI平臺，通過AI、機器學習和OCR技術，自動化處理各種文檔類型，包括髮票處理、收據、提單等。該平臺能夠快速準確地提取、分類和組織結構化、半結構化和非結構化數據。

parakeet-tdt-0.6b-v2

Parakeet Tdt 0.6b V2

parakeet-tdt-0.6b-v2 是一個 600 百萬參數的自動語音識別（ASR）模型，旨在實現高質量的英語轉錄，具有準確的時間戳預測和自動標點符號、大小寫支持。該模型基於 FastConformer 架構，能夠高效地處理長達 24 分鐘的音頻片段，適合開發者、研究人員和各行業應用。

Step1X-Edit

Step1X-Edit 是一種實用的通用圖像編輯框架，利用 MLLMs 的圖像理解能力解析編輯指令，生成編輯令牌，並通過 DiT 網絡解碼為圖像。其重要性在於能夠有效滿足真實用戶的編輯需求，提升了圖像編輯的便捷性和靈活性。

Nes2Net

Nes2Net 是一個為基礎模型驅動的語音反欺詐任務設計的輕量級嵌套架構，具有較低的錯誤率，適用於音頻深度假造檢測。該模型在多個數據集上表現優異，預訓練模型和代碼已在 GitHub 上發佈，便於研究人員和開發者使用。適合音頻處理和安全領域，主要定位於提高語音識別和反欺詐的效率和準確性。

EaseVoice Trainer

Easevoice Trainer

EaseVoice Trainer 是一個後端項目，旨在簡化和增強語音合成與轉換訓練過程。該項目基於 GPT-SoVITS 進行改進，注重用戶體驗和系統的可維護性。其設計理念不同於原始項目，旨在提供更模塊化和定製化的解決方案，適用於從小規模實驗到大規模生產的多種場景。該工具可以幫助開發者和研究人員更高效地進行語音合成和轉換的研究與開發。

開發與工具

FramePack

FramePack 是一個創新的視頻生成模型，旨在通過壓縮輸入幀的上下文來提高視頻生成的質量和效率。其主要優點在於解決了視頻生成中的漂移問題，通過雙向採樣方法保持視頻質量，適合需要生成長視頻的用戶。該技術背景來源於對現有模型的深入研究和實驗，以改進視頻生成的穩定性和連貫性。

GenPRM

GenPRM 是一種新興的過程獎勵模型（PRM），通過生成推理來提高在測試時的計算效率。這項技術能夠在處理複雜任務時提供更準確的獎勵評估，適用於多種機器學習和人工智能領域的應用。其主要優點是能夠在資源有限的情況下優化模型性能，並在實際應用中降低計算成本。

模型訓練與部署

Skywork-OR1

Skywork-OR1是由崑崙萬維天工團隊開發的高性能數學代碼推理模型。該模型系列在同等參數規模下實現了業界領先的推理性能，突破了大模型在邏輯理解與複雜任務求解方面的能力瓶頸。Skywork-OR1系列包括Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款模型，分別聚焦數學推理、通用推理和高性能推理任務。此次開源不僅涵蓋模型權重，還全面開放了訓練數據集和完整訓練代碼，所有資源均已上傳至GitHub和Huggingface平臺，為AI社區提供了完全可復現的實踐參考。這種全方位的開源策略有助於推動整個AI社區在推理能力研究上的共同進步。

Pusa

Pusa 通過幀級噪聲控制引入視頻擴散建模的創新方法，能夠實現高質量的視頻生成，適用於多種視頻生成任務（文本到視頻、圖像到視頻等）。該模型以其卓越的運動保真度和高效的訓練過程，提供了一個開源的解決方案，方便用戶進行視頻生成任務。

Dream 7B

Dream 7B 是由香港大學 NLP 組和華為諾亞方舟實驗室聯合推出的最新擴散大語言模型。它在文本生成領域展現了優異的性能，特別是在複雜推理、長期規劃和上下文連貫性等方面。該模型採用了先進的訓練方法，具有強大的計劃能力和靈活的推理能力，為各類 AI 應用提供了更為強大的支持。

Versatile-OCR-Program

Versatile OCR Program

該產品是一個專門設計的 OCR 系統，旨在從複雜的教育材料中提取結構化數據，支持多語言文本、數學公式、表格和圖表，能夠生成適用於機器學習訓練的高質量數據集。該系統利用多種技術和 API，能夠提供高精度的提取結果，適合學術研究和教育工作者使用。

Arthur Engine

Arthur Engine 是一個旨在監控和治理 AI/ML 工作負載的工具，利用流行的開源技術和框架。該產品的企業版提供更好的性能和額外功能，如自定義的企業級防護機制和指標，旨在最大化 AI 對組織的潛力。它能夠有效評估和優化模型，確保數據安全與合規。

模型訓練與部署

DeepSeek-V3-0324

Deepseek V3 0324

DeepSeek-V3-0324 是一個先進的文本生成模型，具有 685 億參數，採用 BF16 和 F32 張量類型，能夠支持高效的推理和文本生成。該模型的主要優點在於其強大的生成能力和開放源碼的特性，使其可以被廣泛應用於多種自然語言處理任務。該模型的定位是為開發者和研究人員提供一個強大的工具，幫助他們在文本生成領域取得突破。

RF-DETR

RF-DETR 是一個基於變壓器的即時目標檢測模型，旨在為邊緣設備提供高精度和即時性能。它在 Microsoft COCO 基準測試中超過了 60 AP，具有競爭力的性能和快速的推理速度，適合各種實際應用場景。RF-DETR 旨在解決現實世界中的物體檢測問題，適用於需要高效且準確檢測的行業，如安防、自動駕駛和智能監控等。

LHM

LHM（大規模可動畫人類重建模型）利用多模態變壓器架構進行高保真 3D 頭像重建，支持從單張圖像生成可動畫的 3D 人類形象。該模型能夠詳細保留服裝幾何和紋理，尤其是在面部身份和細節恢復方面表現優異，適合對 3D 重建精度有較高要求的應用場景。

Pruna

Pruna 是一個為開發者設計的模型優化框架，通過一系列壓縮算法，如量化、修剪和編譯等技術，使得機器學習模型在推理時更快、體積更小且計算成本更低。產品適用於多種模型類型，包括 LLMs、視覺轉換器等，且支持 Linux、MacOS 和 Windows 等多個平臺。Pruna 還提供了企業版 Pruna Pro，解鎖更多高級優化功能和優先支持，助力用戶在實際應用中提高效率。

開發與工具

SpatialLM

SpatialLM 是一個專為處理 3D 點雲數據設計的大型語言模型，能夠生成結構化的 3D 場景理解輸出，包括建築元素和對象的語義類別。它能夠從單目視頻序列、RGBD 圖像和 LiDAR 傳感器等多種來源處理點雲數據，無需專用設備。SpatialLM 在自主導航和複雜 3D 場景分析任務中具有重要應用價值，顯著提升空間推理能力。

Orpheus TTS

Orpheus TTS 是一個基於 Llama-3b 模型的開源文本轉語音系統，旨在提供更加自然的人類語音合成。它具備較強的語音克隆能力和情感表達能力，適合各種即時應用場景。該產品是免費的，旨在為開發者和研究者提供便捷的語音合成工具。

文本轉聲音

Firefox Translations Models

Firefox Translations Models

Firefox Translations Models 是由Mozilla開發的一組CPU優化的神經機器翻譯模型，專為Firefox瀏覽器的翻譯功能設計。該模型通過高效的CPU加速技術，提供快速且準確的翻譯服務，支持多種語言對。其主要優點包括高性能、低延遲和對多種語言的支持。該模型是Firefox瀏覽器翻譯功能的核心技術，為用戶提供無縫的網頁翻譯體驗。

Data Science Agent in Colab

Data Science Agent In Colab

Data Science Agent in Colab 是 Google 推出的一款基於 Gemini 的智能工具，旨在簡化數據科學工作流程。它通過自然語言描述自動生成完整的 Colab 筆記本代碼，涵蓋數據導入、分析和可視化等任務。該工具的主要優點是節省時間、提高效率，並且生成的代碼可修改和共享。它面向數據科學家、研究人員和開發者，尤其是那些希望快速從數據中獲取洞察的用戶。目前該工具免費提供給符合條件的用戶。

3FS

3FS是一個專為AI訓練和推理工作負載設計的高性能分佈式文件系統。它利用現代SSD和RDMA網絡，提供共享存儲層，簡化分佈式應用開發。其核心優勢在於高性能、強一致性和對多種工作負載的支持，能夠顯著提升AI開發和部署的效率。該系統適用於大規模AI項目，尤其在數據準備、訓練和推理階段表現出色。

開發與工具

Thunder Compute

Thunder Compute

Thunder Compute是一個專注於AI/ML開發的GPU雲服務平臺，通過虛擬化技術，幫助用戶以極低的成本使用高性能GPU資源。其主要優點是價格低廉，相比傳統雲服務提供商可節省高達80%的成本。該平臺支持多種主流GPU型號，如NVIDIA Tesla T4、A100等，並提供7+ Gbps的網絡連接，確保數據傳輸的高效性。Thunder Compute的目標是為AI開發者和企業降低硬件成本，加速模型訓練和部署，推動AI技術的普及和應用。

olmOCR

olmOCR是由Allen Institute for Artificial Intelligence (AI2)開發的一個開源工具包，旨在將PDF文檔線性化，以便用於大型語言模型（LLM）的訓練。該工具包通過將PDF文檔轉換為適合LLM處理的格式，解決了傳統PDF文檔結構複雜、難以直接用於模型訓練的問題。它支持多種功能，包括自然文本解析、多版本比較、語言過濾和SEO垃圾信息移除等。olmOCR的主要優點是能夠高效處理大量PDF文檔，並通過優化的提示策略和模型微調，提高文本解析的準確性和效率。該工具包適用於需要處理大量PDF數據的研究人員和開發者，尤其是在自然語言處理和機器學習領域。

開發與工具

TensorPool

TensorPool 是一個專注於簡化機器學習模型訓練的雲 GPU 平臺。它通過提供一個直觀的命令行界面（CLI），幫助用戶輕鬆描述任務並自動處理 GPU 的編排和執行。TensorPool 的核心技術包括智能的 Spot 節點恢復技術，能夠在搶佔式實例被中斷時立即恢復作業，從而結合了搶佔式實例的成本優勢和按需實例的可靠性。此外，TensorPool 還通過即時多雲分析選擇最便宜的 GPU 選項，用戶只需為實際執行時間付費，無需擔心閒置機器帶來的額外成本。TensorPool 的目標是讓開發者無需花費大量時間配置雲提供商，從而提高機器學習工程的速度和效率。它提供個人計劃和企業計劃，個人計劃每週提供 $5 的免費信用額度，而企業計劃則提供更高級的支持和功能。

模型訓練與部署

The Ultra-Scale Playbook

The Ultra Scale Playbook

The Ultra-Scale Playbook 是一個基於 Hugging Face Spaces 提供的模型工具，專注於超大規模系統的優化和設計。它利用先進的技術框架，幫助開發者和企業高效地構建和管理大規模系統。該工具的主要優點包括高度的可擴展性、優化的性能和易於集成的特性。它適用於需要處理複雜數據和大規模計算任務的場景，如人工智能、機器學習和大數據處理。產品目前以開源的形式提供，適合各種規模的企業和開發者使用。

開發與工具

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase