數學推理

# 數學推理

Skywork-OR1

Skywork-OR1是由崑崙萬維天工團隊開發的高性能數學代碼推理模型。該模型系列在同等參數規模下實現了業界領先的推理性能，突破了大模型在邏輯理解與複雜任務求解方面的能力瓶頸。Skywork-OR1系列包括Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款模型，分別聚焦數學推理、通用推理和高性能推理任務。此次開源不僅涵蓋模型權重，還全面開放了訓練數據集和完整訓練代碼，所有資源均已上傳至GitHub和Huggingface平臺，為AI社區提供了完全可復現的實踐參考。這種全方位的開源策略有助於推動整個AI社區在推理能力研究上的共同進步。

混元T1

混元T1 是騰訊推出的超大規模推理模型，基於強化學習技術，通過大量後訓練顯著提升推理能力。它在長文處理和上下文捕捉上表現突出，同時優化了計算資源的消耗，具備高效的推理能力。適用於各類推理任務，尤其在數學、邏輯推理等領域表現優異。該產品以深度學習為基礎，結合實際反饋不斷優化，適合科研、教育等多個領域的應用。

DeepSeek-R1-Distill-Qwen-7B

Deepseek R1 Distill Qwen 7B

DeepSeek-R1-Distill-Qwen-7B 是一個經過強化學習優化的推理模型，基於 Qwen-7B 進行了蒸餾優化。它在數學、代碼和推理任務上表現出色，能夠生成高質量的推理鏈和解決方案。該模型通過大規模強化學習和數據蒸餾技術，顯著提升了推理能力和效率，適用於需要複雜推理和邏輯分析的場景。

模型訓練與部署

rStar-Math

rStar-Math是一項研究，旨在證明小型語言模型（SLMs）能夠在不依賴於更高級模型的情況下，與OpenAI的o1模型相媲美甚至超越其數學推理能力。該研究通過蒙特卡洛樹搜索（MCTS）實現“深度思考”，其中數學策略SLM在基於SLM的流程獎勵模型的指導下進行測試時搜索。rStar-Math引入了三種創新方法來應對訓練兩個SLM的挑戰，通過4輪自我演化和數百萬個合成解決方案，將SLMs的數學推理能力提升到最先進水平。該模型在MATH基準測試中顯著提高了性能，並在AIME競賽中表現優異。

模型訓練與部署

Eurus-2-7B-SFT

Eurus-2-7B-SFT是基於Qwen2.5-Math-7B模型進行微調的大型語言模型，專注於數學推理和問題解決能力的提升。該模型通過模仿學習（監督微調）的方式，學習推理模式，能夠有效解決複雜的數學問題和編程任務。其主要優點在於強大的推理能力和對數學問題的準確處理，適用於需要複雜邏輯推理的場景。該模型由PRIME-RL團隊開發，旨在通過隱式獎勵的方式提升模型的推理能力。

QVQ-72B-Preview

QVQ 72B Preview

QVQ-72B-Preview是由Qwen團隊開發的實驗性研究模型，專注於增強視覺推理能力。該模型在多學科理解和推理方面展現出強大的能力，特別是在數學推理任務上取得了顯著的進步。儘管在視覺推理方面取得了進步，但QVQ並不完全取代Qwen2-VL-72B的能力，在多步視覺推理中可能會逐漸失去對圖像內容的關注，導致幻覺。此外，QVQ在基本識別任務上並沒有顯示出比Qwen2-VL-72B更顯著的改進。

O1-Journey

O1-Journey是由上海交通大學GAIR研究組發起的一個項目，旨在複製和重新想象OpenAI的O1模型的能力。該項目提出了“旅程學習”的新訓練範式，並構建了首個成功整合搜索和學習在數學推理中的模型。這個模型通過試錯、糾正、回溯和反思等過程，成為處理複雜推理任務的有效方法。

MathΣtral

MathΣtral是一款為數學推理和科學發現而設計的7B規模的AI模型，擁有32k的上下文窗口，發佈於Apache 2.0許可下。它在多步複雜邏輯推理的高級數學問題上展現出卓越的性能，是Mistral AI團隊為科學界貢獻的成果，旨在加強學術項目的支持。MathΣtral在STEM領域具有專業特長，其推理能力在同類規模模型中達到了行業標準基準的前沿水平。

DeepSeek-Coder-V2-Lite-Instruct

Deepseek Coder V2 Lite Instruct

DeepSeek-Coder-V2是一個開源的Mixture-of-Experts代碼語言模型，性能可與GPT4-Turbo相媲美，在代碼特定任務上表現突出。它通過額外的6萬億個token進一步預訓練，增強了編碼和數學推理能力，同時保持了在一般語言任務上的相似性能。與DeepSeek-Coder-33B相比，在代碼相關任務、推理和一般能力方面都有顯著進步。此外，它支持的編程語言從86種擴展到338種，上下文長度從16K擴展到128K。

InternLM-Math-Plus

Internlm Math Plus

InternLM-Math-Plus 是一個最新的雙語（英文和中文）開源大型語言模型（LLM），專注於數學推理，具有解決、證明、驗證和增強數學問題的能力。它在非正式數學推理（如思維鏈和代碼解釋）和正式數學推理（如LEAN 4翻譯和證明）方面都有顯著的性能提升。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase