Step R1 V Mini : 全新多模態推理模型，支持圖文輸入、文字輸出，具備高精度圖像感知與複雜推理能力。

Step R1 V Mini

AI模型 API服務 #"多模態推理、圖像識別、地點判斷、菜譜生成、物體數量計算"優質新品商用

簡介 :

Step-R1-V-Mini是階躍星辰推出的全新多模態推理模型，支持圖文輸入和文字輸出，具備良好的指令遵循和通用能力。該模型在多模態協同場景下的推理表現上進行了技術優化，採用了多模態聯合強化學習和充分利用多模態合成數據的訓練方法，有效提升了模型在圖像空間的複雜鏈路處理能力。Step-R1-V-Mini在多個公開榜單中表現亮眼，特別是在MathVision視覺推理榜單上位列國內第一，展現了其在視覺推理、數學邏輯和代碼等方面的優異表現。該模型已正式上線階躍AI網頁端，並在階躍星辰開放平臺提供API接口，供開發者和研究人員體驗和使用。

需求人群 :

該產品適用於需要進行多模態推理的開發者、研究人員和企業，如圖像識別、地點判斷、菜譜生成等領域，能夠幫助他們高效地處理複雜的多模態數據，提高工作效率和準確性，推動相關領域的技術創新和發展。

總訪問量： 46.6K

佔比最多地區： CN(82.85%)

本站瀏覽量： 46.1K

使用場景

輸入網友拍攝的溫布利球場圖片，Step-R1-V-Mini能夠迅速識別圖中元素進行地點推理，準確推斷出地點為溫布利體育場，並給出可能的對戰雙方。

輸入一張美食圖，Step-R1-V-Mini能夠精準識別菜品和蘸料，並詳細列出具體用量，如“鮮蝦300g、大蔥白2根”等。

輸入一張含有不同形狀、顏色和位置的物體擺放圖，Step-R1-V-Mini能夠逐一識別，根據物體的顏色、形狀和位置進行推理計算，最終得出剩下的物體數量。

產品特色

支持圖文輸入和文字輸出，能夠高精度感知圖像並完成複雜推理任務。

採用多模態聯合強化學習，基於PPO強化學習策略，在圖像空間引入verifiable reward，有效解決圖片空間推理鏈路複雜、容易產生混淆的相關和因果推理錯誤的問題。