Step R1 V Mini : 全新多模态推理模型，支持图文输入、文字输出，具备高精度图像感知与复杂推理能力。

Step R1 V Mini

AI模型 API服务 #"多模态推理、图像识别、地点判断、菜谱生成、物体数量计算"优质新品商用

简介 :

Step-R1-V-Mini是阶跃星辰推出的全新多模态推理模型，支持图文输入和文字输出，具备良好的指令遵循和通用能力。该模型在多模态协同场景下的推理表现上进行了技术优化，采用了多模态联合强化学习和充分利用多模态合成数据的训练方法，有效提升了模型在图像空间的复杂链路处理能力。Step-R1-V-Mini在多个公开榜单中表现亮眼，特别是在MathVision视觉推理榜单上位列国内第一，展现了其在视觉推理、数学逻辑和代码等方面的优异表现。该模型已正式上线阶跃AI网页端，并在阶跃星辰开放平台提供API接口，供开发者和研究人员体验和使用。

需求人群 :

该产品适用于需要进行多模态推理的开发者、研究人员和企业，如图像识别、地点判断、菜谱生成等领域，能够帮助他们高效地处理复杂的多模态数据，提高工作效率和准确性，推动相关领域的技术创新和发展。

总访问量： 18.7K

占比最多地区： CN(82.85%)

本站浏览量： 48.9K

使用场景

输入网友拍摄的温布利球场图片，Step-R1-V-Mini能够迅速识别图中元素进行地点推理，准确推断出地点为温布利体育场，并给出可能的对战双方。

输入一张美食图，Step-R1-V-Mini能够精准识别菜品和蘸料，并详细列出具体用量，如“鲜虾300g、大葱白2根”等。

输入一张含有不同形状、颜色和位置的物体摆放图，Step-R1-V-Mini能够逐一识别，根据物体的颜色、形状和位置进行推理计算，最终得出剩下的物体数量。

产品特色

支持图文输入和文字输出，能够高精度感知图像并完成复杂推理任务。

采用多模态联合强化学习，基于PPO强化学习策略，在图像空间引入verifiable reward，有效解决图片空间推理链路复杂、容易产生混淆的相关和因果推理错误的问题。