Aria UI : 视觉定位GUI指令的多模态模型

Aria UI

简介 :

Aria-UI是一个专为GUI指令视觉定位而设计的大规模多模态模型。它采用纯视觉方法，不依赖辅助输入，能够适应多样化的规划指令，并通过合成多样化、高质量的指令样本来适应不同的任务。Aria-UI在离线和在线代理基准测试中均创下新的最高记录，超越了仅依赖视觉和依赖AXTree的基线。

需求人群 :

目标受众为需要自动化GUI任务的数字代理开发者和研究人员。Aria-UI通过提供强大的视觉定位能力，帮助他们提高任务自动化的效率和准确性，特别是在需要处理复杂GUI和多样化指令的场景中。

总访问量： 77

占比最多地区： US(100.00%)

本站浏览量： 55.2K

使用场景

自动化停止服务任务，通过理解GUI指令并定位到服务停止按钮。

检查颜色调色板，通过视觉定位GUI中的调色板区域。

启用iCloud照片功能，通过识别并操作GUI中的iCloud设置。

产品特色

- ✨ 多格式指令理解：Aria-UI能够处理多样的定位指令，适应不同格式，确保在动态场景或与不同规划代理搭配时的鲁棒适应性。

- 📝 上下文感知定位：Aria-UI有效利用历史输入，无论是纯文本还是图文交错格式，以提高定位精度。

- ⚡ 轻量级和快速：作为一个每token激活3.9B参数的混合专家模型，Aria-UI能够高效编码不同大小和纵横比的GUI输入，并支持超高分辨率。

- 🎉 卓越性能：Aria-UI在AndroidWorld和OSWorld基准测试中分别获得第一名和第三名，显示出其卓越的性能。

使用教程

1. 访问Aria-UI的HF Space Demo页面，尝试在线体验模型功能。

2. 下载并安装所需的Aria-UI数据集和模型检查点，以便在本地环境中使用。

3. 阅读Aria-UI的论文和代码文档，了解模型的工作原理和使用方法。

4. 根据具体的GUI任务，编写或调整定位指令，以适应Aria-UI的输入要求。

5. 使用Aria-UI模型对GUI进行视觉定位，执行自动化任务。

6. 根据需要调整和优化模型参数，以提高任务执行的准确性和效率。

精选AI产品推荐

智启未来，您的人工智能解决方案智库

直接访问	41.75%	外链引荐	34.57%	邮件	0.19%
自然搜索	12.40%	社交媒体	9.36%	展示广告	0.92%

月访问量	279
美国	100.00%