
使用場景
自動化停止服務任務,通過理解GUI指令並定位到服務停止按鈕。
檢查顏色調色板,通過視覺定位GUI中的調色板區域。
啟用iCloud照片功能,通過識別並操作GUI中的iCloud設置。
產品特色
- ✨ 多格式指令理解:Aria-UI能夠處理多樣的定位指令,適應不同格式,確保在動態場景或與不同規劃代理搭配時的魯棒適應性。
- 📝 上下文感知定位:Aria-UI有效利用歷史輸入,無論是純文本還是圖文交錯格式,以提高定位精度。
- ⚡ 輕量級和快速:作為一個每token激活3.9B參數的混合專家模型,Aria-UI能夠高效編碼不同大小和縱橫比的GUI輸入,並支持超高分辨率。
- 🎉 卓越性能:Aria-UI在AndroidWorld和OSWorld基準測試中分別獲得第一名和第三名,顯示出其卓越的性能。
使用教程
1. 訪問Aria-UI的HF Space Demo頁面,嘗試在線體驗模型功能。
2. 下載並安裝所需的Aria-UI數據集和模型檢查點,以便在本地環境中使用。
3. 閱讀Aria-UI的論文和代碼文檔,瞭解模型的工作原理和使用方法。
4. 根據具體的GUI任務,編寫或調整定位指令,以適應Aria-UI的輸入要求。
5. 使用Aria-UI模型對GUI進行視覺定位,執行自動化任務。
6. 根據需要調整和優化模型參數,以提高任務執行的準確性和效率。
精選AI產品推薦
中文精選

抖音即創
即創工作臺是一個一站式的智能創意生產與管理平臺。它集成了視頻創作、圖文創作、直播創作等多種創意工具,可以通過AI的力量大大提高創作效率。主要功能和優勢包括:1)視頻創作:內置多種AI視頻創作工具,支持智能編劇、數字人物、一鍵成片等,可快速生成高質量視頻內容;2)圖文創作:提供智能圖文和商品圖片生成工具,可快速製作微信文章、產品詳情等圖文內容;3)直播創作:支持AI直播背景、直播文案等創作工具,可輕鬆製作抖音、快手等直播內容。定位為新創和創意從業者的創意助手,以合理價格提供創意生產全流程服務。
AI設計工具
106.5M

Deepmind Gemini
Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。
AI模型
11.4M