
使用場景
在 UI 導航任務中,Magma 可以根據指令自動完成網頁或移動應用的操作。
在機器人操作任務中,Magma 可以通過視覺輸入規劃機器人的動作,完成抓取和放置任務。
在視頻問答任務中,Magma 能夠理解視頻內容並回答相關問題。
產品特色
支持多模態輸入,包括圖像、視頻和語言。
能夠在視覺空間中進行動作規劃和執行,如機器人操作。
通過 Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) 技術實現高效的動作理解和規劃。
在 UI 導航和機器人操作任務中表現出色,超越了專門為此任務設計的模型。
具備零樣本學習能力,能夠在未見過的任務中快速適應。
支持多模態理解,如視頻問答和空間推理。
能夠在真實機器人上進行少樣本微調,實現可靠的性能。
提供開源代碼和模型,便於研究和開發人員使用。
使用教程
1. 訪問 Magma 的官方網站或 GitHub 倉庫,獲取模型和代碼。
2. 根據任務需求選擇合適的預訓練模型版本。
3. 對於特定任務,如 UI 導航或機器人操作,使用少量標註數據進行微調。
4. 在實際應用中,將輸入(如圖像、視頻或文本指令)傳遞給模型。
5. 模型會輸出動作規劃或語言回答,根據輸出執行相應操作。
6. 對於複雜任務,可以結合多模態輸入進行零樣本推理。
7. 使用開源代碼和模型進行二次開發或擴展,以滿足特定需求。
精選AI產品推薦

Deepmind Gemini
Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。
AI模型
11.4M
中文精選

Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M