人機交互

# 人機交互

Magentic-UI

Magentic-UI 是一個基於多代理系統的研究原型，允許用戶通過透明且可控的界面進行網絡瀏覽和任務自動化。其主要優勢在於能夠提高人機交互的效率，同時為用戶提供對自動化過程的控制。該產品適用於需要在網絡上執行復雜任務的用戶支持多種操作和自定義設置。

自動化工作流

OmniTalker

OmniTalker 是由阿里巴巴 Tongyi 實驗室提出的一種統一框架，旨在即時生成音頻和視頻，提升人機交互體驗。其創新之處在於解決了傳統文本到語音及語音驅動的視頻生成方法中常見的音視頻不同步、風格不一致及系統複雜性等問題。OmniTalker 採用雙分支擴散變換器架構，能夠在保持高效的同時實現高保真的音視頻輸出。其即時推理速度可達每秒 25 幀，適用於各種交互式視頻聊天應用，提升了用戶體驗。

Conversational Video Interface

Conversational Video Interface

Conversational Video Interface（CVI）是Tavus推出的一種情感智能對話視頻界面。它通過Phoenix-3、Raven-0和Sparrow-0三個模型協同工作，賦予AI真正的人類感知、傾聽、理解和即時互動能力。CVI不僅是一個工具，更是一種全新的人機溝通方式，可應用於醫療、心理健康、銷售培訓、客戶服務等多個領域，具有無限的使用場景。其背後的技術突破在於將人類對話的細微情感和節奏融入AI交互中，使AI不再是簡單的回應，而是能思考、反應並改變我們與機器的互動方式。

聊天機器人

Project Mariner

Project Mariner

Project Mariner是Google DeepMind基於Gemini 2.0模型開發的早期研究原型，旨在探索未來的人機交互方式，特別是在網絡瀏覽器中的應用。這個項目能夠理解瀏覽器屏幕上的信息，包括像素和網頁元素，如文本、代碼、圖像和表單，並利用這些信息完成任務。Project Mariner在技術上實現了通過Chrome擴展程序在瀏覽器中直接操作，為用戶提供了一種全新的代理服務體驗。

ShowUI

ShowUI是一個輕量級的視覺-語言-行動模型，專為GUI代理設計。它通過結合視覺輸入、語言理解和行動預測，使得計算機界面能夠以更自然的方式響應用戶的指令。ShowUI的重要性在於它能夠提高人機交互的效率和自然性，特別是在圖形用戶界面自動化和自然語言處理領域。該模型由showlab實驗室開發，目前已在huggingface平臺發佈，供研究和應用。

Ant Design X

Ant Design X 是由Ant Design團隊推出的AI界面解決方案，它基於RICH設計範式（角色、意圖、會話和混合界面），延續Ant Design的設計語言，提供了全新的AGI混合界面（Hybrid-UI）解決方案。Ant Design X 旨在通過AI技術提升人機交互的效率和體驗，它適用於多種AI場景，包括Web獨立式、Web助手式和Web嵌入式等。Ant Design X 的主要優點包括易於配置、極致體驗的通用圖表庫，以及能夠快速理解和表達AI意圖的能力。產品背景信息顯示，Ant Design X 是在螞蟻集團內部海量AI產品中實踐和迭代的結果，它的目標是創造更美好的智能視界。

Gyges Labs

Gyges Labs致力於創造AI時代的智能穿戴設備，結合了獨特的先進光學技術和協作AI技術。公司利用團隊在微納米光學方面的專業知識，開發了基於視網膜投影原理的DigiWindow技術，實現了世界上最小最輕的近眼顯示模塊。與Birdbath和波導等光學解決方案相比，DigiWindow不僅將尺寸從釐米減少到毫米，還降低了功耗，並提供了完整的視光學兼容性。此外，基於團隊在協作AI方面的累積經驗，Gyges Labs開發了基於鏡像神經元原理並針對可穿戴設備定製的AI引擎Mirron，以增強未來可穿戴設備的感知和交互能力，為未來的“第二大腦”設備奠定了堅實的基礎。

視網膜投影

PARTNR

PARTNR是由Meta FAIR發佈的一個大規模基準測試，包含100,000個自然語言任務，旨在研究多智能體推理和規劃。PARTNR利用大型語言模型（LLMs）生成任務，並通過模擬循環來減少錯誤。它還支持與真實人類夥伴的AI代理評估，通過人類在環基礎設施進行。PARTNR揭示了現有基於LLM的規劃器在任務協調、跟蹤和從錯誤中恢復方面的顯著侷限性，人類能解決93%的任務，而LLMs僅能解決30%。

Agent S

Agent S是一個開放的代理框架，旨在通過圖形用戶界面(GUI)實現與計算機的自主交互，通過自動化複雜多步驟任務來轉變人機交互。它引入了經驗增強的分層規劃方法，利用在線網絡知識和敘事記憶，從過去的交互中提取高級經驗，將複雜任務分解為可管理的子任務，並使用情景記憶進行逐步指導，Agent S不斷優化其行動並從經驗中學習，實現適應性強且有效的任務規劃。Agent S在OSWorld基準測試中的表現超過了基線9.37%的成功率（相對提高了83.6%），並在WindowsAgentArena基準測試中展示了廣泛的通用性。

心辰Lingo語音大模型

心辰lingo語音大模型

心辰Lingo語音大模型是一款先進的人工智能語音模型，專注於提供高效、準確的語音識別和處理服務。它能夠理解並處理自然語言，使得人機交互更加流暢和自然。該模型背後依託西湖心辰強大的AI技術，致力於在各種場景下提供高質量的語音交互體驗。

LSLM

Listening-while-Speaking Language Model (LSLM)是一款旨在提升人機交互自然度的人工智能對話模型。它通過全雙工建模(FDM)技術，實現了在說話時同時監聽的能力，增強了即時交互性，尤其是在生成內容不滿意時能夠被打斷和即時響應。LSLM採用了基於token的解碼器僅TTS進行語音生成，以及流式自監督學習(SSL)編碼器進行即時音頻輸入，通過三種融合策略（早期融合、中期融合和晚期融合）探索最佳交互平衡。

聊天機器人

ControlMM

ControlMM是一個全身運動生成框架，具有即插即用的多模態控制功能，能夠在文本到運動(Text-to-Motion)、語音到手勢(Speech-to-Gesture)和音樂到舞蹈(Music-to-Dance)等多個領域中生成穩健的運動。該模型在可控性、序列性和運動合理性方面具有明顯優勢，為人工智能領域提供了一種新的運動生成解決方案。

V-Express

V-Express是一個由騰訊AI實驗室開發的頭像視頻生成模型，它通過一系列漸進式丟棄操作平衡不同的控制信號，使得生成的視頻能夠同時考慮姿態、輸入圖像和音頻。該模型特別針對音頻信號較弱的情況進行了優化，解決了在控制信號強度不同的情況下生成頭像視頻的挑戰。

The Shape of AI

The Shape Of AI

The Shape of AI 是一個專注於人工智能交互模式的網站，它提供了關於如何在設計中融入人工智能的深入見解。該網站強調了用戶體驗的重要性，並探討了在AI驅動的世界中，如何通過設計來優化人機交互。它包含了豐富的資源和工具，幫助設計師和開發者理解AI的新興模式，以及如何利用這些模式來提升他們的產品和服務。

Hume AI EVI

Hume AI的同理心語音接口(EVI)是一種由同理心大型語言模型(eLLM)驅動的API,可以理解和模擬語音音調、詞語重音等,從而優化人機交互。它基於10多年的研究成果、數百萬專利數據點和30多篇發表在頂尖期刊的論文。EVI旨在為任何應用程序提供更自然、富有同情心的語音界面,讓人與AI的互動更加人性化。該技術可廣泛應用於銷售/會議分析、健康與保健、AI研究服務、社交網絡等領域。

AMBIDEX

AMBIDEX是NAVER LABS開發的雙臂機器人，旨在實現與人類的安全共存。該機器人具有強大的動力傳遞機制，同時保持輕便和靈活，滿足堅韌和安全性的要求。AMBIDEX項目正在研究新的學習方式，使機器人能夠學習人類的動作能力，以執行日常遇到的複雜任務。

EMAGE

EMAGE是一種統一的整體共話手勢生成模型,通過表情豐富的掩蔽音頻手勢建模來生成自然的手勢動作。它可以從音頻輸入中捕捉語音和韻律信息,並生成相應的身體姿勢和手勢動作序列。EMAGE能夠生成高度動態和表現力豐富的手勢,從而增強虛擬人物的互動體驗。

01 Light

01 Light是一款語音控制界面,可以讓你用語音控制家用電腦執行各種操作。它的優勢是操作便捷、語音識別準確。定價暫未公佈,定位是家用電腦的語音控制輔助工具。

Salieri AI

Salieri是一個多元宇宙AI平臺，幫助用戶創建、配置和分享無限的並行世界。它支持人機交互、機器人之間的交互，並能將用戶的故事轉化為小說、漫畫、遊戲和電影等形式。

Universal Manipulation Interface

Universal Manipulation Interface

通用操作接口(UMI)是一個數據收集和策略學習框架,允許直接將現場人類演示中的技能轉移到可部署的機器人策略。UMI採用手持夾具與仔細的界面設計相結合,實現便攜、低成本和信息豐富的數據收集,用於挑戰性的雙手和動態操作演示。為促進可部署的策略學習,UMI結合了精心設計的策略界面,具有推理時延遲匹配和相對軌跡動作表示。從而產生的學習策略與硬件無關,並且可以在多個機器人平臺上部署。配備這些功能,UMI框架解鎖了新的機器人操作功能,僅通過為每個任務更改訓練數據,允許泛化的動態、雙手、精確和長時間的行為,從而實現零次調整。我們通過全面的真實環境實驗演示了UMI的通用性和有效性,其中僅通過使用各種人類演示進行訓練的UMI策略,在面對新環境和對象時實現了零次調整的泛化。

SpeechGPT

SpeechGPT是一種多模態語言模型，具有內在的跨模態對話能力。它能夠感知並生成多模態內容，遵循多模態人類指令。SpeechGPT-Gen是一種擴展了信息鏈的語音生成模型。SpeechAgents是一種具有多模態多代理系統的人類溝通模擬。SpeechTokenizer是一種統一的語音標記器，適用於語音語言模型。這些模型和數據集的發佈日期和相關信息均可在官方網站上找到。

LAM

rabbit是一個研究項目，旨在開發可以理解和模擬人類在計算機應用中的行為的系統。這個系統被稱為大型行動模型（LAM），採用神經符號編程技術，允許直接模擬各種應用程序和用戶在其上執行的操作。LAM在精確度、可解釋性和速度方面與最先進的方法相媲美。它的目標是為各種AI助手和操作系統的部署提供支持，幫助塑造下一代自然語言驅動的消費者體驗。

insactor

InsActor是一個基於物理模擬的角色控制系統。它可以通過自然語言指令驅動角色在複雜環境中完成各種交互任務。該系統利用條件與對抗擴散模型進行多級規劃,並與低級控制器相結合,實現穩定、魯棒的控制。具有控制流暢、交互自然的優勢,適用於創意內容生成、互動娛樂、人機交互等應用場景。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase