語音交互

# 語音交互

Overhyped AI

Overhyped AI是一種AI語音代理，旨在提高產品採納率。它通過個性化引導，提供從用戶啟動到實現關鍵體驗的專業指導，幫助用戶快速掌握產品的核心功能，增加用戶粘性。

Vibe Coder

Vibe Coder 是由 Deepgram 開發的一款開源 VS Code 擴展，旨在探索語音驅動編程的可能性。它利用語音識別技術，讓用戶通過語音指令與 AI 編程助手進行交互，快速將想法轉化為代碼原型。這種創新的編程方式被稱為‘vibe coding’，旨在提高編程效率並改變未來軟件開發的方式。Vibe Coder 目前處於實驗階段，Deepgram 希望通過社區反饋不斷完善該工具。

Sesame

Sesame 是一個專注於語音技術的跨學科產品和研究團隊，旨在通過自然語音交互，讓用戶與計算機的交互更加自然和高效。其主要產品包括個人語音伴侶和輕量級可穿戴眼鏡設備，旨在實現計算機的擬人化，幫助用戶更好地組織信息、提升效率。產品的主要優點是語音交互的自然性和設備的便攜性，適合日常使用。目前，Sesame 正在積極招聘，致力於推動語音技術的創新。

Riviera

Riviera 是一款專為酒店行業設計的AI語音平臺，旨在通過智能化的語音交互提升客戶體驗並優化酒店運營效率。它支持多語言對話，能夠快速響應客戶諮詢，處理預訂、房間服務等需求，同時通過數據分析提供個性化服務。該產品利用先進的AI技術，減少人工干預，降低運營成本，尤其適合酒店在高峰期減輕員工工作壓力。其背景是隨著酒店行業的數字化轉型，客戶對服務的即時性和個性化需求日益增長，Riviera 正是為滿足這一需求而生。價格和具體定位需根據酒店規模和需求定製。

Lovify

Lovify是Lovable.dev的擴展插件，旨在通過一系列AI驅動的功能提升開發人員的工作效率。它支持GitHub集成，能夠快速導入和管理倉庫；提供智能提示增強功能，根據上下文優化提示；具備項目規劃工具，自動生成PRD和行動計劃；支持語音交互，實現免手動編碼和調試；還有快捷的斜槓命令，快速訪問各種功能。這些功能的結合使得開發人員能夠更高效地編寫代碼、管理項目，並獲得即時幫助。目前該產品處於推廣階段，具體價格未明確，但可通過Chrome擴展程序商店免費試用。

Step-Audio

Step-Audio是首個生產級開源智能語音交互框架，整合了語音理解與生成能力，支持多語言對話、情感語調、方言、語速和韻律風格控制。其核心技術包括130B參數多模態模型、生成式數據引擎、精細語音控制和增強智能。該框架通過開源模型和工具，推動智能語音交互技術的發展，適用於多種語音應用場景。

Chirp AI

Chirp AI 是一款專為 Apple Watch 設計的智能語音助手應用。它通過強大的語音識別和人工智能技術，讓用戶能夠僅通過語音指令完成各種操作，如發送信息、獲取信息、搜索網絡等，極大地提升了用戶在移動場景下的操作效率。該產品的主要優點是無需頻繁使用手機，即可實現高效的信息交互和任務處理。它適用於那些希望在日常生活中減少對手機依賴，同時又能快速獲取信息和完成任務的用戶。目前該應用提供免費下載，定位為提升用戶生產力和便捷性的智能工具。

FoloUp

FoloUp 是一款專注於招聘流程的 AI 驅動語音面試平臺。它通過智能生成面試問題、即時語音交互和深度分析候選人回答，幫助企業高效篩選和評估候選人。該平臺利用先進的 AI 技術，確保面試過程的自然流暢，並提供詳細的候選人表現報告。FoloUp 旨在通過技術提升招聘效率，降低人力成本，同時為候選人提供更公平的面試體驗。目前，該平臺以開源形式提供，支持自定義部署和使用。

Storytelling Chatbot

Storytelling Chatbot

該產品利用 Gemini 2.0 語言模型和 Google Imagen 圖像生成技術，結合語音識別和語音合成，為用戶提供一個互動式的故事創作體驗。用戶可以通過語音輸入選擇故事走向，系統會即時生成故事內容和相關圖像。該產品的主要優點是創新的交互方式和強大的內容生成能力，適合用於教育、娛樂和創意啟發。目前該產品處於開源階段，未明確具體定價，主要面向開發者和教育機構。

SpeechGPT 2.0-preview

Speechgpt 2.0 Preview

SpeechGPT 2.0-preview 是一款由復旦大學自然語言處理實驗室開發的先進語音交互模型。它通過海量語音數據訓練，實現了低延遲、高自然度的語音交互能力。該模型能夠模擬多種情感、風格和角色的語音表達，同時支持工具調用、在線搜索和外部知識庫訪問等功能。其主要優點包括強大的語音風格泛化能力、多角色模擬以及低延遲交互體驗。目前該模型僅支持中文語音交互，未來計劃擴展到更多語言。

語音轉文本

MinMo

MinMo是阿里巴巴集團通義實驗室開發的一款多模態大型語言模型，擁有約80億參數，專注於實現無縫語音交互。它通過多個階段的訓練，包括語音到文本對齊、文本到語音對齊、語音到語音對齊和全雙工交互對齊，在140萬小時的多樣化語音數據和廣泛的語音任務上進行訓練。MinMo在語音理解和生成的各種基準測試中達到了最先進的性能，同時保持了文本大型語言模型的能力，並支持全雙工對話，即用戶和系統之間的同時雙向通信。此外，MinMo還提出了一種新穎且簡單的語音解碼器，在語音生成方面超越了以往的模型。MinMo的指令遵循能力得到了增強，支持根據用戶指令控制語音生成，包括情感、方言和語速等細節，並模仿特定的聲音。MinMo的語音到文本延遲約為100毫秒，全雙工延遲理論上約為600毫秒，實際約為800毫秒。MinMo的開發旨在克服以往對齊多模態模型的主要限制，為用戶提供更自然、流暢和人性化的語音交互體驗。

MiniCPM-o-2_6

MiniCPM-o 2.6是MiniCPM-o系列中最新且功能最強大的模型。該模型基於SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B構建，擁有8B參數。它在視覺理解、語音交互和多模態直播方面表現出色，支持即時語音對話和多模態直播功能。該模型在開源社區中表現優異，超越了多個知名模型。其優勢在於高效的推理速度、低延遲、低內存和功耗，能夠在iPad等終端設備上高效支持多模態直播。此外，MiniCPM-o 2.6易於使用，支持多種使用方式，包括llama.cpp的CPU推理、int4和GGUF格式的量化模型、vLLM的高吞吐量推理等。

理想同學

理想同學是由理想汽車依託自研大模型精心打造的一款人工智能應用，旨在為用戶提供一個隨時在線的智能助手。它具備知識問答能力，能解答汽車、出行、財經、科技等領域的問題，並擅長英文詞句翻譯、文本生成等，助力用戶學習生活。此外，它還具備視覺感知能力，可以陪伴用戶和家庭一起看世界，識別外出遊玩時遇到的各種事物。產品界面設計簡潔大方，語音輸入精準迅速，輸出自然流暢，近似人聲，是一款集知識問答、視覺識別和語音交互於一體的智能助手。

Agentplace

Agentplace是一個無需編碼知識即可在AI模型上構建AI應用和網站平臺。它利用AI的適應性、常識、知識和語音能力，允許用戶完全通過文本編程。產品的主要優點包括動態用戶界面、語音模式、常識理解和即時發佈。Agentplace的背景信息顯示，它旨在通過AI技術簡化網站和應用的創建過程，使非技術用戶也能輕鬆構建交互式和動態的網站。價格方面，Agentplace提供免費和付費兩種定價計劃，以滿足不同用戶的需求。

Speek

Speek是一款AI驅動的助手，通過語音和動畫鼠標指針指導用戶在網站上的操作，幫助解答問題、引導用戶瞭解網站功能，並簡化購買決策。它通過提供即時幫助，結合支持和引導，快速安裝並立即開始工作，改善用戶體驗，提升銷售，並減少客戶支持查詢。

Google Gemini App

Google Gemini App

Google Gemini是一款由Google開發的AI助手應用，旨在通過人工智能技術幫助用戶提高創造力和生產力。它允許用戶通過語音與應用交互，進行頭腦風暴、簡化複雜話題、為重要時刻排練等。Gemini能夠連接用戶喜愛的Google應用，如搜索、YouTube、Google Map、Gmail等，提供交互式視覺和現實世界示例，解鎖專業知識，獲取關於任何主題的定製信息。此外，它還能幫助用戶更快速、更好地規劃旅行，創建AI生成的圖像，並提供摘要、深入研究和源鏈接。

GPTS4O.SO

GPT-4o是OpenAI推出的先進多模態AI平臺，它在GPT-4的基礎上進一步擴展，實現了真正的多模態方法，涵蓋文本、圖像和音頻。GPT-4o設計上更快、更低成本、更普及，徹底革新我們與AI互動的方式。它提供了流暢且直觀的AI交互體驗，無論是參與自然對話、解讀複雜文本，還是識別語音中的微妙情感，GPT-4o的適應能力都是無與倫比的。

XGO Rider

XGO Rider是一款集成了ChatGPT的桌面雙輪足式AI機器人，具備自平衡功能和全向移動能力。它基於Raspberry Pi CM4核心模塊構建，支持Python和C++編程，適合AI編程學習和教育使用。XGO Rider不僅能夠幫助學生和開發者輕鬆進入機器人世界，還能通過其豐富的傳感器和AI功能進行各種互動和學習，如手勢識別、人臉檢測、骨骼識別等。

voice-chat-pdf

voice-chat-pdf是一個基於LlamaIndex項目，使用Next.js構建的示例，它通過簡單的RAG系統，允許用戶通過語音與PDF文檔進行交互。這個項目需要OpenAI API密鑰來訪問即時API，並在項目中生成文檔的嵌入向量，以便進行語音交互。它展示瞭如何將先進的機器學習技術應用於提高文檔交互的效率和便捷性。

AI聊天機器人

Realtime API

Realtime API 是 OpenAI 推出的一款低延遲語音交互API，它允許開發者在應用程序中構建快速的語音到語音體驗。該API支持自然語音到語音對話，並可處理中斷，類似於ChatGPT的高級語音模式。它通過WebSocket連接，支持功能調用，使得語音助手能夠響應用戶請求，觸發動作或引入新上下文。該API的推出，意味著開發者不再需要組合多個模型來構建語音體驗，而是可以通過單一API調用實現自然對話體驗。

LLaMA-Omni

LLaMA-Omni是一個基於Llama-3.1-8B-Instruct構建的低延遲、高質量的端到端語音交互模型，旨在實現GPT-4o級別的語音能力。該模型支持低延遲的語音交互，能夠同時生成文本和語音響應。它在不到3天的時間內使用僅4個GPU完成訓練，展示了其高效的訓練能力。

文小言

文小言是百度推出的一款基於文心大模型的智能搜索助手APP，它通過AI技術為用戶提供搜索、創作、聊天等多種服務。該產品通過記憶用戶喜好和需求，提供個性化的搜索結果和創作建議，同時支持語音和拍照輸入，使得用戶能夠更加便捷地獲取信息和創作內容。

Open-LLM-VTuber

Open LLM VTuber

Open-LLM-VTuber 是一個開源項目，旨在通過語音與大型語言模型（LLM）進行交互，具有即時的Live2D面部捕捉和跨平臺的長期記憶功能。該項目支持macOS、Windows和Linux平臺，允許用戶選擇不同的語音識別和語音合成後端，以及自定義的長期記憶解決方案。它特別適合希望在不同平臺上實現與AI進行自然語言對話的開發者和愛好者。

飛船App是一款基於人工智能技術的智能助手應用，專為移動端設計。它通過自然語言對話，提供有趣、有料、有用的交互體驗，滿足用戶在娛樂、效率等方面的需求。產品支持文字與語音輸入，提供多音色的TTS選擇，使交互更自然、親切。

Waveform.ai

Waveform.ai 是一個利用人工智能技術通過語音表單收集數據的平臺。它通過自然語言交互的方式，幫助用戶在客戶訪談、員工調查、市場研究和潛在客戶生成等方面進行數據收集。該平臺的主要優點包括：1. 更全面和深入的信息收集：通過AI驅動的調查，能夠收集到更全面和有洞察力的數據，從而進行更深入的分析和做出更明智的決策。2. 更高的響應率：通過AI驅動的語音表單與用戶進行自然互動，提高調查的響應率和用戶滿意度。3. 反映品牌身份：可以個性化語音和個性，以反映品牌身份，創造一致且難忘的用戶體驗。4. 時間和成本效益：與傳統的人工數據收集方法相比，節省時間和降低成本，同時保持準確性和可靠性。

Streamer-Sales

Streamer-Sales 銷冠是一個基於大語言模型的智能賣貨主播系統，它能夠根據商品特點從激發用戶購買意願的角度出發進行商品解說。該模型在 InternLM2 的基礎上通過指令微調而來，集成了 LMDeploy 加速推理，支持 ASR 語音生成文字，RAG 檢索增強生成，Agent 網絡查詢等功能，並通過 TTS 技術生成帶有感情的語音，最終生成主播數字人視頻，為商品解說提供全方位的技術支持。

Rich AI

Rich AI是一款為iPad和iPhone設計的應用程序，旨在提供商業和賺錢的創意靈感、個性化建議、語音模式、學習機會、專業意見以及即時反饋。它通過提供核心創業哲學和營銷策略的解釋，幫助用戶在創業和賺錢方面取得成功。

AI 創業想法

小窗 AI 問答機

小窗 AI 問答機

小窗 ® 對話式 AI 問答機是一款基於大語言模型（LLM）的人工智能技術產品，主要面向孩子群體，幫助他們在學習和生活中獲取知識，提升獨立思考、提問和語言表達能力。該產品的優點包括博學多知的超級博士、隨時交談的外語陪練、無窮創意的寫作助手、善解人意的傾訴對象等。該產品定位為面向家庭和教育場景的 AI 助手，為孩子提供全方位的知識獲取和交流互動。

Play.ai

Play.ai 是一個先進的語音交互平臺，它利用人工智能技術為用戶提供流暢、自然的對話體驗。該平臺不僅能夠理解用戶的指令，還能根據上下文進行智能回應，為用戶提供個性化的服務。Play.ai 的主要優點在於其高度的交互性和智能化，它能夠適應不同用戶的需求，提供定製化的對話服務。此外，Play.ai 還具有易於使用、快速響應等特點，使其成為企業和個人提升溝通效率的有力工具。

聊天機器人

Retell AI

Retell AI是一個能夠幫助開發者在一天內構建人類般對話語音AI的API。它具有大約800毫秒的響應時間，並能夠處理中斷。使用Retell AI，您可以體驗到與真實對話一樣自然和流暢的交互。

開發與工具

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase