2025年最佳的 48 個AI語音助手工具

Ola Friend
Ola Friend
Ola Friend是字節跳動豆包推出的首款AI智能體耳機,它通過接入豆包大模型,與豆包APP深度結合,實現了無需打開手機即可通過語音喚醒AI助手的功能。這款耳機在信息查詢、旅遊出行、英語學習及情感交流等場景為用戶提供幫助,旨在成為用戶隨時陪伴的朋友。產品採用了OWS(Open Wearable Stereo)專利技術,實現了無感佩戴、不入耳、音響級聲效和超長續航等特點。
AI語音助手
139.7K
EMOVA
EMOVA
EMOVA(EMotionally Omni-present Voice Assistant)是一個多模態語言模型,它能夠進行端到端的語音處理,同時保持領先的視覺-語言性能。該模型通過語義-聲學解耦的語音分詞器,實現了情感豐富的多模態對話,並在視覺-語言和語音基準測試中達到了最先進的性能。
AI語音助手
49.1K
EVI 2
EVI 2
EVI 2是Hume AI推出的新型基礎語音對語音模型,能夠以接近人類的自然方式與用戶進行流暢對話。它具備快速響應、理解用戶語調、生成不同語調、以及執行特定請求的能力。EVI 2通過特殊訓練增強了情感智能,能夠預測並適應用戶的偏好,維持有趣且引人入勝的性格和個性。此外,EVI 2還具有多語言能力,能夠適應不同應用場景和用戶需求。
AI語音助手
51.3K
優質新品
漢王語音王
漢王語音王
漢王語音王App是漢王科技基於自研多模態天地大模型,自主研發的智能語音旗艦應用。它集AI語音記錄、智能翻譯與同聲傳譯於一體,支持AI精準轉寫、拍錄同步、話稿整理、智能總結及不間斷即時翻譯等功能。依託全棧AI技術,漢王語音王致力於幫助用戶跨越語言障礙,提高辦公、學習、會議、旅遊等場景的效率和便捷性。
AI語音助手
62.7K
Gemini Live
Gemini Live
Gemini Live是谷歌推出的AI助手Gemini的新功能,它允許用戶進行自由流暢的對話,支持多聲道選擇,無需手持操作,提供更自然、會話式的交互體驗。它是數字助理領域的重大升級,能夠處理複雜任務,節省用戶寶貴的時間。
AI語音助手
50.5K
Qwen2 Audio Instruct Demo
Qwen2 Audio Instruct Demo
Qwen2 Audio Instruct Demo 是一個基於音頻指令的交互式演示網站,它利用最新的人工智能技術,讓用戶通過語音指令與網頁進行互動。這種技術不僅增強了用戶體驗,還為殘障人士提供了更便捷的訪問方式。產品背景信息包括其開發團隊和技術支持,價格定位為免費試用,主要面向對人工智能交互感興趣的用戶群體。
AI語音助手
55.5K
Voice Assistant Plugin for GPT
Voice Assistant Plugin For GPT
Voice Assistant Plugin for GPT 是一款專為GPT設計的語音助手插件,旨在通過語音交互提升用戶體驗。該插件結合了先進的語音識別技術,允許用戶通過語音命令與GPT進行交流,實現更加自然和便捷的對話體驗。產品背景信息顯示,該插件由Air Tech Studio開發,支持多語言,並且注重用戶數據安全,不與第三方分享任何數據。
AI語音助手
53.3K
優質新品
SpeechGPT2
Speechgpt2
SpeechGPT2是由復旦大學計算機科學學院開發的端到端語音對話語言模型,能夠感知並表達情感,並根據上下文和人類指令以多種風格提供合適的語音響應。該模型採用超低比特率語音編解碼器(750bps),模擬語義和聲學信息,並通過多輸入多輸出語言模型(MIMO-LM)進行初始化。目前,SpeechGPT2還是一個基於輪次的對話系統,正在開發全雙工即時版本,並已取得一些有希望的進展。儘管受限於計算和數據資源,SpeechGPT2在語音理解的噪聲魯棒性和語音生成的音質穩定性方面仍有不足,計劃未來開源技術報告、代碼和模型權重。
AI語音助手
107.4K
Dialed
Dialed
Dialed是一款AI驅動的應用程序,旨在通過個性化的激勵演講來激發用戶的潛能。無論是健身、演講還是日常挑戰,Dialed都能提供個性化的激勵和啟發。產品的主要優點包括個性化的激勵演講、真誠的支持、傳奇的演講定製、多種聲音選擇、背景音樂以及AI生成的激勵圖像。此外,Dialed還允許用戶將激勵演講分享給朋友和家人。
AI語音助手
43.6K
優質新品
Qwen2-Audio
Qwen2 Audio
Qwen2-Audio是由阿里雲提出的大型音頻語言模型,能夠接受各種音頻信號輸入,並根據語音指令進行音頻分析或直接文本回復。該模型支持兩種不同的音頻交互模式:語音聊天和音頻分析。它在13個標準基準測試中表現出色,包括自動語音識別、語音到文本翻譯、語音情感識別等。
AI語音助手
207.8K
Swift
Swift
Swift是一個由Groq、Cartesia和Vercel支持的快速AI語音助手。它使用Groq進行OpenAI Whisper和Meta Llama 3的快速推理,Cartesia的Sonic語音模型進行快速語音合成,並即時流式傳輸到前端。VAD技術用於檢測用戶說話並運行語音片段上的回調。Swift是一個使用TypeScript編寫的Next.js項目,並部署在Vercel上。
AI語音助手
55.8K
Moocat
Moocat
Moocat是一款AI驅動的智能輸入法,它通過內置的人工智能技術,為用戶提供即時的打字建議、語法糾正和上下文感知的回覆,從而提高打字速度和準確性。Moocat輸入法還具備語言翻譯功能,消除語言障礙,讓溝通更加順暢。此外,用戶可以個性化定製鍵盤的外觀和功能,以匹配個人風格和偏好。適用於專業人士、學生、旅行者等不同用戶群體,提高日常溝通體驗。
AI語音助手
76.5K
WAKE UP MOTHAF&#$R
WAKE UP MOTHAF&#$R
WAKE UP MOTHAF&#$R是一個提供個性化AI語音喚醒服務的網站,模仿知名人物David Goggins的聲音,幫助用戶在早晨醒來。該工具由David Goggins的粉絲們創建,並非由David Goggins本人或其團隊正式支持。
AI語音助手
47.7K
Friend
Friend
Friend是一款領先的開源AI穿戴設備,它通過連接移動設備,提供自動、高質量的會議、聊天和語音備忘錄的即時轉錄服務。它具備即時AI音頻處理能力,低功耗藍牙技術,以及開源軟件設計,使得用戶能夠方便地訪問和貢獻代碼。該產品以其便攜性、實用性和開源性,為需要高效記錄和管理對話內容的用戶提供了一個創新解決方案。
AI語音助手
61.0K
優質新品
FRIEND NECKLACE
FRIEND NECKLACE
FRIEND NECKLACE是一款開源的可穿戴AI助手,具備個性化AI對話和反饋功能。它是一個集AI筆記、提醒、建議等多功能於一體的智能設備。產品完全開源,所有數據存儲在用戶的手機上,保證了數據的隱私和安全。
AI語音助手
53.3K
Real-time Voice AI Agent
Real Time Voice AI Agent
Real-time Voice AI Agent是一個高度靈活的即時語音交互模型,它能夠在大約500毫秒內通過語音回答任何查詢。該模型支持用戶選擇任何大型語言模型、文本到語音(TTS)模型和語音到文本(STT)模型。它非常適合用於客戶服務機器人、接待員等涉及語音的應用場景。
AI語音助手
72.0K
june
June
june是一個結合了Ollama、Hugging Face Transformers和Coqui TTS Toolkit的本地語音聊天機器人。它提供了一種靈活、注重隱私的解決方案,可以在本地機器上進行語音輔助交互,確保沒有數據被髮送到外部服務器。產品的主要優點包括無需聯網即可使用、保護用戶隱私、支持多種交互模式等。
AI語音助手
54.9K
Apple Intelligence
Apple Intelligence
Apple Intelligence是Apple公司最新推出的個人智能化系統,它深度集成於iOS 18、iPadOS 18和Mac Sequoia中,利用Apple芯片對語言和圖像的深入理解,提供跨app的多種操作,簡化日常任務流程。Apple Intelligence在設備端處理任務,確保用戶隱私安全,同時通過Private Cloud Compute技術,靈活配置計算資源,處理複雜請求。
AI語音助手
126.4K
優質新品
MiGPT
Migpt
MiGPT是一個通過將小愛音箱與ChatGPT的智能理解能力相結合,實現智能家居語音控制的項目。它不僅支持設備自動化,還能夠通過角色扮演、流式響應、長短期記憶等技術,讓智能家居設備更智能、更貼心地響應用戶的指令。MiGPT支持Docker和Node.js兩種啟動方式,用戶可以根據自己的需求進行選擇。
AI語音助手
186.0K
優質新品
Siri-Ultra
Siri Ultra
Siri-Ultra是一個基於雲的智能助手,可以在Cloudflare Workers上運行,並且可以與任何大型語言模型(LLM)配合使用。它利用了LLaMA 3模型,並且通過自定義函數調用來獲取天氣數據和在線搜索。這個項目允許用戶通過Apple Shortcuts來使用Siri,從而消除了對專用硬件設備的需求。
AI語音助手
264.1K
國外精選
Hume AI EVI
Hume AI EVI
Hume AI的同理心語音接口(EVI)是一種由同理心大型語言模型(eLLM)驅動的API,可以理解和模擬語音音調、詞語重音等,從而優化人機交互。它基於10多年的研究成果、數百萬專利數據點和30多篇發表在頂尖期刊的論文。EVI旨在為任何應用程序提供更自然、富有同情心的語音界面,讓人與AI的互動更加人性化。該技術可廣泛應用於銷售/會議分析、健康與保健、AI研究服務、社交網絡等領域。
AI語音助手
72.3K
Voice Control for ChatGPT x Mia AI
Voice Control For ChatGPT X Mia AI
Voice Control for ChatGPT x Mia AI是一個擴展,為ChatGPT提供語音控制和朗讀功能。通過錄音按鈕,您可以錄製併發送語音查詢給ChatGPT,無需打字。AI的回答會朗讀出來,確保流暢的聽覺交互。此外,該插件還可以將ChatGPT變成您的個人語音助手,具備Mia AI的功能。
AI語音助手
91.1K
ADeus
Adeus
ADeus是一個開源的人工智能可穿戴設備項目,即時記錄語音和環境數據,通過手機或電腦應用進行個性化助理服務,支持多種智能功能,用戶擁有對數據的完全控制權。
AI語音助手
66.5K
MICRO LLAMA
MICRO LLAMA
MICRO LLAMA是您個人的私人最先進的設備AI助手。無需註冊,MICRO LLAMA即可開始工作。作為AI助手,MICRO LLAMA旨在成為終極個人助手。從整理您的待辦事項列表到幫助您保持高效,MICRO LLAMA在這裡讓您的生活更輕鬆。無論您需要安排約會、設置提醒,或者只是找到問題的答案,MICRO LLAMA都能幫到您。
AI語音助手
56.6K
Chat GPT voice
Chat GPT Voice
通過多語言TTS文本轉語音和STT語音轉文本功能,使GPT聊天具備語音交互能力。
AI語音助手
76.2K
Voxos
Voxos
Voxos 是一款多功能且用戶友好的桌面語音助手,可將LLM集成到日常工作流程中,相比於使用Web UI訪問LLM,它更加簡化。它非常適合任何使用桌面計算機且希望節省時間和精力的人。此外,您還可以在Voxos的模塊化設計基礎上構建自己的定製功能。Voxos旨在易於擴展和定製。因此,我們鼓勵您以符合當前設計模式的方式定製您的修改,並希望您通過提交MR來為Voxos的所有用戶帶來益處。
AI語音助手
50.8K
雷鳥RayNeo AI
雷鳥rayneo AI
RayNeo AI是雷鳥自主研發的人工智能語音助手,集成了自然語言處理、語音識別、語音合成等核心技術,可實現自然語言交互、語音控制等功能。該產品已在雷鳥XR系列產品中進行內測,支持行程規劃、天氣查詢、百科知識問答等服務,提升了產品的智能化水平。下一步,RayNeo AI計劃推出視覺識別等多模態交互能力,實現更豐富的人機交互體驗。
AI語音助手
93.8K
Blerp - AI TTS, Sound Memes on Streams
Blerp AI TTS, Sound Memes On Streams
Blerp是一款支持AI文本轉語音、聲音表情包、GIF、聲音面板和頻道積分等功能的插件。用戶可以在Twitch、YouTube、Kick等平臺上使用Blerp插件,在直播聊天室中發送各種聲音和文本轉語音,並可以附帶表情和GIF。作為觀眾,您還可以通過該插件收集頻道積分和使用WalkOn聲音。作為流媒體主播,您可以在Blerp平臺上添加和設置您的聲音。
AI語音助手
55.5K
GPTAssistant
Gptassistant
這是一個基於ChatGPT API開發的安卓端語音助手APP,支持語音交互、連續對話、識別圖片等功能。用戶只需通過手機音量鍵,就可以從任意界面喚起並進行語音提問,無需打字,交互體驗極佳。支持自定義問題模板、網頁抓取、Vision識圖等高級功能。
AI語音助手
64.6K
Talk to GPT
Talk To GPT
Talk to GPT是一個Chrome插件,使用語音與ChatGPT進行交流。它通過分析你的語音,將你說的話轉錄成文字,併發送給ChatGPT。ChatGPT能夠以100多種語言回答你的問題。插件還支持自動校正和語言水平選擇。定價請查看官方網站。
AI語音助手
104.1K
精選AI產品推薦
中文精選
騰訊混元圖像 2.0
騰訊混元圖像 2.0
騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型,顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構,使得圖像生成速度可達到毫秒級,避免了傳統生成的等待時間。同時,模型通過強化學習算法與人類美學知識的結合,提升了圖像的真實感和細節表現,適合設計師、創作者等專業用戶使用。
圖片生成
80.6K
國外精選
Lovart
Lovart
Lovart 是一款革命性的 AI 設計代理,能夠將創意提示轉化為藝術作品,支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程,節省時間並提升創意靈感。Lovart 當前處於測試階段,用戶可加入等候名單,隨時體驗設計的樂趣。
AI設計工具
63.8K
FastVLM
Fastvlm
FastVLM 是一種高效的視覺編碼模型,專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器,減少了高分辨率圖像的編碼時間和輸出的 token 數量,使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力,適用於各種應用場景,尤其在需要快速響應的移動設備上表現優異。
AI模型
51.1K
KeySync
Keysync
KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題,同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果,適用於自動配音等實際應用場景。
視頻編輯
48.3K
Manus
Manus
Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品,能夠直接交付完整的任務成果,而不僅僅是提供建議或答案。它採用 Multiple Agent 架構,運行在獨立虛擬機中,能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現,展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’,幫助用戶高效完成各種複雜任務。
個人助理
1.5M
Trae國內版
Trae國內版
Trae是一款專為中文開發場景設計的AI原生IDE,將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能,顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白,滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具,旨在為專業開發者提供強大的技術支持,目前尚未明確公開價格,但預計會採用付費模式以匹配其高端定位。
開發與工具
137.7K
國外精選
Pika
Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M
中文精選
LiblibAI
Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase