2025年最佳的 25 個AI語音識別工具

Reverb
Reverb
Reverb 是一個開源的語音識別和說話人分割模型推理代碼,使用 WeNet 框架進行語音識別 (ASR) 和 Pyannote 框架進行說話人分割。它提供了詳細的模型描述,並允許用戶從 Hugging Face 下載模型。Reverb 旨在為開發者和研究人員提供高質量的語音識別和說話人分割工具,以支持各種語音處理任務。
AI語音識別
68.4K
優質新品
Whisper large-v3-turbo
Whisper Large V3 Turbo
Whisper large-v3-turbo是OpenAI提出的一種先進的自動語音識別(ASR)和語音翻譯模型。它在超過500萬小時的標記數據上進行訓練,能夠在零樣本設置中泛化到許多數據集和領域。該模型是Whisper large-v3的微調版本,解碼層從32減少到4,以提高速度,但可能會略微降低質量。
AI語音識別
106.0K
國外精選
Realtime API
Realtime API
Realtime API 是 OpenAI 推出的一款低延遲語音交互API,它允許開發者在應用程序中構建快速的語音到語音體驗。該API支持自然語音到語音對話,並可處理中斷,類似於ChatGPT的高級語音模式。它通過WebSocket連接,支持功能調用,使得語音助手能夠響應用戶請求,觸發動作或引入新上下文。該API的推出,意味著開發者不再需要組合多個模型來構建語音體驗,而是可以通過單一API調用實現自然對話體驗。
AI語音識別
88.9K
OmniSenseVoice
Omnisensevoice
OmniSenseVoice是基於SenseVoice優化的語音識別模型,專為快速推理和精確時間戳設計,提供更智能、更快速的音頻轉錄方式。
AI語音識別
124.5K
優質新品
Deepgram Voice Agent API
Deepgram Voice Agent API
Deepgram Voice Agent API 是一個統一的語音到語音API,它允許人類和機器之間進行自然聽起來的對話。該API由行業領先的語音識別和語音合成模型提供支持,能夠自然且即時地聽、思考和說話。Deepgram致力於通過其語音代理API推動語音優先AI的未來,通過集成先進的生成AI技術,打造能夠進行流暢、類似人類語音代理的業務世界。
AI語音識別
67.1K
CrisperWhisper
Crisperwhisper
CrisperWhisper是基於OpenAI的Whisper模型的高級變體,專為快速、準確、逐字的語音識別設計,提供準確的詞級時間戳。與原始Whisper模型相比,CrisperWhisper旨在逐字轉錄每一個說出的單詞,包括填充詞、停頓、口吃和錯誤的開始。該模型在逐字數據集(如TED、AMI)中排名第一,並在INTERSPEECH 2024上被接受。
AI語音識別
64.6K
中文精選
心辰Lingo語音大模型
心辰lingo語音大模型
心辰Lingo語音大模型是一款先進的人工智能語音模型,專注於提供高效、準確的語音識別和處理服務。它能夠理解並處理自然語言,使得人機交互更加流暢和自然。該模型背後依託西湖心辰強大的AI技術,致力於在各種場景下提供高質量的語音交互體驗。
AI語音識別
64.0K
優質新品
Seed-ASR
Seed ASR
Seed-ASR是由字節跳動公司開發的基於大型語言模型(Large Language Model, LLM)的語音識別模型。它通過將連續的語音表示和上下文信息輸入到LLM中,利用LLM的能力,在大規模訓練和上下文感知能力的引導下,顯著提高了在包括多個領域、口音/方言和語言的綜合評估集上的表現。與最近發佈的大型ASR模型相比,Seed-ASR在中英文公共測試集上實現了10%-40%的詞錯誤率降低,進一步證明了其強大的性能。
AI語音識別
89.1K
whisper-diarization
Whisper Diarization
whisper-diarization是一個結合了Whisper自動語音識別(ASR)能力、聲音活動檢測(VAD)和說話人嵌入技術的開源項目。它通過提取音頻中的聲音部分來提高說話人嵌入的準確性,然後使用Whisper生成轉錄文本,並通過WhisperX校正時間戳和對齊,以減少由於時間偏移導致的分割錯誤。接著,使用MarbleNet進行VAD和分割以排除靜音,TitaNet用於提取說話人嵌入以識別每個段落的說話人,最後將結果與WhisperX生成的時間戳關聯,基於時間戳檢測每個單詞的說話人,並使用標點模型重新對齊以補償小的時間偏移。
AI語音識別
74.5K
SenseVoiceSmall
Sensevoicesmall
SenseVoiceSmall是一款具備多種語音理解能力的語音基礎模型,包括自動語音識別(ASR)、口語語言識別(LID)、語音情感識別(SER)和音頻事件檢測(AED)。該模型經過超過40萬小時的數據訓練,支持超過50種語言,識別性能超越Whisper模型。其小型模型SenseVoice-Small採用非自迴歸端到端框架,推理延遲極低,處理10秒音頻僅需70毫秒,比Whisper-Large快15倍。此外,SenseVoice還提供便捷的微調腳本和策略,支持多併發請求的服務部署管道,客戶端語言包括Python、C++、HTML、Java和C#等。
AI語音識別
88.0K
Emilia
Emilia
Emilia是一個開源的多語種野外語音數據集,專為大規模語音生成研究設計。它包含超過101,000小時的六種語言高質量語音數據和相應的文本轉錄,覆蓋了各種說話風格和內容類型,如脫口秀、訪談、辯論、體育評論和有聲書。
AI語音識別
92.7K
SenseVoice
Sensevoice
SenseVoice是一個包含自動語音識別(ASR)、語音語言識別(LID)、語音情感識別(SER)和音頻事件檢測(AED)等多語音理解能力的語音基礎模型。它專注於高精度多語種語音識別、語音情感識別和音頻事件檢測,支持超過50種語言,識別性能超越Whisper模型。模型採用非自迴歸端到端框架,推理延遲極低,是即時語音處理的理想選擇。
AI語音識別
117.9K
Azure 認知服務語音
Azure 認知服務語音
Azure 認知服務語音是微軟推出的一款語音識別與合成服務,支持超過100種語言和方言的語音轉文本和文本轉語音功能。它通過創建可處理特定術語、背景噪音和重音的自定義語音模型,提高聽錄的準確度。此外,該服務還支持即時語音轉文本、語音翻譯、文本轉語音等功能,適用於多種商業場景,如字幕生成、通話後聽錄分析、視頻翻譯等。
AI語音識別
56.3K
ChatTTS_Speaker
Chattts Speaker
ChatTTS_Speaker是一個基於ERes2NetV2說話人識別模型的實驗性項目,旨在對音色進行穩定性評分和音色打標,幫助用戶選擇穩定且符合需求的音色。項目已開源,支持在線試聽和下載音色樣本。
AI語音識別
75.6K
sherpa-onnx
Sherpa Onnx
sherpa-onnx 是一個基於下一代 Kaldi 的語音識別和語音合成項目,使用onnxruntime進行推理,支持多種語音相關功能,包括語音轉文字(ASR)、文字轉語音(TTS)、說話人識別、說話人驗證、語言識別、關鍵詞檢測等。它支持多種平臺和操作系統,包括嵌入式系統、Android、iOS、Raspberry Pi、RISC-V、服務器等。
AI語音識別
136.1K
LookOnceToHear
Lookoncetohear
LookOnceToHear 是一種創新的智能耳機交互系統,允許用戶通過簡單的視覺識別來選擇想要聽到的目標說話者。這項技術在 CHI 2024 上獲得了最佳論文榮譽提名。它通過合成音頻混合、頭相關傳輸函數(HRTFs)和雙耳房間脈衝響應(BRIRs)來實現即時語音提取,為用戶提供了一種新穎的交互方式。
AI語音識別
89.1K
Universal-1
Universal 1
探索 AssemblyAI 當前的研究、新聞和有關語音 AI 技術的更新。AssemblyAI 的 Universal-1 在多語言環境下實現了行業領先的性能,準確、強大且魯棒,幫助全球客戶和開發人員構建各種語音 AI 應用。Universal-1 在英語、西班牙語和德語語音轉文本準確度方面均實現了 10% 或更高的改進,減少了關於語音數據和環境噪聲的幻覺率,客戶對 Universal-1 的輸出更為偏好,具有代碼轉換能力等。
AI語音識別
73.4K
Azure AI Studio - 語音服務
Azure AI Studio 語音服務
Azure AI Studio是微軟Azure提供的一套人工智能服務,其中包括語音服務。這些服務可能包括語音識別、語音合成、語音翻譯等功能,幫助開發者在他們的應用程序中集成語音相關的智能功能。
AI語音識別
271.3K
AV-HuBERT
AV HuBERT
AV-HuBERT是一個自監督表示學習框架,專門用於音視覺語音處理。它在LRS3音視覺語音基準測試中實現了最先進的唇讀、自動語音識別(ASR)和音視覺語音識別結果。該框架通過掩蔽多模態聚類預測來學習音視覺語音表示,並且提供了魯棒的自監督音視覺語音識別。
AI語音識別
67.1K
WhisperKit
Whisperkit
WhisperKit是一個用於自動語音識別模型壓縮與優化的工具。它支持對模型進行壓縮和優化,並提供了詳細的性能評估數據。WhisperKit還提供了針對不同數據集和模型格式的質量保證認證,並支持本地復現測試結果。
AI語音識別
122.8K
WhisperFusion
Whisperfusion
WhisperFusion是一款基於WhisperLive和WhisperSpeech功能的產品,通過在即時語音轉文字流程中集成Mistral大型語言模型(LLM)來實現與AI的無縫對話。Whisper和LLM均經過TensorRT引擎優化,以最大程度提升性能和即時處理能力。WhisperSpeech則使用torch.compile來優化。產品定位於提供超低延遲的AI即時對話體驗。
AI語音識別
144.6K
騰訊雲語音識別ASR
騰訊雲語音識別ASR
騰訊雲語音識別(ASR)為開發者提供語音轉文字服務的最佳體驗。語音識別服務具備識別準確率高、接入便捷、性能穩定等特點。騰訊雲語音識別服務開放即時語音識別、一句話識別和錄音文件識別三種服務形式,滿足不同類型開發者需求。技術先進,性價比高,多語種支持,適用於客服、會議、法庭等多場景。
AI語音識別
127.8K
Whisper
Whisper
Whisper 是一個通用的語音識別模型。它經過大量多樣化音頻的訓練,並且是一個多任務模型,可以進行多語言語音識別、語音翻譯和語種識別。
AI語音識別
154.6K
SALMONN
SALMONN
SALMONN是由清華大學電子工程系和字節跳動開發的大型語言模型(LLM),支持語音、音頻事件和音樂輸入。與僅支持語音或音頻事件輸入的模型不同,SALMONN可以感知和理解各種音頻輸入,從而獲得多語言語音識別和翻譯以及音頻-語音共推理等新興能力。這可以被視為給予LLM“聽覺”和認知聽覺能力,使SALMONN成為通向具有聽覺能力的人工通用智能的一步。
AI語音識別
88.0K
Whisper Turbo
Whisper Turbo
Whisper Turbo旨在成為OpenAI Whisper API的替代品。它由3部分組成:一個兼容層,用於輸入不同格式的音頻文件並轉換為Whisper兼容格式;開發者友好的API,支持一次性推理和流式模式;以及Rust + WebGPU推理框架Rumble,專門用於跨平臺快速推理。
AI語音識別
105.7K
精選AI產品推薦
中文精選
騰訊混元圖像 2.0
騰訊混元圖像 2.0
騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型,顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構,使得圖像生成速度可達到毫秒級,避免了傳統生成的等待時間。同時,模型通過強化學習算法與人類美學知識的結合,提升了圖像的真實感和細節表現,適合設計師、創作者等專業用戶使用。
圖片生成
80.6K
國外精選
Lovart
Lovart
Lovart 是一款革命性的 AI 設計代理,能夠將創意提示轉化為藝術作品,支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程,節省時間並提升創意靈感。Lovart 當前處於測試階段,用戶可加入等候名單,隨時體驗設計的樂趣。
AI設計工具
63.8K
FastVLM
Fastvlm
FastVLM 是一種高效的視覺編碼模型,專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器,減少了高分辨率圖像的編碼時間和輸出的 token 數量,使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力,適用於各種應用場景,尤其在需要快速響應的移動設備上表現優異。
AI模型
51.1K
KeySync
Keysync
KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題,同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果,適用於自動配音等實際應用場景。
視頻編輯
48.3K
Manus
Manus
Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品,能夠直接交付完整的任務成果,而不僅僅是提供建議或答案。它採用 Multiple Agent 架構,運行在獨立虛擬機中,能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現,展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’,幫助用戶高效完成各種複雜任務。
個人助理
1.5M
Trae國內版
Trae國內版
Trae是一款專為中文開發場景設計的AI原生IDE,將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能,顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白,滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具,旨在為專業開發者提供強大的技術支持,目前尚未明確公開價格,但預計會採用付費模式以匹配其高端定位。
開發與工具
137.7K
國外精選
Pika
Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M
中文精選
LiblibAI
Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase