AI語音識別

2025年最佳的 25 個AI語音識別工具

Reverb

Reverb 是一個開源的語音識別和說話人分割模型推理代碼，使用 WeNet 框架進行語音識別 (ASR) 和 Pyannote 框架進行說話人分割。它提供了詳細的模型描述，並允許用戶從 Hugging Face 下載模型。Reverb 旨在為開發者和研究人員提供高質量的語音識別和說話人分割工具，以支持各種語音處理任務。

Whisper large-v3-turbo

Whisper Large V3 Turbo

Whisper large-v3-turbo是OpenAI提出的一種先進的自動語音識別(ASR)和語音翻譯模型。它在超過500萬小時的標記數據上進行訓練，能夠在零樣本設置中泛化到許多數據集和領域。該模型是Whisper large-v3的微調版本，解碼層從32減少到4，以提高速度，但可能會略微降低質量。

Realtime API

Realtime API 是 OpenAI 推出的一款低延遲語音交互API，它允許開發者在應用程序中構建快速的語音到語音體驗。該API支持自然語音到語音對話，並可處理中斷，類似於ChatGPT的高級語音模式。它通過WebSocket連接，支持功能調用，使得語音助手能夠響應用戶請求，觸發動作或引入新上下文。該API的推出，意味著開發者不再需要組合多個模型來構建語音體驗，而是可以通過單一API調用實現自然對話體驗。

OmniSenseVoice

OmniSenseVoice是基於SenseVoice優化的語音識別模型，專為快速推理和精確時間戳設計，提供更智能、更快速的音頻轉錄方式。

Deepgram Voice Agent API

Deepgram Voice Agent API

Deepgram Voice Agent API 是一個統一的語音到語音API，它允許人類和機器之間進行自然聽起來的對話。該API由行業領先的語音識別和語音合成模型提供支持，能夠自然且即時地聽、思考和說話。Deepgram致力於通過其語音代理API推動語音優先AI的未來，通過集成先進的生成AI技術，打造能夠進行流暢、類似人類語音代理的業務世界。

CrisperWhisper

CrisperWhisper是基於OpenAI的Whisper模型的高級變體，專為快速、準確、逐字的語音識別設計，提供準確的詞級時間戳。與原始Whisper模型相比，CrisperWhisper旨在逐字轉錄每一個說出的單詞，包括填充詞、停頓、口吃和錯誤的開始。該模型在逐字數據集（如TED、AMI）中排名第一，並在INTERSPEECH 2024上被接受。

心辰Lingo語音大模型

心辰lingo語音大模型

心辰Lingo語音大模型是一款先進的人工智能語音模型，專注於提供高效、準確的語音識別和處理服務。它能夠理解並處理自然語言，使得人機交互更加流暢和自然。該模型背後依託西湖心辰強大的AI技術，致力於在各種場景下提供高質量的語音交互體驗。

Seed-ASR

Seed-ASR是由字節跳動公司開發的基於大型語言模型(Large Language Model, LLM)的語音識別模型。它通過將連續的語音表示和上下文信息輸入到LLM中，利用LLM的能力，在大規模訓練和上下文感知能力的引導下，顯著提高了在包括多個領域、口音/方言和語言的綜合評估集上的表現。與最近發佈的大型ASR模型相比，Seed-ASR在中英文公共測試集上實現了10%-40%的詞錯誤率降低，進一步證明了其強大的性能。

whisper-diarization

Whisper Diarization

whisper-diarization是一個結合了Whisper自動語音識別(ASR)能力、聲音活動檢測(VAD)和說話人嵌入技術的開源項目。它通過提取音頻中的聲音部分來提高說話人嵌入的準確性，然後使用Whisper生成轉錄文本，並通過WhisperX校正時間戳和對齊，以減少由於時間偏移導致的分割錯誤。接著，使用MarbleNet進行VAD和分割以排除靜音，TitaNet用於提取說話人嵌入以識別每個段落的說話人，最後將結果與WhisperX生成的時間戳關聯，基於時間戳檢測每個單詞的說話人，並使用標點模型重新對齊以補償小的時間偏移。

SenseVoiceSmall

Sensevoicesmall

SenseVoiceSmall是一款具備多種語音理解能力的語音基礎模型，包括自動語音識別（ASR）、口語語言識別（LID）、語音情感識別（SER）和音頻事件檢測（AED）。該模型經過超過40萬小時的數據訓練，支持超過50種語言，識別性能超越Whisper模型。其小型模型SenseVoice-Small採用非自迴歸端到端框架，推理延遲極低，處理10秒音頻僅需70毫秒，比Whisper-Large快15倍。此外，SenseVoice還提供便捷的微調腳本和策略，支持多併發請求的服務部署管道，客戶端語言包括Python、C++、HTML、Java和C#等。

Emilia

Emilia是一個開源的多語種野外語音數據集，專為大規模語音生成研究設計。它包含超過101,000小時的六種語言高質量語音數據和相應的文本轉錄，覆蓋了各種說話風格和內容類型，如脫口秀、訪談、辯論、體育評論和有聲書。

SenseVoice

SenseVoice是一個包含自動語音識別(ASR)、語音語言識別(LID)、語音情感識別(SER)和音頻事件檢測(AED)等多語音理解能力的語音基礎模型。它專注於高精度多語種語音識別、語音情感識別和音頻事件檢測，支持超過50種語言，識別性能超越Whisper模型。模型採用非自迴歸端到端框架，推理延遲極低，是即時語音處理的理想選擇。

Azure 認知服務語音

Azure 認知服務語音

Azure 認知服務語音是微軟推出的一款語音識別與合成服務，支持超過100種語言和方言的語音轉文本和文本轉語音功能。它通過創建可處理特定術語、背景噪音和重音的自定義語音模型，提高聽錄的準確度。此外，該服務還支持即時語音轉文本、語音翻譯、文本轉語音等功能，適用於多種商業場景，如字幕生成、通話後聽錄分析、視頻翻譯等。

ChatTTS_Speaker

Chattts Speaker

ChatTTS_Speaker是一個基於ERes2NetV2說話人識別模型的實驗性項目，旨在對音色進行穩定性評分和音色打標，幫助用戶選擇穩定且符合需求的音色。項目已開源，支持在線試聽和下載音色樣本。

sherpa-onnx

sherpa-onnx 是一個基於下一代 Kaldi 的語音識別和語音合成項目，使用onnxruntime進行推理，支持多種語音相關功能，包括語音轉文字(ASR)、文字轉語音(TTS)、說話人識別、說話人驗證、語言識別、關鍵詞檢測等。它支持多種平臺和操作系統，包括嵌入式系統、Android、iOS、Raspberry Pi、RISC-V、服務器等。

LookOnceToHear

LookOnceToHear 是一種創新的智能耳機交互系統，允許用戶通過簡單的視覺識別來選擇想要聽到的目標說話者。這項技術在 CHI 2024 上獲得了最佳論文榮譽提名。它通過合成音頻混合、頭相關傳輸函數(HRTFs)和雙耳房間脈衝響應(BRIRs)來實現即時語音提取，為用戶提供了一種新穎的交互方式。

Universal-1

探索 AssemblyAI 當前的研究、新聞和有關語音 AI 技術的更新。AssemblyAI 的 Universal-1 在多語言環境下實現了行業領先的性能，準確、強大且魯棒，幫助全球客戶和開發人員構建各種語音 AI 應用。Universal-1 在英語、西班牙語和德語語音轉文本準確度方面均實現了 10% 或更高的改進，減少了關於語音數據和環境噪聲的幻覺率，客戶對 Universal-1 的輸出更為偏好，具有代碼轉換能力等。

Azure AI Studio - 語音服務

Azure AI Studio 語音服務

Azure AI Studio是微軟Azure提供的一套人工智能服務，其中包括語音服務。這些服務可能包括語音識別、語音合成、語音翻譯等功能，幫助開發者在他們的應用程序中集成語音相關的智能功能。

AV-HuBERT

AV-HuBERT是一個自監督表示學習框架，專門用於音視覺語音處理。它在LRS3音視覺語音基準測試中實現了最先進的唇讀、自動語音識別（ASR）和音視覺語音識別結果。該框架通過掩蔽多模態聚類預測來學習音視覺語音表示，並且提供了魯棒的自監督音視覺語音識別。

WhisperKit

WhisperKit是一個用於自動語音識別模型壓縮與優化的工具。它支持對模型進行壓縮和優化，並提供了詳細的性能評估數據。WhisperKit還提供了針對不同數據集和模型格式的質量保證認證，並支持本地復現測試結果。

WhisperFusion

WhisperFusion是一款基於WhisperLive和WhisperSpeech功能的產品，通過在即時語音轉文字流程中集成Mistral大型語言模型（LLM）來實現與AI的無縫對話。Whisper和LLM均經過TensorRT引擎優化，以最大程度提升性能和即時處理能力。WhisperSpeech則使用torch.compile來優化。產品定位於提供超低延遲的AI即時對話體驗。

騰訊雲語音識別ASR

騰訊雲語音識別ASR

騰訊雲語音識別(ASR)為開發者提供語音轉文字服務的最佳體驗。語音識別服務具備識別準確率高、接入便捷、性能穩定等特點。騰訊雲語音識別服務開放即時語音識別、一句話識別和錄音文件識別三種服務形式,滿足不同類型開發者需求。技術先進,性價比高,多語種支持,適用於客服、會議、法庭等多場景。

Whisper

Whisper 是一個通用的語音識別模型。它經過大量多樣化音頻的訓練，並且是一個多任務模型，可以進行多語言語音識別、語音翻譯和語種識別。

SALMONN

SALMONN是由清華大學電子工程系和字節跳動開發的大型語言模型（LLM），支持語音、音頻事件和音樂輸入。與僅支持語音或音頻事件輸入的模型不同，SALMONN可以感知和理解各種音頻輸入，從而獲得多語言語音識別和翻譯以及音頻-語音共推理等新興能力。這可以被視為給予LLM“聽覺”和認知聽覺能力，使SALMONN成為通向具有聽覺能力的人工通用智能的一步。

Whisper Turbo

Whisper Turbo旨在成為OpenAI Whisper API的替代品。它由3部分組成:一個兼容層,用於輸入不同格式的音頻文件並轉換為Whisper兼容格式;開發者友好的API,支持一次性推理和流式模式;以及Rust + WebGPU推理框架Rumble,專門用於跨平臺快速推理。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase