產品特色
估計場景中任何位置的聲音
實現新視角聲學合成
流量來源
直接訪問 | 51.61% | 外鏈引薦 | 33.46% | 郵件 | 0.04% |
自然搜索 | 12.58% | 社交媒體 | 2.19% | 展示廣告 | 0.11% |
最新流量情況
月訪問量 | 4.92m |
平均訪問時長 | 393.01 |
每次訪問頁數 | 6.11 |
跳出率 | 36.20% |
總流量趨勢圖
地理流量分佈情況
月訪問量 | 4.92m |
United States | 19.34% |
China | 13.25% |
India | 9.32% |
Russia | 4.28% |
Germany | 3.63% |
地理流量分佈全球圖
同類開源產品

Reverb
Reverb 是一個開源的語音識別和說話人分割模型推理代碼,使用 WeNet 框架進行語音識別 (ASR) 和 Pyannote 框架進行說話人分割。它提供了詳細的模型描述,並允許用戶從 Hugging Face 下載模型。Reverb 旨在為開發者和研究人員提供高質量的語音識別和說話人分割工具,以支持各種語音處理任務。
AI語音識別
優質新品

Whisper Large V3 Turbo
Whisper large-v3-turbo是OpenAI提出的一種先進的自動語音識別(ASR)和語音翻譯模型。它在超過500萬小時的標記數據上進行訓練,能夠在零樣本設置中泛化到許多數據集和領域。該模型是Whisper large-v3的微調版本,解碼層從32減少到4,以提高速度,但可能會略微降低質量。
AI語音識別

Safeear
SafeEar是一個創新的音頻深度檢測框架,它能夠在不依賴於語音內容的情況下檢測深度音頻。這個框架通過設計一個神經音頻編解碼器,將語義和聲學信息從音頻樣本中分離出來,僅使用聲學信息(如韻律和音色)進行深度檢測,從而保護了語音內容的隱私。SafeEar通過在真實世界中增強編解碼器來提高檢測器的能力,使其能夠識別各種深度音頻。該框架在四個基準數據集上的廣泛實驗表明,SafeEar在檢測各種深度技術方面非常有效,其等錯誤率(EER)低至2.02%。同時,它還能保護五種語言的語音內容不被機器和人類聽覺分析破譯,通過我們的用戶研究和單詞錯誤率(WER)均高於93.93%來證明。此外,SafeEar還構建了一個用於反深度和反內容恢復評估的基準,為未來在音頻隱私保護和深度檢測領域的研究提供了基礎。
AI音頻增強器

Omnisensevoice
OmniSenseVoice是基於SenseVoice優化的語音識別模型,專為快速推理和精確時間戳設計,提供更智能、更快速的音頻轉錄方式。
AI語音識別

Crisperwhisper
CrisperWhisper是基於OpenAI的Whisper模型的高級變體,專為快速、準確、逐字的語音識別設計,提供準確的詞級時間戳。與原始Whisper模型相比,CrisperWhisper旨在逐字轉錄每一個說出的單詞,包括填充詞、停頓、口吃和錯誤的開始。該模型在逐字數據集(如TED、AMI)中排名第一,並在INTERSPEECH 2024上被接受。
AI語音識別
優質新品

Seed ASR
Seed-ASR是由字節跳動公司開發的基於大型語言模型(Large Language Model, LLM)的語音識別模型。它通過將連續的語音表示和上下文信息輸入到LLM中,利用LLM的能力,在大規模訓練和上下文感知能力的引導下,顯著提高了在包括多個領域、口音/方言和語言的綜合評估集上的表現。與最近發佈的大型ASR模型相比,Seed-ASR在中英文公共測試集上實現了10%-40%的詞錯誤率降低,進一步證明了其強大的性能。
AI語音識別

Whisper Diarization
whisper-diarization是一個結合了Whisper自動語音識別(ASR)能力、聲音活動檢測(VAD)和說話人嵌入技術的開源項目。它通過提取音頻中的聲音部分來提高說話人嵌入的準確性,然後使用Whisper生成轉錄文本,並通過WhisperX校正時間戳和對齊,以減少由於時間偏移導致的分割錯誤。接著,使用MarbleNet進行VAD和分割以排除靜音,TitaNet用於提取說話人嵌入以識別每個段落的說話人,最後將結果與WhisperX生成的時間戳關聯,基於時間戳檢測每個單詞的說話人,並使用標點模型重新對齊以補償小的時間偏移。
AI語音識別

Sensevoicesmall
SenseVoiceSmall是一款具備多種語音理解能力的語音基礎模型,包括自動語音識別(ASR)、口語語言識別(LID)、語音情感識別(SER)和音頻事件檢測(AED)。該模型經過超過40萬小時的數據訓練,支持超過50種語言,識別性能超越Whisper模型。其小型模型SenseVoice-Small採用非自迴歸端到端框架,推理延遲極低,處理10秒音頻僅需70毫秒,比Whisper-Large快15倍。此外,SenseVoice還提供便捷的微調腳本和策略,支持多併發請求的服務部署管道,客戶端語言包括Python、C++、HTML、Java和C#等。
AI語音識別

Emilia
Emilia是一個開源的多語種野外語音數據集,專為大規模語音生成研究設計。它包含超過101,000小時的六種語言高質量語音數據和相應的文本轉錄,覆蓋了各種說話風格和內容類型,如脫口秀、訪談、辯論、體育評論和有聲書。
AI語音識別
替代品

Reverb
Reverb 是一個開源的語音識別和說話人分割模型推理代碼,使用 WeNet 框架進行語音識別 (ASR) 和 Pyannote 框架進行說話人分割。它提供了詳細的模型描述,並允許用戶從 Hugging Face 下載模型。Reverb 旨在為開發者和研究人員提供高質量的語音識別和說話人分割工具,以支持各種語音處理任務。
AI語音識別
優質新品

Whisper Large V3 Turbo
Whisper large-v3-turbo是OpenAI提出的一種先進的自動語音識別(ASR)和語音翻譯模型。它在超過500萬小時的標記數據上進行訓練,能夠在零樣本設置中泛化到許多數據集和領域。該模型是Whisper large-v3的微調版本,解碼層從32減少到4,以提高速度,但可能會略微降低質量。
AI語音識別
國外精選

Realtime API
Realtime API 是 OpenAI 推出的一款低延遲語音交互API,它允許開發者在應用程序中構建快速的語音到語音體驗。該API支持自然語音到語音對話,並可處理中斷,類似於ChatGPT的高級語音模式。它通過WebSocket連接,支持功能調用,使得語音助手能夠響應用戶請求,觸發動作或引入新上下文。該API的推出,意味著開發者不再需要組合多個模型來構建語音體驗,而是可以通過單一API調用實現自然對話體驗。
AI語音識別

Safeear
SafeEar是一個創新的音頻深度檢測框架,它能夠在不依賴於語音內容的情況下檢測深度音頻。這個框架通過設計一個神經音頻編解碼器,將語義和聲學信息從音頻樣本中分離出來,僅使用聲學信息(如韻律和音色)進行深度檢測,從而保護了語音內容的隱私。SafeEar通過在真實世界中增強編解碼器來提高檢測器的能力,使其能夠識別各種深度音頻。該框架在四個基準數據集上的廣泛實驗表明,SafeEar在檢測各種深度技術方面非常有效,其等錯誤率(EER)低至2.02%。同時,它還能保護五種語言的語音內容不被機器和人類聽覺分析破譯,通過我們的用戶研究和單詞錯誤率(WER)均高於93.93%來證明。此外,SafeEar還構建了一個用於反深度和反內容恢復評估的基準,為未來在音頻隱私保護和深度檢測領域的研究提供了基礎。
AI音頻增強器

Omnisensevoice
OmniSenseVoice是基於SenseVoice優化的語音識別模型,專為快速推理和精確時間戳設計,提供更智能、更快速的音頻轉錄方式。
AI語音識別
優質新品

Deepgram Voice Agent API
Deepgram Voice Agent API 是一個統一的語音到語音API,它允許人類和機器之間進行自然聽起來的對話。該API由行業領先的語音識別和語音合成模型提供支持,能夠自然且即時地聽、思考和說話。Deepgram致力於通過其語音代理API推動語音優先AI的未來,通過集成先進的生成AI技術,打造能夠進行流暢、類似人類語音代理的業務世界。
AI語音識別

Crisperwhisper
CrisperWhisper是基於OpenAI的Whisper模型的高級變體,專為快速、準確、逐字的語音識別設計,提供準確的詞級時間戳。與原始Whisper模型相比,CrisperWhisper旨在逐字轉錄每一個說出的單詞,包括填充詞、停頓、口吃和錯誤的開始。該模型在逐字數據集(如TED、AMI)中排名第一,並在INTERSPEECH 2024上被接受。
AI語音識別
中文精選

心辰lingo語音大模型
心辰Lingo語音大模型是一款先進的人工智能語音模型,專注於提供高效、準確的語音識別和處理服務。它能夠理解並處理自然語言,使得人機交互更加流暢和自然。該模型背後依託西湖心辰強大的AI技術,致力於在各種場景下提供高質量的語音交互體驗。
AI語音識別
優質新品

Seed ASR
Seed-ASR是由字節跳動公司開發的基於大型語言模型(Large Language Model, LLM)的語音識別模型。它通過將連續的語音表示和上下文信息輸入到LLM中,利用LLM的能力,在大規模訓練和上下文感知能力的引導下,顯著提高了在包括多個領域、口音/方言和語言的綜合評估集上的表現。與最近發佈的大型ASR模型相比,Seed-ASR在中英文公共測試集上實現了10%-40%的詞錯誤率降低,進一步證明了其強大的性能。
AI語音識別
精選AI產品推薦

Azure AI Studio 語音服務
Azure AI Studio是微軟Azure提供的一套人工智能服務,其中包括語音服務。這些服務可能包括語音識別、語音合成、語音翻譯等功能,幫助開發者在他們的應用程序中集成語音相關的智能功能。
AI語音識別
271.3K

Resemble Enhance
resemble-enhance是一個支持語音降噪與增強的AI模型,可以高效去除背景噪聲,還原語音細節,提升語音質量。該模型包含降噪模塊和增強模塊,通過深度學習算法實現語音信號與噪聲分離,以及語音品質改善。模型針對高保真44.1kHz語音進行訓練,可以輸出高品質增強語音。用戶可以通過pip安裝使用,也可以基於提供的代碼定製訓練自己的模型。該模型功能強大,使用簡單,是提升語音質量的首選方案。
AI音頻增強器
235.4K