語音識別

# 語音識別

Transcribe Video & Audio to Text Free Online

Transcribe Video & Audio To Text Free Online

Videotowords AI 是一種先進的語音轉文本工具，通過人工智能技術實現音頻和視頻的準確轉錄。其主要優點包括超高準確率、支持多種語言、快速轉錄速度和安全可靠。定位於為用戶提供快速、高效、準確的音頻和視頻轉錄服務。

視頻轉文本

Speechly

Speechly是一款旨在將您的語音轉化為結構化的電子郵件的工具，無需手動輸入，即可輕鬆獲得清晰易讀的信息，支持多達100種語言。

Unmute

Unmute 是一款創新的語音識別與合成工具，旨在使用戶能夠通過自然語言與 AI 進行高效的互動。其低延遲技術確保用戶體驗流暢，適合需要即時反饋的場景。該產品將以開源形式發佈，推動更多開發者和用戶的參與。當前尚未公佈價格，預計將採取免費和付費相結合的模式。

文本轉語音

Kimi-Audio

Kimi-Audio 是一個先進的開源音頻基礎模型，旨在處理多種音頻處理任務，如語音識別和音頻對話。該模型在超過 1300 萬小時的多樣化音頻數據和文本數據上進行了大規模預訓練，具有強大的音頻推理和語言理解能力。它的主要優點包括優秀的性能和靈活性，適合研究人員和開發者進行音頻相關的研究與開發。

Amazon Nova Sonic

Amazon Nova Sonic

Amazon Nova Sonic 是一款前沿的基礎模型，能夠整合語音理解和生成，提升人機對話的自然流暢度。該模型克服了傳統語音應用中的複雜性，通過統一的架構實現更深層次的交流理解，適用於多個行業的 AI 應用，具有重要的商業價值。隨著人工智能技術的不斷發展，Nova Sonic 將為客戶提供更好的語音交互體驗，提升服務效率。

音刻轉錄是一款專注於音視頻轉錄的在線工具，通過先進的語音識別技術，能夠快速將音頻或視頻文件轉換為文本。其主要優點包括轉錄速度快、準確率高、支持多種語言和文件格式。產品定位為高效辦公和學習輔助工具，旨在幫助用戶節省時間和精力，提升工作效率。音刻轉錄提供免費試用版本，用戶可以體驗其核心功能，付費版本則提供更多高級功能和大文件支持，滿足不同用戶的需求。

語音轉文本

DuRT

DuRT 是一款專注於 macOS 系統的語音識別和翻譯工具。它通過本地 AI 模型和系統服務實現語音的即時識別與翻譯，支持多種語音識別方法，提高了識別的準確度和語言支持範圍。該產品以懸浮框形式展示結果，方便用戶在使用過程中快速獲取信息。其主要優點包括高準確度、隱私保護（不收集用戶信息）以及便捷的操作體驗。DuRT 定位為一款高效生產力工具，旨在幫助用戶在多語言環境下更高效地進行溝通和工作。目前產品可在 Mac App Store 下載，具體價格未在頁面中明確提及。

ElevenLabs Scribe

Elevenlabs Scribe

Scribe 是由 ElevenLabs 開發的高精度語音轉文字模型，旨在處理真實世界音頻的不可預測性。它支持99種語言，提供單詞級時間戳、說話人分離和音頻事件標記等功能。Scribe 在 FLEURS 和 Common Voice 基準測試中表現卓越，超越了 Gemini 2.0 Flash、Whisper Large V3 和 Deepgram Nova-3 等領先模型。它顯著降低了傳統服務不足語言（如塞爾維亞語、粵語和馬拉雅拉姆語）的錯誤率，這些語言在競爭模型中的錯誤率通常超過40%。Scribe 提供 API 接口供開發者集成，並將推出低延遲版本以支持即時應用。

Phi-4-multimodal-instruct

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct 是微軟開發的多模態基礎模型，支持文本、圖像和音頻輸入，生成文本輸出。該模型基於Phi-3.5和Phi-4.0的研究和數據集構建，經過監督微調、直接偏好優化和人類反饋強化學習等過程，以提高指令遵循能力和安全性。它支持多種語言的文本、圖像和音頻輸入，具有128K的上下文長度，適用於多種多模態任務，如語音識別、語音翻譯、視覺問答等。該模型在多模態能力上取得了顯著提升，尤其在語音和視覺任務上表現出色。它為開發者提供了強大的多模態處理能力，可用於構建各種多模態應用。

FireRedASR-AED-L

Fireredasr AED L

FireRedASR-AED-L 是一個開源的工業級自動語音識別模型，專為滿足高效率和高性能的語音識別需求而設計。該模型採用基於注意力的編碼器-解碼器架構，支持普通話、中文方言和英語等多種語言。它在公共普通話語音識別基準測試中達到了新的最高水平，並且在歌唱歌詞識別方面表現出色。該模型的主要優點包括高性能、低延遲和廣泛的適用性，適用於各種語音交互場景。其開源特性使得開發者可以自由地使用和修改代碼，進一步推動語音識別技術的發展。

FireRedASR

FireRedASR 是一個開源的工業級普通話自動語音識別模型，採用 Encoder-Decoder 和 LLM 集成架構。它包含兩個變體：FireRedASR-LLM 和 FireRedASR-AED，分別針對高性能和高效能需求設計。該模型在普通話基準測試中表現出色，同時在方言和英文語音識別上也有良好表現。它適用於需要高效語音轉文字的工業級應用，如智能助手、視頻字幕生成等。模型開源，便於開發者集成和優化。

Bulletpen

Bulletpen是一款創新的AI寫作應用，旨在幫助用戶將口頭表達轉化為高質量的書面文本。它通過語音識別和自然語言處理技術，將用戶的口語內容進行優化和潤色，生成結構清晰、語言流暢的書面文本。該產品的主要優點是能夠顯著提高寫作效率，尤其適合那些在寫作時感到困難或缺乏靈感的用戶。Bulletpen由17歲的高中生Rexan Wong開發，目標是為學生、作家和內容創作者提供一個簡單易用的寫作輔助工具。它提供免費和付費兩種計劃，滿足不同用戶的需求。

Whisper Turbo.online

Whisper Turbo.online

Whisper Turbo 是基於 Whisper Large-v3 模型優化的語音識別工具，專為快速語音轉錄而設計。它利用先進的 AI 技術，能夠高效地將不同音頻源的語音轉換為文本，支持多種語言和口音。該工具免費提供給用戶，旨在幫助人們節省時間和精力，提高工作效率。其主要面向需要快速準確轉錄語音內容的用戶，如博主、內容創作者、企業等，為他們提供便捷的語音轉文字解決方案。

RealtimeSTT

RealtimeSTT是一個開源的語音識別模型，能夠即時將語音轉換為文本。它使用了先進的語音活動檢測技術，可以自動檢測語音的開始和結束，無需手動操作。此外，它還支持喚醒詞激活功能，用戶可以通過說出特定的喚醒詞來啟動語音識別。該模型具有低延遲、高效率的特點，適合需要即時語音轉錄的應用場景，如語音助手、會議記錄等。它基於Python開發，易於集成和使用，且在GitHub上開源，社區活躍，不斷有新的更新和改進。

xiaozhi-esp32

xiaozhi-esp32 是一個開源的 AI 聊天機器人項目，基於樂鑫的 ESP-IDF 開發。它將大語言模型與硬件設備相結合，使用戶能夠打造出個性化的 AI 伴侶。項目支持多種語言的語音識別與對話，具備聲紋識別功能，能夠識別不同用戶的語音特徵。其開源特性降低了 AI 硬件開發的門檻，為學生、開發者等群體提供了寶貴的學習資源，有助於推動 AI 技術在硬件領域的應用與創新。項目目前免費開源，適合不同層次的開發者進行學習與二次開發。

聊天機器人

通義瀏覽器插件

通義瀏覽器插件

通義是一款集成了語音識別、即時字幕翻譯、智能總結等功能的瀏覽器插件，旨在提高用戶在網課、追劇追番、線上會議等場景下的效率。它通過AI技術，幫助用戶快速記錄、轉寫、翻譯和總結網頁內容，特別適合需要處理大量信息的用戶。產品背景基於當前信息爆炸的時代，用戶需要更高效的工具來管理、理解和消化信息。目前產品提供免費試用，具體價格和定位根據用戶需求而定。

Robo Blogger

Robo Blogger是一個專注於將語音轉換為博客文章的人工智能助手。它通過捕捉自然語言中的創意，將其結構化為有條理的博客內容，同時可以結合參考資料以確保文章的準確性和深度。這個工具基於之前Report mAIstro項目的概念，專為博客文章創作優化。通過分離創意捕捉和內容結構化，Robo Blogger幫助保持原始想法的真實性，同時確保專業呈現。

Moonshine Web

Moonshine Web是一個基於React和Vite構建的簡單應用，它運行了Moonshine Base，這是一個針對快速準確自動語音識別（ASR）優化的強大語音識別模型，適用於資源受限的設備。該應用在瀏覽器端本地運行，使用Transformers.js和WebGPU加速（或WASM作為備選）。它的重要性在於能夠為用戶提供一個無需服務器即可在本地進行語音識別的解決方案，這對於需要快速處理語音數據的應用場景尤為重要。

OmniAudio-2.6B

OmniAudio-2.6B是一個2.6B參數的多模態模型，能夠無縫處理文本和音頻輸入。該模型結合了Gemma-2B、Whisper turbo和一個自定義投影模塊，與傳統的將ASR和LLM模型串聯的方法不同，它將這兩種能力統一在一個高效的架構中，以最小的延遲和資源開銷實現。這使得它能夠安全、快速地在智能手機、筆記本電腦和機器人等邊緣設備上直接處理音頻文本。

Megrez-3B-Omni

Megrez-3B-Omni是由無問芯穹研發的端側全模態理解模型，基於大語言模型Megrez-3B-Instruct擴展，具備圖片、文本、音頻三種模態數據的理解分析能力。該模型在圖像理解、語言理解、語音理解方面均取得最優精度，支持中英文語音輸入及多輪對話，支持對輸入圖片的語音提問，根據語音指令直接響應文本，在多項基準任務上取得了領先的結果。

Shortcut by Poised

Shortcut By Poised

Shortcut by Poised是一個基於語音的AI助手，旨在通過自然對話的方式提升用戶的工作效率。它允許用戶通過語音輸入快速獲得答案、整理思路、起草消息、電子郵件和文檔，同時保持工作流程的連貫性。產品通過AI技術將自然語言轉換為精煉的文本，並提供多種語言風格選項，滿足不同場合的需求。Shortcut by Poised的背景信息顯示，它在Product Hunt上發佈，並即將推出Windows和移動應用版本，目前Mac版本已可下載。

Coval

Coval是一個專注於AI代理測試和評估的平臺，旨在通過模擬和評估來提高AI代理的可靠性和效率。該平臺由自主測試領域的專家構建，支持語音和聊天代理的測試，並提供全面的評估報告，幫助用戶優化AI代理的性能。Coval的主要優點包括簡化測試流程、提供AI驅動的模擬、兼容語音AI，以及提供詳細的性能分析。產品背景信息顯示，Coval旨在幫助企業快速、可靠地部署AI代理，提高客戶服務的質量和效率。Coval提供三種定價計劃，滿足不同規模企業的需求。

開發與工具

whisper-ner-v1

Whisper-NER是一個創新的模型，它允許同時進行語音轉錄和實體識別。該模型支持開放類型的命名實體識別（NER），能夠識別多樣化和不斷演變的實體。Whisper-NER旨在作為自動語音識別（ASR）和NER下游任務的強大基礎模型，並且可以在特定數據集上進行微調以提高性能。

ultravox-v0_4_1-mistral-nemo

Ultravox V0 4 1 Mistral Nemo

ultravox-v0_4_1-mistral-nemo是一個基於預訓練的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模態語音大型語言模型（LLM）。該模型能夠同時處理語音和文本輸入，例如，一個文本系統提示和一個語音用戶消息。Ultravox通過特殊的<|audio|>偽標記將輸入音頻轉換為嵌入，並生成輸出文本。未來版本計劃擴展標記詞彙以支持生成語義和聲學音頻標記，進而可以輸入到聲碼器中產生語音輸出。該模型由Fixie.ai開發，採用MIT許可。

ultravox-v0_4_1-llama-3_1-70b

Ultravox V0 4 1 Llama 3 1 70b

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一個基於預訓練的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型語言模型，能夠處理語音和文本輸入，生成文本輸出。該模型通過特殊偽標記<|audio|>將輸入音頻轉換為嵌入，並與文本提示合併後生成輸出文本。Ultravox的開發旨在擴展語音識別和文本生成的應用場景，如語音代理、語音到語音翻譯和口語音頻分析等。該模型遵循MIT許可，由Fixie.ai開發。

ultravox-v0_4_1-llama-3_1-8b

Ultravox V0 4 1 Llama 3 1 8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一個基於預訓練的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型語言模型，能夠處理語音和文本輸入，生成文本輸出。該模型通過特殊的<|audio|>偽標記將輸入音頻轉換為嵌入，並生成輸出文本。未來版本計劃擴展標記詞彙以支持生成語義和聲學音頻標記，進而可以用於聲碼器產生語音輸出。該模型在翻譯評估中表現出色，且沒有偏好調整，適用於語音代理、語音到語音翻譯、語音分析等場景。

Ultravox.ai

Ultravox.ai是一個先進的語音語言模型（SLM），直接處理語音，無需轉換為文本，實現更自然、流暢的對話。它支持多語言，易於適應新語言或口音，確保與不同受眾的順暢溝通。產品背景信息顯示，Ultravox.ai是一個開源模型，用戶可以根據自己的需求進行定製和部署，價格為每分鐘5美分。

自然語言處理

卡卡字幕助手

卡卡字幕助手

卡卡字幕助手（VideoCaptioner）是一款功能強大的視頻字幕配製軟件，利用大語言模型進行字幕智能斷句、校正、優化、翻譯，實現字幕視頻全流程一鍵處理。產品無需高配置，操作簡單，內置基礎LLM模型，保證開箱即用，且消耗模型Token少，適合視頻製作者和內容創作者。

Najva

Najva是一款專為Mac設計的AI驅動的語音助手，它結合了先進的本地語音識別技術和強大的AI模型，將您的語音轉換成智能文本。這款應用特別適合那些思維速度比打字速度快的用戶，如作家、開發者、醫療專業人員等。Najva以其輕量級、原生Swift應用、零追蹤和完全免費等特點，為用戶提供了一個注重隱私和效率的工作流程解決方案。

hertz-dev

hertz-dev是Standard Intelligence開源的全雙工、僅音頻的變換器基礎模型，擁有85億參數。該模型代表了可擴展的跨模態學習技術，能夠將單聲道16kHz語音轉換為8Hz潛在表示，具有1kbps的比特率，性能優於其他音頻編碼器。hertz-dev的主要優點包括低延遲、高效率和易於研究人員進行微調和構建。產品背景信息顯示，Standard Intelligence致力於構建對全人類有益的通用智能，而hertz-dev是這一旅程的第一步。

模型訓練與部署

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase