語音翻譯

# 語音翻譯

Hibiki

Hibiki 是一款專注於流式語音翻譯的先進模型。它通過即時積累足夠的上下文信息來逐塊生成正確的翻譯，支持語音和文本翻譯，並可進行聲音轉換。該模型基於多流架構，能夠同時處理源語音和目標語音，生成連續的音頻流和時間戳文本翻譯。其主要優點包括高保真語音轉換、低延遲即時翻譯以及對複雜推理策略的兼容性。Hibiki 目前支持法語到英語的翻譯，適合需要高效即時翻譯的場景，如國際會議、多語言直播等。模型開源免費，適合開發者和研究人員使用。

TransVIP

TransVIP是由微軟研究院開發的一個創新的語音到語音翻譯系統，它能夠在翻譯過程中保留說話者的聲音特徵和等時性（即說話的節奏和停頓），這對於視頻配音等場景非常有用。TransVIP通過聯合概率實現端到端的推理，同時利用不同的數據集進行級聯處理。該技術的主要優點包括高適應性、聲音特徵保留以及等時性保持，這使得它在多語言交流和內容本地化領域具有重要價值。

ultravox-v0_4_1-mistral-nemo

Ultravox V0 4 1 Mistral Nemo

ultravox-v0_4_1-mistral-nemo是一個基於預訓練的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模態語音大型語言模型（LLM）。該模型能夠同時處理語音和文本輸入，例如，一個文本系統提示和一個語音用戶消息。Ultravox通過特殊的<|audio|>偽標記將輸入音頻轉換為嵌入，並生成輸出文本。未來版本計劃擴展標記詞彙以支持生成語義和聲學音頻標記，進而可以輸入到聲碼器中產生語音輸出。該模型由Fixie.ai開發，採用MIT許可。

ultravox-v0_4_1-llama-3_1-8b

Ultravox V0 4 1 Llama 3 1 8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一個基於預訓練的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型語言模型，能夠處理語音和文本輸入，生成文本輸出。該模型通過特殊的<|audio|>偽標記將輸入音頻轉換為嵌入，並生成輸出文本。未來版本計劃擴展標記詞彙以支持生成語義和聲學音頻標記，進而可以用於聲碼器產生語音輸出。該模型在翻譯評估中表現出色，且沒有偏好調整，適用於語音代理、語音到語音翻譯、語音分析等場景。

DeepL Voice

DeepL Voice是一款提供即時、安全的語音翻譯產品，旨在幫助全球團隊打破語言障礙，實現無縫溝通。它利用先進的人工智能技術，提供高質量的語音翻譯服務，支持多種語言，並集成到多種平臺中，如Microsoft Teams。DeepL Voice的主要優點包括低延遲、高性能的翻譯，無與倫比的翻譯質量，以及以安全為核心的設計理念。

Whisper large-v3-turbo

Whisper Large V3 Turbo

Whisper large-v3-turbo是OpenAI提出的一種先進的自動語音識別(ASR)和語音翻譯模型。它在超過500萬小時的標記數據上進行訓練，能夠在零樣本設置中泛化到許多數據集和領域。該模型是Whisper large-v3的微調版本，解碼層從32減少到4，以提高速度，但可能會略微降低質量。

Voice Engine

Voice Engine是一種先進的語音合成模型,它僅需15秒的語音樣本,便能生成與原始說話人極為相似的自然語音。該模型廣泛應用於教育、娛樂、醫療等領域,可為非讀寫人群提供朗讀輔助、為視頻和播客內容翻譯語音、為非語言人群賦予獨特語音等。其顯著優勢在於所需語音樣本少、生成語音質量高、支持多語種。Voice Engine目前處於小規模預覽階段,OpenAI正在與各界人士探討其潛在應用和倫理挑戰。

米可智能

米可智能是由人工智能驅動的一站式語音翻譯、音色定製、配音等音視頻服務。它通過 AI 技術將複雜操作極致簡化，提高工作效率超過 90%。功能包括語音翻譯，將音視頻的語音翻譯為其他語言的語音，全流程 AI 驅動，精準度超過 98%；音色定製，定製個性化的音色，用於語音翻譯、配音等功能；語音合成，將文字轉為自然生動的語音。產品定價合理，使用場景廣泛，適用於跨境市場營銷、教育、媒體等領域。

Byrdhouse

Byrdhouse提供基於AI的即時語音翻譯和字幕翻譯,支持100多種語言,可用於你的會議、通話和聊天。Byrdhouse讓我們不再為即時翻譯操心,讓你可以專注於與全球團隊和國際合作夥伴的溝通協作。通過Byrdhouse,參會者無需筆記就可以投入到對話中。還可以獲得不同語言的會議記錄和文字記錄。Byrdhouse幫助建立一個包容的文化,讓每一個人的聲音都能被傾聽,無論你說什麼語言。

TurnVoice

TurnVoice 是一個命令行工具，可以轉換和翻譯 YouTube 視頻中的聲音。它提供了語音轉換和語音翻譯的功能，可以替換特定的發言人聲音，支持本地文件處理，並保留原始背景音頻。該工具使用了多個語音合成引擎，並支持多種語言。TurnVoice 適用於各種場景，如創意視頻製作、語音翻譯等。該產品目前處於開發階段，支持的功能和定價等詳細信息請參考官方網站。

Whisper

Whisper 是一個通用的語音識別模型。它經過大量多樣化音頻的訓練，並且是一個多任務模型，可以進行多語言語音識別、語音翻譯和語種識別。

Recty AI

智能翻譯是一款功能強大的翻譯工具，能夠快速準確地將文本、語音進行翻譯。具有即時翻譯、離線翻譯、語音轉文本等功能。同時支持多種語言互譯，為用戶提供便捷的國際交流工具。定價靈活，提供免費和付費套餐供選擇。定位於個人用戶、學生、商務人士等。

Speech Studio

Azure AI Speech Studio是一個語音服務平臺，提供語音轉文本、文本轉語音等功能。它可以幫助應用實現語音聆聽、理解和交流的能力。Speech Studio提供了多種語音功能，包括語音轉文本、即時語音轉文本、批處理語音轉文本、自定義語音識別、語音翻譯、文本轉語音等。用戶可以根據自己的需求選擇合適的功能，並通過示例代碼快速上手。Speech Studio還提供了學習資源，包括文檔、快速入門指南、Microsoft 問答和Microsoft Learn等。

開發與工具

訊飛聽見

訊飛聽見是智慧辦公服務平臺，提供語音轉文字、錄音整理、語音翻譯等服務，致力於提高辦公效率。支持快速轉錄音頻、視頻為文字，提供 AI 寫作、同傳、翻譯等功能。

語音轉文本

Spotify Voice Translation

Spotify Voice Translation

Spotify最近推出了語音翻譯功能,可以將播客內容翻譯成其他語言,同時保留原主播的語音風格。這項由Spotify自主研發的技術,利用了OpenAI最新推出的語音生成技術,可以匹配原主播的語調語氣,提供更逼真自然的翻譯體驗。這使得原本只有英語版本的播客,現在可以以其他語言提供給全球用戶,如西班牙語、法語和德語等。

SeamlessM4T

SeamlessM4T是一款基於多模態模型的語音翻譯產品，支持近100種語言的自動語音識別、語音翻譯、文本翻譯、語音合成等功能。該產品採用了全新的多任務UnitY模型架構，能夠直接生成翻譯文本和語音。SeamlessM4T的自我監督語音編碼器w2v-BERT 2.0通過分析數百萬小時的多語言語音，學習如何在語音中找到結構和意義。該產品還提供了SONAR、SpeechLASER等多語言語音和文本數據集，以及fairseq2等序列建模工具包。SeamlessM4T的發佈，標誌著AI技術在實現語音翻譯方面取得了重大突破。

訊飛智能翻譯

訊飛智能翻譯

訊飛智能翻譯是一款快速準確、穩定可靠的人工智能翻譯平臺。支持文檔翻譯、文本翻譯、語音翻譯和圖片翻譯等多種功能。通過23種文檔格式的支持，保留原版格式樣式和排版，支持文檔內圖片翻譯。覆蓋140種語種互譯，支持源語言語種自動檢測，實現快速翻譯。結合訊飛先進的語音識別和翻譯技術，滿足跨語言的溝通交流。輸入圖片，即可快速識別圖片中的文本內容，進行翻譯。提供SaaS、私有化部署和API接口等多種解決方案，滿足不同企業的需求。

Speakshift.ai

SpeakShift是一款即時語音翻譯產品，通過連接全球人們，打破語言障礙。用戶可以在SpeakShift上進行即時語音翻譯，實現無縫溝通。SpeakShift的主要功能包括語音識別、翻譯、語音合成等。其優勢在於高精度的翻譯效果和快速的響應速度。SpeakShift提供不同的定價方案供用戶選擇，並且適用於各種場景，包括旅行、商務、教育等。使用SpeakShift，用戶可以輕鬆地與世界各地的人交流，打破語言壁壘。

Interpre-X (Beta)

Interpre X (Beta)

Interpre-X 是一款即時語音翻譯工具，支持10多種語言，幫助用戶在任何地方打破語言障礙。通過最先進的人工智能技術，提供語音到語音、語音到文字、文字到語音和文字到文字的翻譯服務。無需額外設備，只需良好的網絡連接即可使用。Interpre-X 提供高質量的翻譯，以自然、人類質量的聲音和準確的口音進行播放。適用於社交、旅行、觀看電視、學習語言以及與不同語言的朋友交流等場景。現已推出beta版，歡迎試用。

No Prompt GPT

智能翻譯助手是一款功能強大的多語言翻譯工具。它可以幫助用戶輕鬆實現各種語言之間的翻譯，包括文字、語音和圖片翻譯。該助手支持多種語言，具有高精度和快速的翻譯效果。用戶可以通過輸入文字、拍照或錄音來進行翻譯，還可以保存翻譯記錄和設置常用語言對。智能翻譯助手提供簡單易用的界面和便捷的操作方式，使用戶在任何場景下都能輕鬆進行多語言翻譯。

Dubbify

Dubbify是一款使視頻翻譯變得簡單、快速和準確的工具。我們支持57種語言的內容輸入，並提供20種語言的人工智能語音翻譯。無論您是單獨使用我們的服務還是通過API集成，我們都能滿足您的需求。歡迎註冊即可獲得5美元的免費額度。

Speechlab

SpeechLab是一款桌面客戶端，提供語音翻譯和語音合成功能。它能夠幫助用戶進行語音翻譯，將語言轉換成其他語言，同時還能夠合成語音，將文字轉換成自然流暢的語音。SpeechLab的優勢在於其高質量的語音合成技術，可以生成與人類聲音相似的合成語音。SpeechLab的定價為免費試用和付費訂閱兩種方式，具體定價可在官方網站上查看。SpeechLab定位於幫助用戶跨越語言障礙，使內容在全球範圍內更容易獲得。

langswap

使用我們的算法，將視頻翻譯成其他語言，保留原始聲音，無需重新錄製。節省時間和預算，讓您的視頻在國際市場上展示。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase