
Hibiki
Hibiki 是一款專注於流式語音翻譯的先進模型。它通過即時積累足夠的上下文信息來逐塊生成正確的翻譯,支持語音和文本翻譯,並可進行聲音轉換。該模型基於多流架構,能夠同時處理源語音和目標語音,生成連續的音頻流和時間戳文本翻譯。其主要優點包括高保真語音轉換、低延遲即時翻譯以及對複雜推理策略的兼容性。Hibiki 目前支持法語到英語的翻譯,適合需要高效即時翻譯的場景,如國際會議、多語言直播等。模型開源免費,適合開發者和研究人員使用。
翻譯
59.3K
優質新品

Transvip
TransVIP是由微軟研究院開發的一個創新的語音到語音翻譯系統,它能夠在翻譯過程中保留說話者的聲音特徵和等時性(即說話的節奏和停頓),這對於視頻配音等場景非常有用。TransVIP通過聯合概率實現端到端的推理,同時利用不同的數據集進行級聯處理。該技術的主要優點包括高適應性、聲音特徵保留以及等時性保持,這使得它在多語言交流和內容本地化領域具有重要價值。
聲音保留
75.6K

Ultravox V0 4 1 Mistral Nemo
ultravox-v0_4_1-mistral-nemo是一個基於預訓練的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模態語音大型語言模型(LLM)。該模型能夠同時處理語音和文本輸入,例如,一個文本系統提示和一個語音用戶消息。Ultravox通過特殊的<|audio|>偽標記將輸入音頻轉換為嵌入,並生成輸出文本。未來版本計劃擴展標記詞彙以支持生成語義和聲學音頻標記,進而可以輸入到聲碼器中產生語音輸出。該模型由Fixie.ai開發,採用MIT許可。
語音翻譯
48.6K

Ultravox V0 4 1 Llama 3 1 8b
fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一個基於預訓練的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型語言模型,能夠處理語音和文本輸入,生成文本輸出。該模型通過特殊的<|audio|>偽標記將輸入音頻轉換為嵌入,並生成輸出文本。未來版本計劃擴展標記詞彙以支持生成語義和聲學音頻標記,進而可以用於聲碼器產生語音輸出。該模型在翻譯評估中表現出色,且沒有偏好調整,適用於語音代理、語音到語音翻譯、語音分析等場景。
語音翻譯
50.2K
國外精選

Deepl Voice
DeepL Voice是一款提供即時、安全的語音翻譯產品,旨在幫助全球團隊打破語言障礙,實現無縫溝通。它利用先進的人工智能技術,提供高質量的語音翻譯服務,支持多種語言,並集成到多種平臺中,如Microsoft Teams。DeepL Voice的主要優點包括低延遲、高性能的翻譯,無與倫比的翻譯質量,以及以安全為核心的設計理念。
人工智能
66.2K
優質新品

Whisper Large V3 Turbo
Whisper large-v3-turbo是OpenAI提出的一種先進的自動語音識別(ASR)和語音翻譯模型。它在超過500萬小時的標記數據上進行訓練,能夠在零樣本設置中泛化到許多數據集和領域。該模型是Whisper large-v3的微調版本,解碼層從32減少到4,以提高速度,但可能會略微降低質量。
AI語音識別
106.0K

Voice Engine
Voice Engine是一種先進的語音合成模型,它僅需15秒的語音樣本,便能生成與原始說話人極為相似的自然語音。該模型廣泛應用於教育、娛樂、醫療等領域,可為非讀寫人群提供朗讀輔助、為視頻和播客內容翻譯語音、為非語言人群賦予獨特語音等。其顯著優勢在於所需語音樣本少、生成語音質量高、支持多語種。Voice Engine目前處於小規模預覽階段,OpenAI正在與各界人士探討其潛在應用和倫理挑戰。
AI語音合成
172.2K

米可智能
米可智能是由人工智能驅動的一站式語音翻譯、音色定製、配音等音視頻服務。它通過 AI 技術將複雜操作極致簡化,提高工作效率超過 90%。功能包括語音翻譯,將音視頻的語音翻譯為其他語言的語音,全流程 AI 驅動,精準度超過 98%;音色定製,定製個性化的音色,用於語音翻譯、配音等功能;語音合成,將文字轉為自然生動的語音。產品定價合理,使用場景廣泛,適用於跨境市場營銷、教育、媒體等領域。
翻譯
322.4K

Byrdhouse
Byrdhouse提供基於AI的即時語音翻譯和字幕翻譯,支持100多種語言,可用於你的會議、通話和聊天。Byrdhouse讓我們不再為即時翻譯操心,讓你可以專注於與全球團隊和國際合作夥伴的溝通協作。通過Byrdhouse,參會者無需筆記就可以投入到對話中。還可以獲得不同語言的會議記錄和文字記錄。Byrdhouse幫助建立一個包容的文化,讓每一個人的聲音都能被傾聽,無論你說什麼語言。
翻譯
322.1K

Turnvoice
TurnVoice 是一個命令行工具,可以轉換和翻譯 YouTube 視頻中的聲音。它提供了語音轉換和語音翻譯的功能,可以替換特定的發言人聲音,支持本地文件處理,並保留原始背景音頻。該工具使用了多個語音合成引擎,並支持多種語言。TurnVoice 適用於各種場景,如創意視頻製作、語音翻譯等。該產品目前處於開發階段,支持的功能和定價等詳細信息請參考官方網站。
AI視頻編輯
101.3K

Whisper
Whisper 是一個通用的語音識別模型。它經過大量多樣化音頻的訓練,並且是一個多任務模型,可以進行多語言語音識別、語音翻譯和語種識別。
AI語音識別
154.6K

Recty AI
智能翻譯是一款功能強大的翻譯工具,能夠快速準確地將文本、語音進行翻譯。具有即時翻譯、離線翻譯、語音轉文本等功能。同時支持多種語言互譯,為用戶提供便捷的國際交流工具。定價靈活,提供免費和付費套餐供選擇。定位於個人用戶、學生、商務人士等。
AI翻譯
60.7K

Speech Studio
Azure AI Speech Studio是一個語音服務平臺,提供語音轉文本、文本轉語音等功能。它可以幫助應用實現語音聆聽、理解和交流的能力。Speech Studio提供了多種語音功能,包括語音轉文本、即時語音轉文本、批處理語音轉文本、自定義語音識別、語音翻譯、文本轉語音等。用戶可以根據自己的需求選擇合適的功能,並通過示例代碼快速上手。Speech Studio還提供了學習資源,包括文檔、快速入門指南、Microsoft 問答和Microsoft Learn等。
開發與工具
120.9K
中文精選

訊飛聽見
訊飛聽見是智慧辦公服務平臺,提供語音轉文字、錄音整理、語音翻譯等服務,致力於提高辦公效率。支持快速轉錄音頻、視頻為文字,提供 AI 寫作、同傳、翻譯等功能。
語音轉文本
166.4K

Spotify Voice Translation
Spotify最近推出了語音翻譯功能,可以將播客內容翻譯成其他語言,同時保留原主播的語音風格。這項由Spotify自主研發的技術,利用了OpenAI最新推出的語音生成技術,可以匹配原主播的語調語氣,提供更逼真自然的翻譯體驗。這使得原本只有英語版本的播客,現在可以以其他語言提供給全球用戶,如西班牙語、法語和德語等。
AI翻譯
78.4K

Seamlessm4t
SeamlessM4T是一款基於多模態模型的語音翻譯產品,支持近100種語言的自動語音識別、語音翻譯、文本翻譯、語音合成等功能。該產品採用了全新的多任務UnitY模型架構,能夠直接生成翻譯文本和語音。SeamlessM4T的自我監督語音編碼器w2v-BERT 2.0通過分析數百萬小時的多語言語音,學習如何在語音中找到結構和意義。該產品還提供了SONAR、SpeechLASER等多語言語音和文本數據集,以及fairseq2等序列建模工具包。SeamlessM4T的發佈,標誌著AI技術在實現語音翻譯方面取得了重大突破。
AI翻譯
62.9K
中文精選

訊飛智能翻譯
訊飛智能翻譯是一款快速準確、穩定可靠的人工智能翻譯平臺。支持文檔翻譯、文本翻譯、語音翻譯和圖片翻譯等多種功能。通過23種文檔格式的支持,保留原版格式樣式和排版,支持文檔內圖片翻譯。覆蓋140種語種互譯,支持源語言語種自動檢測,實現快速翻譯。結合訊飛先進的語音識別和翻譯技術,滿足跨語言的溝通交流。輸入圖片,即可快速識別圖片中的文本內容,進行翻譯。提供SaaS、私有化部署和API接口等多種解決方案,滿足不同企業的需求。
翻譯
115.4K

Speakshift.ai
SpeakShift是一款即時語音翻譯產品,通過連接全球人們,打破語言障礙。用戶可以在SpeakShift上進行即時語音翻譯,實現無縫溝通。SpeakShift的主要功能包括語音識別、翻譯、語音合成等。其優勢在於高精度的翻譯效果和快速的響應速度。SpeakShift提供不同的定價方案供用戶選擇,並且適用於各種場景,包括旅行、商務、教育等。使用SpeakShift,用戶可以輕鬆地與世界各地的人交流,打破語言壁壘。
翻譯
68.7K

Interpre X (Beta)
Interpre-X 是一款即時語音翻譯工具,支持10多種語言,幫助用戶在任何地方打破語言障礙。通過最先進的人工智能技術,提供語音到語音、語音到文字、文字到語音和文字到文字的翻譯服務。無需額外設備,只需良好的網絡連接即可使用。Interpre-X 提供高質量的翻譯,以自然、人類質量的聲音和準確的口音進行播放。適用於社交、旅行、觀看電視、學習語言以及與不同語言的朋友交流等場景。現已推出beta版,歡迎試用。
翻譯
59.1K

No Prompt GPT
智能翻譯助手是一款功能強大的多語言翻譯工具。它可以幫助用戶輕鬆實現各種語言之間的翻譯,包括文字、語音和圖片翻譯。該助手支持多種語言,具有高精度和快速的翻譯效果。用戶可以通過輸入文字、拍照或錄音來進行翻譯,還可以保存翻譯記錄和設置常用語言對。智能翻譯助手提供簡單易用的界面和便捷的操作方式,使用戶在任何場景下都能輕鬆進行多語言翻譯。
翻譯
82.5K

Dubbify
Dubbify是一款使視頻翻譯變得簡單、快速和準確的工具。我們支持57種語言的內容輸入,並提供20種語言的人工智能語音翻譯。無論您是單獨使用我們的服務還是通過API集成,我們都能滿足您的需求。歡迎註冊即可獲得5美元的免費額度。
翻譯
64.9K

Speechlab
SpeechLab是一款桌面客戶端,提供語音翻譯和語音合成功能。它能夠幫助用戶進行語音翻譯,將語言轉換成其他語言,同時還能夠合成語音,將文字轉換成自然流暢的語音。SpeechLab的優勢在於其高質量的語音合成技術,可以生成與人類聲音相似的合成語音。SpeechLab的定價為免費試用和付費訂閱兩種方式,具體定價可在官方網站上查看。SpeechLab定位於幫助用戶跨越語言障礙,使內容在全球範圍內更容易獲得。
翻譯
69.6K

Langswap
使用我們的算法,將視頻翻譯成其他語言,保留原始聲音,無需重新錄製。節省時間和預算,讓您的視頻在國際市場上展示。
視頻編輯
71.2K
精選AI產品推薦
中文精選

騰訊混元圖像 2.0
騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型,顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構,使得圖像生成速度可達到毫秒級,避免了傳統生成的等待時間。同時,模型通過強化學習算法與人類美學知識的結合,提升了圖像的真實感和細節表現,適合設計師、創作者等專業用戶使用。
圖片生成
80.6K
國外精選

Lovart
Lovart 是一款革命性的 AI 設計代理,能夠將創意提示轉化為藝術作品,支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程,節省時間並提升創意靈感。Lovart 當前處於測試階段,用戶可加入等候名單,隨時體驗設計的樂趣。
AI設計工具
63.8K

Fastvlm
FastVLM 是一種高效的視覺編碼模型,專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器,減少了高分辨率圖像的編碼時間和輸出的 token 數量,使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力,適用於各種應用場景,尤其在需要快速響應的移動設備上表現優異。
AI模型
51.1K

Keysync
KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題,同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果,適用於自動配音等實際應用場景。
視頻編輯
48.3K

Manus
Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品,能夠直接交付完整的任務成果,而不僅僅是提供建議或答案。它採用 Multiple Agent 架構,運行在獨立虛擬機中,能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現,展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’,幫助用戶高效完成各種複雜任務。
個人助理
1.5M

Trae國內版
Trae是一款專為中文開發場景設計的AI原生IDE,將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能,顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白,滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具,旨在為專業開發者提供強大的技術支持,目前尚未明確公開價格,但預計會採用付費模式以匹配其高端定位。
開發與工具
137.7K
國外精選

Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M
中文精選

Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M