语音翻译

# 语音翻译

Hibiki

Hibiki 是一款专注于流式语音翻译的先进模型。它通过实时积累足够的上下文信息来逐块生成正确的翻译，支持语音和文本翻译，并可进行声音转换。该模型基于多流架构，能够同时处理源语音和目标语音，生成连续的音频流和时间戳文本翻译。其主要优点包括高保真语音转换、低延迟实时翻译以及对复杂推理策略的兼容性。Hibiki 目前支持法语到英语的翻译，适合需要高效实时翻译的场景，如国际会议、多语言直播等。模型开源免费，适合开发者和研究人员使用。

TransVIP

TransVIP是由微软研究院开发的一个创新的语音到语音翻译系统，它能够在翻译过程中保留说话者的声音特征和等时性（即说话的节奏和停顿），这对于视频配音等场景非常有用。TransVIP通过联合概率实现端到端的推理，同时利用不同的数据集进行级联处理。该技术的主要优点包括高适应性、声音特征保留以及等时性保持，这使得它在多语言交流和内容本地化领域具有重要价值。

ultravox-v0_4_1-mistral-nemo

Ultravox V0 4 1 Mistral Nemo

ultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模态语音大型语言模型（LLM）。该模型能够同时处理语音和文本输入，例如，一个文本系统提示和一个语音用户消息。Ultravox通过特殊的<|audio|>伪标记将输入音频转换为嵌入，并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记，进而可以输入到声码器中产生语音输出。该模型由Fixie.ai开发，采用MIT许可。

ultravox-v0_4_1-llama-3_1-8b

Ultravox V0 4 1 Llama 3 1 8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型，能够处理语音和文本输入，生成文本输出。该模型通过特殊的<|audio|>伪标记将输入音频转换为嵌入，并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记，进而可以用于声码器产生语音输出。该模型在翻译评估中表现出色，且没有偏好调整，适用于语音代理、语音到语音翻译、语音分析等场景。

DeepL Voice

DeepL Voice是一款提供即时、安全的语音翻译产品，旨在帮助全球团队打破语言障碍，实现无缝沟通。它利用先进的人工智能技术，提供高质量的语音翻译服务，支持多种语言，并集成到多种平台中，如Microsoft Teams。DeepL Voice的主要优点包括低延迟、高性能的翻译，无与伦比的翻译质量，以及以安全为核心的设计理念。

Whisper large-v3-turbo

Whisper Large V3 Turbo

Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训练，能够在零样本设置中泛化到许多数据集和领域。该模型是Whisper large-v3的微调版本，解码层从32减少到4，以提高速度，但可能会略微降低质量。

Voice Engine

Voice Engine是一种先进的语音合成模型,它仅需15秒的语音样本,便能生成与原始说话人极为相似的自然语音。该模型广泛应用于教育、娱乐、医疗等领域,可为非读写人群提供朗读辅助、为视频和播客内容翻译语音、为非语言人群赋予独特语音等。其显著优势在于所需语音样本少、生成语音质量高、支持多语种。Voice Engine目前处于小规模预览阶段,OpenAI正在与各界人士探讨其潜在应用和伦理挑战。

米可智能

米可智能是由人工智能驱动的一站式语音翻译、音色定制、配音等音视频服务。它通过 AI 技术将复杂操作极致简化，提高工作效率超过 90%。功能包括语音翻译，将音视频的语音翻译为其他语言的语音，全流程 AI 驱动，精准度超过 98%；音色定制，定制个性化的音色，用于语音翻译、配音等功能；语音合成，将文字转为自然生动的语音。产品定价合理，使用场景广泛，适用于跨境市场营销、教育、媒体等领域。

Byrdhouse

Byrdhouse提供基于AI的实时语音翻译和字幕翻译,支持100多种语言,可用于你的会议、通话和聊天。Byrdhouse让我们不再为实时翻译操心,让你可以专注于与全球团队和国际合作伙伴的沟通协作。通过Byrdhouse,参会者无需笔记就可以投入到对话中。还可以获得不同语言的会议记录和文字记录。Byrdhouse帮助建立一个包容的文化,让每一个人的声音都能被倾听,无论你说什么语言。

TurnVoice

TurnVoice 是一个命令行工具，可以转换和翻译 YouTube 视频中的声音。它提供了语音转换和语音翻译的功能，可以替换特定的发言人声音，支持本地文件处理，并保留原始背景音频。该工具使用了多个语音合成引擎，并支持多种语言。TurnVoice 适用于各种场景，如创意视频制作、语音翻译等。该产品目前处于开发阶段，支持的功能和定价等详细信息请参考官方网站。

Whisper

Whisper 是一个通用的语音识别模型。它经过大量多样化音频的训练，并且是一个多任务模型，可以进行多语言语音识别、语音翻译和语种识别。

Recty AI

智能翻译是一款功能强大的翻译工具，能够快速准确地将文本、语音进行翻译。具有实时翻译、离线翻译、语音转文本等功能。同时支持多种语言互译，为用户提供便捷的国际交流工具。定价灵活，提供免费和付费套餐供选择。定位于个人用户、学生、商务人士等。

Speech Studio

Azure AI Speech Studio是一个语音服务平台，提供语音转文本、文本转语音等功能。它可以帮助应用实现语音聆听、理解和交流的能力。Speech Studio提供了多种语音功能，包括语音转文本、实时语音转文本、批处理语音转文本、自定义语音识别、语音翻译、文本转语音等。用户可以根据自己的需求选择合适的功能，并通过示例代码快速上手。Speech Studio还提供了学习资源，包括文档、快速入门指南、Microsoft 问答和Microsoft Learn等。

开发与工具

讯飞听见

讯飞听见是智慧办公服务平台，提供语音转文字、录音整理、语音翻译等服务，致力于提高办公效率。支持快速转录音频、视频为文字，提供 AI 写作、同传、翻译等功能。

语音转文本

Spotify Voice Translation

Spotify Voice Translation

Spotify最近推出了语音翻译功能,可以将播客内容翻译成其他语言,同时保留原主播的语音风格。这项由Spotify自主研发的技术,利用了OpenAI最新推出的语音生成技术,可以匹配原主播的语调语气,提供更逼真自然的翻译体验。这使得原本只有英语版本的播客,现在可以以其他语言提供给全球用户,如西班牙语、法语和德语等。

SeamlessM4T

SeamlessM4T是一款基于多模态模型的语音翻译产品，支持近100种语言的自动语音识别、语音翻译、文本翻译、语音合成等功能。该产品采用了全新的多任务UnitY模型架构，能够直接生成翻译文本和语音。SeamlessM4T的自我监督语音编码器w2v-BERT 2.0通过分析数百万小时的多语言语音，学习如何在语音中找到结构和意义。该产品还提供了SONAR、SpeechLASER等多语言语音和文本数据集，以及fairseq2等序列建模工具包。SeamlessM4T的发布，标志着AI技术在实现语音翻译方面取得了重大突破。

讯飞智能翻译

讯飞智能翻译

讯飞智能翻译是一款快速准确、稳定可靠的人工智能翻译平台。支持文档翻译、文本翻译、语音翻译和图片翻译等多种功能。通过23种文档格式的支持，保留原版格式样式和排版，支持文档内图片翻译。覆盖140种语种互译，支持源语言语种自动检测，实现快速翻译。结合讯飞先进的语音识别和翻译技术，满足跨语言的沟通交流。输入图片，即可快速识别图片中的文本内容，进行翻译。提供SaaS、私有化部署和API接口等多种解决方案，满足不同企业的需求。

Speakshift.ai

SpeakShift是一款实时语音翻译产品，通过连接全球人们，打破语言障碍。用户可以在SpeakShift上进行实时语音翻译，实现无缝沟通。SpeakShift的主要功能包括语音识别、翻译、语音合成等。其优势在于高精度的翻译效果和快速的响应速度。SpeakShift提供不同的定价方案供用户选择，并且适用于各种场景，包括旅行、商务、教育等。使用SpeakShift，用户可以轻松地与世界各地的人交流，打破语言壁垒。

Interpre-X (Beta)

Interpre X (Beta)

Interpre-X 是一款实时语音翻译工具，支持10多种语言，帮助用户在任何地方打破语言障碍。通过最先进的人工智能技术，提供语音到语音、语音到文字、文字到语音和文字到文字的翻译服务。无需额外设备，只需良好的网络连接即可使用。Interpre-X 提供高质量的翻译，以自然、人类质量的声音和准确的口音进行播放。适用于社交、旅行、观看电视、学习语言以及与不同语言的朋友交流等场景。现已推出beta版，欢迎试用。

No Prompt GPT

智能翻译助手是一款功能强大的多语言翻译工具。它可以帮助用户轻松实现各种语言之间的翻译，包括文字、语音和图片翻译。该助手支持多种语言，具有高精度和快速的翻译效果。用户可以通过输入文字、拍照或录音来进行翻译，还可以保存翻译记录和设置常用语言对。智能翻译助手提供简单易用的界面和便捷的操作方式，使用户在任何场景下都能轻松进行多语言翻译。

Dubbify

Dubbify是一款使视频翻译变得简单、快速和准确的工具。我们支持57种语言的内容输入，并提供20种语言的人工智能语音翻译。无论您是单独使用我们的服务还是通过API集成，我们都能满足您的需求。欢迎注册即可获得5美元的免费额度。

Speechlab

SpeechLab是一款桌面客户端，提供语音翻译和语音合成功能。它能够帮助用户进行语音翻译，将语言转换成其他语言，同时还能够合成语音，将文字转换成自然流畅的语音。SpeechLab的优势在于其高质量的语音合成技术，可以生成与人类声音相似的合成语音。SpeechLab的定价为免费试用和付费订阅两种方式，具体定价可在官方网站上查看。SpeechLab定位于帮助用户跨越语言障碍，使内容在全球范围内更容易获得。

langswap

使用我们的算法，将视频翻译成其他语言，保留原始声音，无需重新录制。节省时间和预算，让您的视频在国际市场上展示。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase