语音识别

# 语音识别

Transcribe Video & Audio to Text Free Online

Transcribe Video & Audio To Text Free Online

Videotowords AI 是一种先进的语音转文本工具，通过人工智能技术实现音频和视频的准确转录。其主要优点包括超高准确率、支持多种语言、快速转录速度和安全可靠。定位于为用户提供快速、高效、准确的音频和视频转录服务。

视频转文本

Speechly

Speechly是一款旨在将您的语音转化为结构化的电子邮件的工具，无需手动输入，即可轻松获得清晰易读的信息，支持多达100种语言。

Unmute

Unmute 是一款创新的语音识别与合成工具，旨在使用户能够通过自然语言与 AI 进行高效的互动。其低延迟技术确保用户体验流畅，适合需要实时反馈的场景。该产品将以开源形式发布，推动更多开发者和用户的参与。当前尚未公布价格，预计将采取免费和付费相结合的模式。

Kimi-Audio

Kimi-Audio 是一个先进的开源音频基础模型，旨在处理多种音频处理任务，如语音识别和音频对话。该模型在超过 1300 万小时的多样化音频数据和文本数据上进行了大规模预训练，具有强大的音频推理和语言理解能力。它的主要优点包括优秀的性能和灵活性，适合研究人员和开发者进行音频相关的研究与开发。

Amazon Nova Sonic

Amazon Nova Sonic

Amazon Nova Sonic 是一款前沿的基础模型，能够整合语音理解和生成，提升人机对话的自然流畅度。该模型克服了传统语音应用中的复杂性，通过统一的架构实现更深层次的交流理解，适用于多个行业的 AI 应用，具有重要的商业价值。随着人工智能技术的不断发展，Nova Sonic 将为客户提供更好的语音交互体验，提升服务效率。

音刻转录是一款专注于音视频转录的在线工具，通过先进的语音识别技术，能够快速将音频或视频文件转换为文本。其主要优点包括转录速度快、准确率高、支持多种语言和文件格式。产品定位为高效办公和学习辅助工具，旨在帮助用户节省时间和精力，提升工作效率。音刻转录提供免费试用版本，用户可以体验其核心功能，付费版本则提供更多高级功能和大文件支持，满足不同用户的需求。

语音转文本

DuRT

DuRT 是一款专注于 macOS 系统的语音识别和翻译工具。它通过本地 AI 模型和系统服务实现语音的实时识别与翻译，支持多种语音识别方法，提高了识别的准确度和语言支持范围。该产品以悬浮框形式展示结果，方便用户在使用过程中快速获取信息。其主要优点包括高准确度、隐私保护（不收集用户信息）以及便捷的操作体验。DuRT 定位为一款高效生产力工具，旨在帮助用户在多语言环境下更高效地进行沟通和工作。目前产品可在 Mac App Store 下载，具体价格未在页面中明确提及。

ElevenLabs Scribe

Elevenlabs Scribe

Scribe 是由 ElevenLabs 开发的高精度语音转文字模型，旨在处理真实世界音频的不可预测性。它支持99种语言，提供单词级时间戳、说话人分离和音频事件标记等功能。Scribe 在 FLEURS 和 Common Voice 基准测试中表现卓越，超越了 Gemini 2.0 Flash、Whisper Large V3 和 Deepgram Nova-3 等领先模型。它显著降低了传统服务不足语言（如塞尔维亚语、粤语和马拉雅拉姆语）的错误率，这些语言在竞争模型中的错误率通常超过40%。Scribe 提供 API 接口供开发者集成，并将推出低延迟版本以支持实时应用。

Phi-4-multimodal-instruct

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct 是微软开发的多模态基础模型，支持文本、图像和音频输入，生成文本输出。该模型基于Phi-3.5和Phi-4.0的研究和数据集构建，经过监督微调、直接偏好优化和人类反馈强化学习等过程，以提高指令遵循能力和安全性。它支持多种语言的文本、图像和音频输入，具有128K的上下文长度，适用于多种多模态任务，如语音识别、语音翻译、视觉问答等。该模型在多模态能力上取得了显著提升，尤其在语音和视觉任务上表现出色。它为开发者提供了强大的多模态处理能力，可用于构建各种多模态应用。

FireRedASR-AED-L

Fireredasr AED L

FireRedASR-AED-L 是一个开源的工业级自动语音识别模型，专为满足高效率和高性能的语音识别需求而设计。该模型采用基于注意力的编码器-解码器架构，支持普通话、中文方言和英语等多种语言。它在公共普通话语音识别基准测试中达到了新的最高水平，并且在歌唱歌词识别方面表现出色。该模型的主要优点包括高性能、低延迟和广泛的适用性，适用于各种语音交互场景。其开源特性使得开发者可以自由地使用和修改代码，进一步推动语音识别技术的发展。

FireRedASR

FireRedASR 是一个开源的工业级普通话自动语音识别模型，采用 Encoder-Decoder 和 LLM 集成架构。它包含两个变体：FireRedASR-LLM 和 FireRedASR-AED，分别针对高性能和高效能需求设计。该模型在普通话基准测试中表现出色，同时在方言和英文语音识别上也有良好表现。它适用于需要高效语音转文字的工业级应用，如智能助手、视频字幕生成等。模型开源，便于开发者集成和优化。

Bulletpen

Bulletpen是一款创新的AI写作应用，旨在帮助用户将口头表达转化为高质量的书面文本。它通过语音识别和自然语言处理技术，将用户的口语内容进行优化和润色，生成结构清晰、语言流畅的书面文本。该产品的主要优点是能够显著提高写作效率，尤其适合那些在写作时感到困难或缺乏灵感的用户。Bulletpen由17岁的高中生Rexan Wong开发，目标是为学生、作家和内容创作者提供一个简单易用的写作辅助工具。它提供免费和付费两种计划，满足不同用户的需求。

Whisper Turbo.online

Whisper Turbo.online

Whisper Turbo 是基于 Whisper Large-v3 模型优化的语音识别工具，专为快速语音转录而设计。它利用先进的 AI 技术，能够高效地将不同音频源的语音转换为文本，支持多种语言和口音。该工具免费提供给用户，旨在帮助人们节省时间和精力，提高工作效率。其主要面向需要快速准确转录语音内容的用户，如博主、内容创作者、企业等，为他们提供便捷的语音转文字解决方案。

RealtimeSTT

RealtimeSTT是一个开源的语音识别模型，能够实时将语音转换为文本。它使用了先进的语音活动检测技术，可以自动检测语音的开始和结束，无需手动操作。此外，它还支持唤醒词激活功能，用户可以通过说出特定的唤醒词来启动语音识别。该模型具有低延迟、高效率的特点，适合需要实时语音转录的应用场景，如语音助手、会议记录等。它基于Python开发，易于集成和使用，且在GitHub上开源，社区活跃，不断有新的更新和改进。

xiaozhi-esp32

xiaozhi-esp32 是一个开源的 AI 聊天机器人项目，基于乐鑫的 ESP-IDF 开发。它将大语言模型与硬件设备相结合，使用户能够打造出个性化的 AI 伴侣。项目支持多种语言的语音识别与对话，具备声纹识别功能，能够识别不同用户的语音特征。其开源特性降低了 AI 硬件开发的门槛，为学生、开发者等群体提供了宝贵的学习资源，有助于推动 AI 技术在硬件领域的应用与创新。项目目前免费开源，适合不同层次的开发者进行学习与二次开发。

聊天机器人

通义浏览器插件

通义浏览器插件

通义是一款集成了语音识别、实时字幕翻译、智能总结等功能的浏览器插件，旨在提高用户在网课、追剧追番、线上会议等场景下的效率。它通过AI技术，帮助用户快速记录、转写、翻译和总结网页内容，特别适合需要处理大量信息的用户。产品背景基于当前信息爆炸的时代，用户需要更高效的工具来管理、理解和消化信息。目前产品提供免费试用，具体价格和定位根据用户需求而定。

Robo Blogger

Robo Blogger是一个专注于将语音转换为博客文章的人工智能助手。它通过捕捉自然语言中的创意，将其结构化为有条理的博客内容，同时可以结合参考资料以确保文章的准确性和深度。这个工具基于之前Report mAIstro项目的概念，专为博客文章创作优化。通过分离创意捕捉和内容结构化，Robo Blogger帮助保持原始想法的真实性，同时确保专业呈现。

Moonshine Web

Moonshine Web是一个基于React和Vite构建的简单应用，它运行了Moonshine Base，这是一个针对快速准确自动语音识别（ASR）优化的强大语音识别模型，适用于资源受限的设备。该应用在浏览器端本地运行，使用Transformers.js和WebGPU加速（或WASM作为备选）。它的重要性在于能够为用户提供一个无需服务器即可在本地进行语音识别的解决方案，这对于需要快速处理语音数据的应用场景尤为重要。

OmniAudio-2.6B

OmniAudio-2.6B是一个2.6B参数的多模态模型，能够无缝处理文本和音频输入。该模型结合了Gemma-2B、Whisper turbo和一个自定义投影模块，与传统的将ASR和LLM模型串联的方法不同，它将这两种能力统一在一个高效的架构中，以最小的延迟和资源开销实现。这使得它能够安全、快速地在智能手机、笔记本电脑和机器人等边缘设备上直接处理音频文本。

Megrez-3B-Omni

Megrez-3B-Omni是由无问芯穹研发的端侧全模态理解模型，基于大语言模型Megrez-3B-Instruct扩展，具备图片、文本、音频三种模态数据的理解分析能力。该模型在图像理解、语言理解、语音理解方面均取得最优精度，支持中英文语音输入及多轮对话，支持对输入图片的语音提问，根据语音指令直接响应文本，在多项基准任务上取得了领先的结果。

Shortcut by Poised

Shortcut By Poised

Shortcut by Poised是一个基于语音的AI助手，旨在通过自然对话的方式提升用户的工作效率。它允许用户通过语音输入快速获得答案、整理思路、起草消息、电子邮件和文档，同时保持工作流程的连贯性。产品通过AI技术将自然语言转换为精炼的文本，并提供多种语言风格选项，满足不同场合的需求。Shortcut by Poised的背景信息显示，它在Product Hunt上发布，并即将推出Windows和移动应用版本，目前Mac版本已可下载。

Coval

Coval是一个专注于AI代理测试和评估的平台，旨在通过模拟和评估来提高AI代理的可靠性和效率。该平台由自主测试领域的专家构建，支持语音和聊天代理的测试，并提供全面的评估报告，帮助用户优化AI代理的性能。Coval的主要优点包括简化测试流程、提供AI驱动的模拟、兼容语音AI，以及提供详细的性能分析。产品背景信息显示，Coval旨在帮助企业快速、可靠地部署AI代理，提高客户服务的质量和效率。Coval提供三种定价计划，满足不同规模企业的需求。

开发与工具

whisper-ner-v1

Whisper-NER是一个创新的模型，它允许同时进行语音转录和实体识别。该模型支持开放类型的命名实体识别（NER），能够识别多样化和不断演变的实体。Whisper-NER旨在作为自动语音识别（ASR）和NER下游任务的强大基础模型，并且可以在特定数据集上进行微调以提高性能。

ultravox-v0_4_1-mistral-nemo

Ultravox V0 4 1 Mistral Nemo

ultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模态语音大型语言模型（LLM）。该模型能够同时处理语音和文本输入，例如，一个文本系统提示和一个语音用户消息。Ultravox通过特殊的<|audio|>伪标记将输入音频转换为嵌入，并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记，进而可以输入到声码器中产生语音输出。该模型由Fixie.ai开发，采用MIT许可。

ultravox-v0_4_1-llama-3_1-70b

Ultravox V0 4 1 Llama 3 1 70b

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型语言模型，能够处理语音和文本输入，生成文本输出。该模型通过特殊伪标记<|audio|>将输入音频转换为嵌入，并与文本提示合并后生成输出文本。Ultravox的开发旨在扩展语音识别和文本生成的应用场景，如语音代理、语音到语音翻译和口语音频分析等。该模型遵循MIT许可，由Fixie.ai开发。

ultravox-v0_4_1-llama-3_1-8b

Ultravox V0 4 1 Llama 3 1 8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型，能够处理语音和文本输入，生成文本输出。该模型通过特殊的<|audio|>伪标记将输入音频转换为嵌入，并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记，进而可以用于声码器产生语音输出。该模型在翻译评估中表现出色，且没有偏好调整，适用于语音代理、语音到语音翻译、语音分析等场景。

Ultravox.ai

Ultravox.ai是一个先进的语音语言模型（SLM），直接处理语音，无需转换为文本，实现更自然、流畅的对话。它支持多语言，易于适应新语言或口音，确保与不同受众的顺畅沟通。产品背景信息显示，Ultravox.ai是一个开源模型，用户可以根据自己的需求进行定制和部署，价格为每分钟5美分。

自然语言处理

卡卡字幕助手

卡卡字幕助手

卡卡字幕助手（VideoCaptioner）是一款功能强大的视频字幕配制软件，利用大语言模型进行字幕智能断句、校正、优化、翻译，实现字幕视频全流程一键处理。产品无需高配置，操作简单，内置基础LLM模型，保证开箱即用，且消耗模型Token少，适合视频制作者和内容创作者。

Najva

Najva是一款专为Mac设计的AI驱动的语音助手，它结合了先进的本地语音识别技术和强大的AI模型，将您的语音转换成智能文本。这款应用特别适合那些思维速度比打字速度快的用户，如作家、开发者、医疗专业人员等。Najva以其轻量级、原生Swift应用、零追踪和完全免费等特点，为用户提供了一个注重隐私和效率的工作流程解决方案。

hertz-dev

hertz-dev是Standard Intelligence开源的全双工、仅音频的变换器基础模型，拥有85亿参数。该模型代表了可扩展的跨模态学习技术，能够将单声道16kHz语音转换为8Hz潜在表示，具有1kbps的比特率，性能优于其他音频编码器。hertz-dev的主要优点包括低延迟、高效率和易于研究人员进行微调和构建。产品背景信息显示，Standard Intelligence致力于构建对全人类有益的通用智能，而hertz-dev是这一旅程的第一步。

模型训练与部署

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase