音频

# 音频

ASMR AI

ASMR AI是首个具有真实双耳音频的AI ASMR视频生成器，通过Google Veo 3提供文本到ASMR和图像到ASMR内容生成。具有放松、助眠和缓解压力的功能。

Veozon AI Video Generator

Veozon AI Video Generator

Veo3 AI视频生成器是一款强大的工具，使用Google的Veo3 AI模型，从文本生成令人惊叹的4K视频。具有先进的物理模拟和逼真的视觉效果，为您的创意转化成电影般的内容。价格：付费。

Morse Code Translator

Morse Code Translator

摩尔斯电码翻译器是一个用于将文本翻译为摩尔斯电码及将摩尔斯电码翻译回文本的在线工具。通过听音频和观看光信号，用户可以轻松进行翻译操作，并可以下载WAV文件。摩尔斯电码翻译器提供了多种摩尔斯电码系统，适用于不同语言的翻译需求。

Maidio

Maidio 是一款创新的音频内容应用，通过 AI 技术将 RSS 新闻自动转换为生动的对话式播客。它利用先进的自然语言处理技术，将新闻内容以主持人与助手的对话形式呈现，使用户能够以更有趣的方式获取信息。该应用支持多种个性化功能，如创建主题电台、智能优先级排序等，适合喜欢通过音频获取新闻的用户。它支持多平台使用，包括 iPhone、iPad、Mac 等，且完全免费。

语音转文本

麦悠电台

麦悠电台是一款利用AI技术实现新闻播报的APP。它通过智能算法将文字新闻转换为生动的对话形式，让用户在听新闻时有更自然、更有趣的体验。该产品的主要优点是个性化和智能化，用户可以根据自己的兴趣创建多个主题电台，APP会自动对新闻进行重要性分级。此外，它还支持本地和云端两种语音合成方式，以及音频导出功能，方便用户将生成的节目作为播客发布。麦悠电台由Fangtangjun (Chongqing) Technology Co., Ltd.开发，是一款免费的教育类APP，适合对新闻和AI技术感兴趣的用户。

语音转文本

Hailuo

Hailuo AI是一个智能AI助手，提供聊天、视频和音频等多种交互方式，能够轻松处理长文本上下文，帮助用户解决问题。它以强大的自然语言处理技术和友好的用户体验为特点，旨在为用户提供高效、智能的解决方案。产品定位为面向广大用户的通用AI助手，价格策略未明确说明。

PodRedit

PodRedit是一个播客分享平台，用户可以在这里发现和收听各种热门播客节目。该平台汇集了众多优质的播客内容，覆盖了两性杂谈、文化、商业等多个领域，为用户提供了一个便捷的播客收听和分享渠道。PodRedit登录后支持批量识别字幕。PodRedit以其丰富的内容和便捷的用户体验，满足了用户对于高质量音频内容的需求，成为了播客爱好者的重要聚集地。

PodSnap.AI

PodSnap.AI是一个利用尖端AI技术，为用户提供播客摘要的服务。用户可以通过订阅，将播客的AI生成摘要直接发送到他们的邮箱。这项服务帮助用户节省时间，快速获取播客中的关键信息，特别适合忙碌的专业人士和学习者。产品由拥有15年以上技术行业经验的企业家Dr. Rok Strniša创建，他曾在剑桥大学获得计算机科学博士学位，并在Citrix、Winton和Improbable等知名公司担任重要职位。

Journi

Journi将您的智能手机变成个人导游，提供由当地人讲述的沉浸式音频导游。通过交互式地图，以当地专家的声音将必看景点带到生活中。利用AI技术，Journi个性化您的旅程，提供独特定制的推荐和见解，使每次探索都成为一次专为您定制的冒险。Journi让您自由地探索城市，体验城市的脉搏，从古老的地标到隐藏的宝藏。

easywithai.com

Easy With AI是一个拥有互联网上最大的AI工具和资源收藏的平台。您可以在50多个不同的类别中查找和搜索AI工具。Easy With AI为各种用户提供了便利和丰富的AI工具资源，包括AI写作助手、社交媒体工具、电子邮件工具、AI内容检测工具、客户服务工具、网站建设工具、电子商务工具、图像工具、音频工具、视频工具、音乐生成器、视频生成器、播客工具、演示制作工具、设计工具、直播工具、聊天机器人、语音工具、移动应用、转录工具、会议助手、建筑工具、生产力工具、教育工具、AI Chrome扩展和更多。您可以根据您的需求和兴趣，在Easy With AI上找到适合您的AI工具。

Butter Reader

ButterReader是一款创新的音频插件，将博客文本转化为引人入胜的音频内容，使学习和信息消费更加顺畅。通过定制播放器，您可以轻松地将文字内容转化为精彩的音频体验。产品具有设计灵活性、声音选择、控制设置等功能，适用于各种使用场景。ButterReader可以让用户在移动设备上无缝播放音频内容，让用户在多任务处理中也能欣赏内容。

文本转声音

Konch

Konch是一款出色的自动转录平台，支持30多种语言。它使用先进的AI技术，快速准确地将音频或视频文件转录成文本。用户可以选择完全由AI生成的转录结果，或选择人工审核和修正。Konch还支持将YouTube视频转换为文本，并提供高级编辑功能、多语言翻译、灵活的文本格式导出等特点。用户可以在不同场景下使用Konch，如转录音频或视频、研究转录、数字档案、播客转录等。

语音转文本

FreGrad

FreGrad是一款轻量快速的频率感知扩散声码器，旨在生成逼真的音频。其框架包括离散小波变换、频率感知扩张卷积和一系列增强模型生成质量的技巧。在实验中，FreGrad相比基准模型，训练速度提升3.7倍，推理速度提升2.2倍，同时模型大小减少0.6倍（仅178万参数），而不牺牲输出质量。

Unified-IO 2

Unified-IO 2是一个统一的多模态生成模型,能够理解和生成图像、文本、音频和动作。它使用单个编码器-解码器Transformer模型,将不同模式(图像、文本、音频、动作等)的输入和输出都表示为一个共享的语义空间进行处理。该模型从头开始在大规模的多模态预训练语料上进行训练,使用了多模态的去噪目标进行优化。为了学会广泛的技能,该模型还在120个现有数据集上进行微调,这些数据集包含提示和数据增强。Unified-IO 2在GRIT基准测试中达到了最先进的性能,在30多个基准测试中都取得了强劲的结果,包括图像生成和理解、文本理解、视频和音频理解以及机器人操作。

Jellypod

Jellypod+是一款将您的电子邮件订阅转化为个人播客的应用程序。它以音频为主要形式，为您忙碌的生活方式生成您每日新闻的简明摘要。Jellypod+的目标是打破传统媒体的“一刀切”模式，为您量身定制新闻，符合您独特的兴趣爱好。该应用程序还包括内置的电子邮件阅读器和简报转发功能，让您可以在不离开应用的情况下查看简报的详情，并自动将入站简报转发到您的个人收件箱。此外，Jellypod+还提供可调节的播放速度、多种不同的播音员选择、离线模式、定制播客生成计划、多个每日播客主题组织、无广告体验以及注重隐私的邮箱地址保护等功能。

Huddles

Huddles是一种新的、轻量级的音频或视频连接方式，它能让您随时随地进行随意对话或深度协作会议。您可以在Slack中创建和参与Huddles，与团队成员通过音频或视频进行实时交流，共享屏幕和文档，提高工作效率。Huddles不仅适用于非正式的讨论，还可以用于解决问题、脑力激荡、合作编写文档等场景。Huddles支持多人参与，可满足团队的不同需求。

Read

Read是一个新闻音频生成平台。它可以自动搜集用户感兴趣的内容,生成个性化的每日音频新闻简报,帮助用户高效获取所需信息。该产品拥有人工智能生成的自然语音功能,支持邮件订阅,提供个性化推荐,功能强大。适合需要每日了解所关心事件和新闻的用户。

GlossAi

GlossAi是一款全流程视频和音频内容再利用工具，可将长篇内容转化为适用于各种社交媒体平台的短视频片段，提高用户参与度，降低成本，节省时间。同时，它还能生成多渠道的数字和有机营销活动。

Emastered

eMastered是由葛莱美奖得主工程师打造的在线音频母带处理工具。它使用人工智能技术，快速、简单地提升音频质量。用户可以上传音轨并自动应用专业的EQ、压缩等处理，获得高质量的音频母带。eMastered提供免费试用和付费订阅两种方式，适用于音乐制作人、制作公司等各类用户。

Jamit.app

Jamit是全球首个Podcast 3.0平台，提供分布式托管、全球覆盖、互动奖励和独特NFT体验等功能。用户可以在Jamit上发现和聆听不同领域的故事，创建并发展自己的社区，并享受作为Jamit创作者和所有者的独立性。

社交媒体服务

33 字幕

33 字幕是一款精准的 AI 视频字幕识别和字幕翻译软件。它可以将音频、视频转换成文本或 SRT 字幕文件，并支持字幕翻译成其他语言。它使用优化后的 Whisper AI 语音转写模型，准确度接近人类水平。集成多种 AI 翻译引擎，支持 ChatGPT、DeepL、微软、百度等翻译接口。它还提供高效易用的可视化字幕编辑器，支持字幕摘要和预提取人声功能。33 字幕支持英语、日语、韩语、法语、泰语等 50 多种语言。

TinyStudio

TinyStudio是一款免费的Mac应用程序，利用M1/M2芯片的强大性能提供快速高效的字幕生成服务。用户可以一键生成视频和音频文件的字幕，无需任何技术专业知识。同时，TinyStudio采用OpenAI的Whisper技术，可在本地处理数据而无需联网。该应用程序还支持字幕导入和导出，提供基于规则的校正系统以确保准确性和可靠性。TinyStudio具有用户友好的界面，易于使用，适用于提高Vlogger、营销人员和社交媒体爱好者的效率。TinyStudio是一款非常有效的视频编辑工具，适用于Vlogger、营销人员和社交媒体爱好者。立即下载TinyStudio，体验免费、快速、强大的字幕工具！

NVAS3d

NVAS3d是一个用于估计包含多个未知声源的场景中任何位置的声音的项目，通过使用多个麦克风的音频录音和场景的3D几何和材料，实现了新视角声学合成。

AI音频增强器

SALMONN

SALMONN是由清华大学电子工程系和字节跳动开发的大型语言模型（LLM），支持语音、音频事件和音乐输入。与仅支持语音或音频事件输入的模型不同，SALMONN可以感知和理解各种音频输入，从而获得多语言语音识别和翻译以及音频-语音共推理等新兴能力。这可以被视为给予LLM“听觉”和认知听觉能力，使SALMONN成为通向具有听觉能力的人工通用智能的一步。

Bespoke

Bespoke 是一个 AI 生成的定制播客服务，为你提供完美贴合你日常的定制播客。点击一次生成一个定制播客，让你随时随地获得你想听的内容。加入等待名单，体验更多的定制化功能和更多的播客选择！

Speaking AI

Speaking AI是一款使用先进的大语言模型技术实现的文本到语音转换工具，能够以自然的情感进行对话并实现零样本语音克隆。它可以捕捉你独特的音调、音高和调节，让你以前所未有的方式复制和利用自己的声音。Speaking AI通过先进的技术实现了声音克隆的突破，让语音克隆听起来更加自然。使用Speaking AI，你可以通过录制自己的声音，在短短10秒钟内进行克隆。我们致力于将最先进的AI技术用于推动人类进步，特别是在促进语音克隆技术的发展和应用方面。

TranscribeAI

TranscribeAI是一款革命性的Mac应用程序，旨在轻松将音频文件转录为文本。采用最先进的人工智能技术，该应用程序提供了无与伦比的准确性和速度，节省了您宝贵的时间和精力。无论您是记者、研究人员、内容创作者还是需要定期转录音频的人，TranscribeAI都是您的完美工具。

AI语音转文本

Fluxon

Fluxon是一个超逼真的AI语音生成器，可以将文本转化为任何语言的超逼真声音。它可以在不到10分钟的示例音频中克隆任何声音。您可以在同一个音频文件中使用多个声音创建对话。还可以通过训练自定义声音来合成单一声音，创建嘴唇同步视频。Fluxon提供了REST API，可以将AI语音生成集成到您的应用程序中。它可以用于各种用途，如为营销和演示视频添加专业和逼真的配音，从文本生成清晰高质量的有声书，为NPC生成逼真的人声，为内容创建专业翻译，为聊天机器人创建更自然的声音，将任何文本内容自动转化为播客等。

文本转声音

Koolio.ai

Koolio.ai是一个音频内容创作平台，帮助用户在几分钟内将概念变成完整的内容。我们提供简单易用、直观的界面，让用户专注于创作。无论是音频转录、与他人协作、根据内容自动选择音效或音乐来增强您的内容，还是轻松进行音频操作和处理，Koolio.ai都可以让您轻松制作高质量的内容。

ImageBind

ImageBind是一种新的AI模型，能够同时绑定六种感官模态的数据，无需显式监督。通过识别这些模态之间的关系（图像和视频、音频、文本、深度、热成像和惯性测量单元（IMUs）），这一突破有助于推动AI发展，使机器能够更好地分析多种不同形式的信息。探索演示以了解ImageBind在图像、音频和文本模态上的能力。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase