SALMONN : SALMONN: 語音音頻語言音樂開放神經網絡

SALMONN

SALMONN

SALMONN

AI語音識別 AI語音合成 #語音 #音頻 #語言 #音樂 #大型語言模型普通產品開源

簡介 :

SALMONN是由清華大學電子工程系和字節跳動開發的大型語言模型（LLM），支持語音、音頻事件和音樂輸入。與僅支持語音或音頻事件輸入的模型不同，SALMONN可以感知和理解各種音頻輸入，從而獲得多語言語音識別和翻譯以及音頻-語音共推理等新興能力。這可以被視為給予LLM“聽覺”和認知聽覺能力，使SALMONN成為通向具有聽覺能力的人工通用智能的一步。

需求人群 :

SALMONN可以應用於語音識別、語音翻譯、音頻處理等領域。

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 90.0K

使用場景

輸入：gunshots.wav，輸出：...

輸入：duck.wav，輸出：...

輸入：music.wav，輸出：...

產品特色

多語言語音識別

多語言語音翻譯

音頻-語音共推理

精選AI產品推薦

GPT-SoVITS

GPT-SoVITS-WebUI是一個強大的零樣本語音轉換和文本到語音WebUI。它具有零樣本TTS、少樣本TTS、跨語言支持和WebUI工具等功能。該產品支持英語、日語和中文，提供了集成工具，包括語音伴奏分離、自動訓練集分割、中文ASR和文本標註，幫助初學者創建訓練數據集和GPT/SoVITS模型。用戶可以通過輸入5秒的聲音樣本，即可體驗即時的文本到語音轉換，還可以通過僅使用1分鐘的訓練數據對模型進行微調，以提高語音相似度和逼真度。產品支持環境準備、Python和PyTorch版本、快速安裝、手動安裝、預訓練模型、數據集格式、待辦事項和致謝。

Clone-Voice

Clone-Voice是一個帶 web 界面的聲音克隆工具，可使用任何人類音色，將一段文字合成為使用該音色說話的聲音，或者將一個聲音使用該音色轉換為另一個聲音。支持中、英、日、韓、法、德、意等 16 種語言，可在線從麥克風錄製聲音。功能包括文字到語音和聲音到聲音轉換。優勢在於簡單易用且無需 N 卡 GPU，支持多種語言，錄製聲音靈活。產品目前免費使用。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase