Any GPT : 多模态大型语言模型

Any GPT

AI模型 #多模态 #聊天机器人 #语音识别 #语音合成 #图像生成普通产品开源

简介 :

AnyGPT是一个统一的多模态大型语言模型,利用离散表示进行各种模态的统一处理,包括语音、文本、图像和音乐。AnyGPT可以在不改变当前大型语言模型架构或训练范式的情况下稳定训练。它完全依赖于数据级预处理,促进了新模态无缝集成到语言模型中,类似于新的语言的加入。我们构建了一个用于多模态对齐预训练的以文本为中心的多模态数据集。利用生成模型,我们合成了第一个大规模的任意到任意的多模态指令数据集。它由10.8万个多轮对话样例组成,多种模态交织在一起,因此使模型能够处理任意组合的多模态输入和输出。实验结果表明,AnyGPT能够促进任意到任意的多模态对话,同时在所有模态上达到与专用模型相当的性能,证明了离散表示可以有效且方便地在语言模型中统一多个模态。

需求人群 :

["进行多模态聊天","支持语音助手等应用","创作多模态内容"]

总访问量： 423

占比最多地区： TH(100.00%)

本站浏览量： 98.8K

产品特色

支持语音、文本、图像和音乐多种模态的输入和输出

可以进行多轮多模态交织的对话

在各个模态上都能达到专用模型的水平