Unified IO 2 : 统一的多模态生成模型

Unified IO 2

AI模型开发平台 #多模态 #Transformer #图像 #文本 #音频 #动作 #图像生成普通产品商用

简介 :

Unified-IO 2是一个统一的多模态生成模型,能够理解和生成图像、文本、音频和动作。它使用单个编码器-解码器Transformer模型,将不同模式(图像、文本、音频、动作等)的输入和输出都表示为一个共享的语义空间进行处理。该模型从头开始在大规模的多模态预训练语料上进行训练,使用了多模态的去噪目标进行优化。为了学会广泛的技能,该模型还在120个现有数据集上进行微调,这些数据集包含提示和数据增强。Unified-IO 2在GRIT基准测试中达到了最先进的性能,在30多个基准测试中都取得了强劲的结果,包括图像生成和理解、文本理解、视频和音频理解以及机器人操作。

需求人群 :

通用人工智能

总访问量： 442

占比最多地区： US(69.88%)

本站浏览量： 71.5K

使用场景

根据提示描述并生成图像

理解视频中的内容

根据音频生成文本描述

产品特色

图像 caption

执行自由形式指令