多任务学习

# 多任务学习

π0是一个通用型机器人基础模型，旨在通过实体化训练让AI系统获得物理智能，能够执行各种任务，就像大型语言模型和聊天机器人助手一样。π0通过训练在机器人上的实体经验获得物理智能，能够直接输出低级电机命令，控制多种不同的机器人，并可以针对特定应用场景进行微调。π0的开发代表了人工智能在物理世界应用方面的重要进步，它通过结合大规模多任务和多机器人数据收集以及新的网络架构，提供了迄今为止最有能力、最灵巧的通用型机器人政策。

GR-2

GR-2是一个先进的通用机器人代理，专为多样化和可泛化的机器人操作而设计。它首先在大量互联网视频上进行预训练，以捕捉世界的动态。这种大规模预训练涉及3800万视频剪辑和超过500亿个标记，使GR-2能够在随后的策略学习中跨广泛范围的机器人任务和环境进行泛化。随后，GR-2针对视频生成和动作预测进行了微调，使用机器人轨迹。它展示了令人印象深刻的多任务学习能力，在100多个任务中平均成功率达到97.7%。此外，GR-2在新的、以前未见过的场景中表现出色，包括新的背景、环境、对象和任务。值得注意的是，GR-2随着模型大小的增加而高效扩展，突显了其持续增长和应用的潜力。

Gemma-2-9b-it

Gemma-2-9b-it是由Google开发的一系列轻量级、最先进的开放模型，基于与Gemini模型相同的研究和技术构建而成。这些模型是文本到文本的解码器仅大型语言模型，以英文提供，适用于问答、摘要和推理等多样化文本生成任务。由于其相对较小的尺寸，可以在资源有限的环境中部署，如笔记本电脑、桌面或个人云基础设施，使先进的AI模型更加普及，促进创新。

Florence-2-base-ft

Florence 2 Base Ft

Florence-2是由微软开发的高级视觉基础模型，采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示，执行诸如图像描述、目标检测和分割等任务。它利用FLD-5B数据集，包含54亿个注释，覆盖1.26亿张图像，精通多任务学习。其序列到序列的架构使其在零样本和微调设置中均表现出色，证明是一个有竞争力的视觉基础模型。

Florence-2-large-ft

Florence 2 Large Ft

Florence-2-large-ft是由微软开发的高级视觉基础模型，使用基于提示的方法来处理广泛的视觉和视觉-语言任务。该模型能够通过简单的文本提示执行诸如图像描述、目标检测和分割等任务。它利用FLD-5B数据集，包含54亿个注释，覆盖1.26亿张图像，实现多任务学习。模型的序列到序列架构使其在零样本和微调设置中均表现出色，证明其为有竞争力的视觉基础模型。

Florence-2-base

Florence 2 Base

Florence-2是由微软开发的高级视觉基础模型，采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示，执行如描述、目标检测和分割等任务。它利用包含54亿个注释的5.4亿张图像的FLD-5B数据集，精通多任务学习。模型的序列到序列架构使其在零样本和微调设置中都表现出色，证明其为有竞争力的视觉基础模型。

Florence-2-large

Florence 2 Large

Florence-2-large是由微软开发的先进视觉基础模型，采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示来执行如图像描述、目标检测和分割等任务。它利用包含54亿注释的5.4亿图像的FLD-5B数据集，精通多任务学习。其序列到序列的架构使其在零样本和微调设置中均表现出色，证明是一个有竞争力的视觉基础模型。

Florence-2

Florence-2是一个新型的视觉基础模型，它通过统一的、基于提示的表示方式，能够处理多种计算机视觉和视觉-语言任务。它设计为接受文本提示作为任务指令，并以文本形式生成期望的结果，无论是图像描述、目标检测、定位还是分割。这种多任务学习设置需要大规模、高质量的注释数据。为此，我们共同开发了FLD-5B，它包含了54亿个综合视觉注释，涵盖1.26亿张图像，使用了自动化图像注释和模型细化的迭代策略。我们采用了序列到序列的结构来训练Florence-2，以执行多样化和全面的视觉任务。广泛的评估表明，Florence-2是一个强大的视觉基础模型竞争者，具有前所未有的零样本和微调能力。

StreamSpeech

StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略，有效识别流式语音输入中的翻译时机，实现高质量的实时通信体验。该模型在CVSS基准测试中取得了领先的性能，并能提供低延迟的中间结果，如ASR或翻译结果。

Pile-T5

Pile-T5是EleutherAI推出的一款自然语言处理模型，它在原有的T5模型基础上，采用了Pile数据集和LLAMA分词器进行训练，以改善对代码任务的理解能力。该模型经过了2万亿个token的训练，是原T5模型训练量的两倍。Pile-T5在多项下游任务中表现出色，尤其是在代码相关任务上。此外，EleutherAI还提供了中间检查点，以便研究人员研究模型随时间的演变。

模型训练与部署

VSP-LLM

VSP-LLM是一个结合视觉语音处理（Visual Speech Processing）与大型语言模型（LLMs）的框架，旨在通过LLMs的强大能力最大化上下文建模能力。VSP-LLM设计用于执行视觉语音识别和翻译的多任务，通过自监督视觉语音模型将输入视频映射到LLM的输入潜在空间。该框架通过提出一种新颖的去重方法和低秩适配器（LoRA），可以高效地进行训练。

InternLM2

「书生·浦语2.0」InternLM2是一个面向中文和英文的大型多语言预训练语言模型。它具有语言理解、自然语言生成、多模式推理、代码理解等强大的能力。模型采用Transformer架构并进行海量数据的预训练,在长文本理解、对话、数学运算等多个方向上都达到了业界领先水平。该系列模型包含多种规模,用户可以选择合适的模型进行下游任务微调或构建聊天机器人等应用。

Emu Edit

Emu Edit是一款多任务图像编辑模型，通过识别和生成任务完成精准图像编辑，并在此领域内取得了最新的技术突破。Emu Edit的架构针对多任务学习进行了优化，并在众多任务上进行训练，包括基于区域的编辑、自由形式的编辑以及检测和分割等计算机视觉任务。除此之外，为了更有效地处理这多种任务，我们引入了学习到的任务嵌入概念，用于指导生成过程以正确执行编辑指令。我们的模型经过多任务训练和使用学习到的任务嵌入都能显著提升准确执行编辑指令的能力。 Emu Edit还支持对未见任务的快速适应，通过任务倒转实现少样本学习。在这个过程中，我们保持模型权重不变，仅更新任务嵌入来适应新任务。我们的实验证明，Emu Edit能够迅速适应新任务，如超分辨率、轮廓检测等。这使得在标注样本有限或计算预算有限的情况下，使用Emu Edit进行任务倒转特别有优势。为了支持对基于指令的图像编辑模型的严格且有根据的评估，我们还收集并公开发布了一个新的基准数据集，其中包含七种不同的图像编辑任务：背景修改（background）、综合图像变化（global）、风格修改（style）、对象移除（remove）、对象添加（add）、局部修改（local）以及颜色/纹理修改（texture）。此外，为了与Emu Edit进行正确比较，我们还分享了Emu Edit在数据集上的生成结果。 Emu Edit 2023 Meta保留所有版权

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase