Florence 2 : 一种统一的视觉任务基础模型。

Florence 2

AI图像生成 AI模型 #视觉模型 #多任务学习 #自动化注释 #序列到序列优质新品开源

简介 :

Florence-2是一个新型的视觉基础模型，它通过统一的、基于提示的表示方式，能够处理多种计算机视觉和视觉-语言任务。它设计为接受文本提示作为任务指令，并以文本形式生成期望的结果，无论是图像描述、目标检测、定位还是分割。这种多任务学习设置需要大规模、高质量的注释数据。为此，我们共同开发了FLD-5B，它包含了54亿个综合视觉注释，涵盖1.26亿张图像，使用了自动化图像注释和模型细化的迭代策略。我们采用了序列到序列的结构来训练Florence-2，以执行多样化和全面的视觉任务。广泛的评估表明，Florence-2是一个强大的视觉基础模型竞争者，具有前所未有的零样本和微调能力。

需求人群 :

Florence-2模型适合需要处理复杂视觉任务的研究者和开发者，特别是在图像描述、目标检测、视觉定位和分割等领域。它的多任务学习能力和强大的数据处理能力，使其成为推动计算机视觉和视觉-语言研究的重要工具。

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 60.4K

使用场景

在图像描述任务中，Florence-2能够根据输入的图像生成准确的描述文本。

在目标检测任务中，Florence-2可以识别图像中的多个对象，并以文本形式报告它们的位置。

在视觉定位任务中，Florence-2能够将文本描述与图像中的特定区域关联起来。

产品特色

文本提示作为任务指令的输入方式。

生成文本形式的期望结果，适用于多种视觉任务。