Google Vision Transformer
G
Google Vision Transformer
简介 :
Google Vision Transformer 是一款基于 Transformer 编码器的图像识别模型,使用大规模图像数据进行预训练,可用于图像分类等任务。该模型在 ImageNet-21k 数据集上进行了预训练,并在 ImageNet 数据集上进行了微调,具备良好的图像特征提取能力。该模型通过将图像切分为固定大小的图像块,并线性嵌入这些图像块来处理图像数据。同时,模型在输入序列前添加了位置编码,以便在 Transformer 编码器中处理序列数据。用户可以通过在预训练的编码器之上添加线性层进行图像分类等任务。Google Vision Transformer 的优势在于其强大的图像特征学习能力和广泛的适用性。该模型免费提供使用。
需求人群 :
适用于图像分类、目标检测和图像分割等场景
总访问量: 437.9M
占比最多地区: US(19.34%)
本站浏览量 : 63.8K
产品特色
基于 Transformer 的图像特征提取
支持图像分类等任务
预训练模型可用于迁移学习
适用于大规模图像数据
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase