Miłośnicy Psów!

ditihekhatun15 · Mało Aktywny Dołączył: 07 Maj 2024 Posty: 1

检测视觉世界中的物体的能力对于计算机视觉和机器智能至关重要从而实现自适应自主代理和多功能购物系统等应用。然而现代物体检测器受到训练数据的手动注释的限制导致词汇量明显小于现实中遇到的大量物体。为了克服这个问题出现了开放词汇检测任务它利用图像文本对进行训练并在测试时通过将新的类别名称与图像内容相关联来合并新的类别名称。通过将类别视为文本嵌入开放词汇检测器可以预测各种看不见的对象。人们提出了各种技术例如图像文本预训练知识蒸馏伪标记和冻结模型通常采用卷积神经网络主干。随着视觉变换器的日益普及探索它们构建熟练的开放词汇检测器的潜力非常重要。现有方法假设预训练视觉语言模型可用并专注于对这些模型进行微调或蒸馏以解决图像级预训练和对象级微调之间的差异。然而由于主要是为分类和检索等图像级任务而设计的因此它们在预训练阶段没有充分利用对象或区域的概念。因此如果我们将局部性信息构建到图像文本预训练中这可能有利于开放词汇检测。

在上提出的使用视觉变换器进行开放词汇目标检测的区域感知预训练中我们介绍了一种简单的方法以区域感知的方式预训练视觉变换器以改进开放词汇检测。在视沙特阿拉伯手机号码列表觉转换器中位置嵌入被添加到图像块中以对图像中每个块的空间位置信息进行编码。标准预训练通常使用全图像位置嵌入这不能很好地推广到检测任务。因此我们提出了一种新的位置嵌入方案称为裁剪位置嵌入它可以更好地与检测微调中区域裁剪的使用保持一致。此外我们在对比图像文本学习中用焦点损失替换了交叉熵损失使我们能够从更具挑战性和信息量更大的示例中学习。最后我们利用新对象提议的最新进展来增强开放词汇检测微调这是由于观察到现有方法经常由于对前景类别的过度拟合而在提议阶段错过新对象。我们也在这里发布代码。区域感知的图像文本预训练现有的经过训练可以将整个图像与文本描述进行匹配。

然而我们观察到现有对比预训练方法和开放词汇检测中使用位置嵌入的方式之间存在不匹配。位置嵌入对于转换器很重要因为它们提供了集合中每个元素来自何处的信息。此信息通常对下游识别和定位任务有用。预训练方法通常在训练期间应用全图像位置嵌入并对下游任务例如零样本识别使用相同的位置嵌入。然而识别发生在开放词汇检测微调的区域级别这需要全图像位置嵌入泛化到他们在预训练期间从未见过的区域。为了解决这个问题我们提出了裁剪位置嵌入。通过我们将位置嵌入从预训练的典型图像尺寸例如像素上采样到检测任务的典型图像尺寸例如像素。然后我们随机裁剪一个区域并调整其大小并在预训练期间将其用作图像级位置嵌入。作物的位置比例和长宽比是随机采样的。直观上这导致模型将图像本身视为完整图像而不是一些较大的未知图像的区域裁剪。这更好地匹配下游检测用例其中识别发生在区域级别而不是图像级别。对于预训练我们提出了裁剪位置嵌入它随机裁剪位置嵌入区域并调整其大小而不是使用整个图像位置嵌入。
_________________
沙特阿拉伯手机号码列表

Reklama