当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PyTorch ssd300_vgg16用法及代码示例


本文简要介绍python语言中 torchvision.models.detection.ssd300_vgg16 的用法。

用法:

torchvision.models.detection.ssd300_vgg16(pretrained: bool = False, progress: bool = True, num_classes: int = 91, pretrained_backbone: bool = True, trainable_backbone_layers: Optional[int] = None, **kwargs: Any)

参数

  • pretrained(bool) -如果为 True,则返回在 COCO train2017 上预训练的模型

  • progress(bool) -如果为 True,则显示下载到 stderr 的进度条

  • num_classes(int) -模型的输出类数(包括背景)

  • pretrained_backbone(bool) -如果为 True,则返回一个在 Imagenet 上预训练过主干的模型

  • trainable_backbone_layers(int) -从最终块开始的可训练(未冻结)resnet 层数。有效值介于 0 和 5 之间,其中 5 表示所有主干层都是可训练的。

构造一个输入大小为 300x300 和 VGG16 主干的 SSD 模型。

参考:“SSD: Single Shot MultiBox Detector”

模型的输入应该是一个张量列表,每个形状为 [C, H, W],每个图像一个,并且应该在 0-1 范围内。不同的图像可以有不同的大小,但在传递到主干之前,它们会被调整为固定大小。

模型的行为取决于它是处于训练模式还是评估模式。

在训练期间,模型需要输入张量以及目标(字典列表),其中包含:

  • 框 ( FloatTensor[N, 4] ): [x1, y1, x2, y2] 格式的 ground-truth 框,包含 0 <= x1 < x2 <= W0 <= y1 < y2 <= H

  • labels (Int64Tensor[N]):每个ground-truth框的类标签

模型在训练期间返回一个 Dict[Tensor],包含分类和回归损失。

在推理过程中,模型只需要输入张量,并将后处理的预测作为 List[Dict[Tensor]] 返回,每个输入图像一个。 Dict的字段如下,其中N为检测次数:

  • 框 ( FloatTensor[N, 4] ):[x1, y1, x2, y2] 格式的预测框,包含 0 <= x1 < x2 <= W0 <= y1 < y2 <= H

  • labels (Int64Tensor[N]):每次检测的预测标签

  • 分数 (Tensor[N]):每次检测的分数

示例

>>> model = torchvision.models.detection.ssd300_vgg16(pretrained=True)
>>> model.eval()
>>> x = [torch.rand(3, 300, 300), torch.rand(3, 500, 400)]
>>> predictions = model(x)

使用 ssd300_vgg16 的示例:

相关用法


注:本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torchvision.models.detection.ssd300_vgg16。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。