当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PyTorch Kinetics400用法及代码示例


本文简要介绍python语言中 torchvision.datasets.Kinetics400 的用法。

用法:

class torchvision.datasets.Kinetics400(root: str, frames_per_clip: int, num_classes: Optional[Any] = None, split: Optional[Any] = None, download: Optional[Any] = None, num_download_workers: Optional[Any] = None, **kwargs: Any)

参数

  • root(string) -

    Kinetics-400 数据集的根目录。结构应如下:

    root/
    ├── class1
    │   ├── clip1.avi
    │   ├── clip2.avi
    │   ├── clip3.mp4
    │   └── ...
    └── class2
        ├── clipx.avi
        └── ...
  • frames_per_clip(int) -剪辑中的帧数

  • step_between_clips(int) -每个剪辑之间的帧数

  • transform(可调用的,可选的) -接收 TxHxWxC 视频并返回转换后版本的函数/转换。

返回

具有以下条目的 3 元组:

  • 视频 (Tensor[T, H, W, C]):T 视频帧

  • audio(Tensor[K, L]):音频帧,其中K是通道数,L是点数

  • label (int): 视频剪辑的类别

返回类型

元组

Kinetics-400 数据集。

Kinetics-400 是一个动作识别视频数据集。该数据集将每个视频视为固定大小的视频剪辑的集合,由 frames_per_clip 指定,其中每个剪辑之间的帧步长由 step_between_clips 给出。

举个例子,对于分别有 10 帧和 15 帧的 2 个视频,如果 frames_per_clip=5step_between_clips=5 ,数据集大小将为 (2 + 3) = 5,其中前两个元素来自视频 1,而视频 2 中的下三个元素。请注意,我们会丢弃不完全包含 frames_per_clip 元素的剪辑,因此视频中可能并非所有帧都存在。

在内部,它使用VideoClips对象来处理剪辑创建。

相关用法


注:本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torchvision.datasets.Kinetics400。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。