当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PyTorch CriteoIterDataPipe用法及代码示例


本文简要介绍python语言中 torchrec.datasets.criteo.CriteoIterDataPipe 的用法。

用法:

class torchrec.datasets.criteo.CriteoIterDataPipe(paths: typing.Iterable[str], *, row_mapper: typing.Optional[typing.Callable[[typing.List[str]], typing.Any]] = <function _default_row_mapper>, **open_kw)

参数

  • paths(可迭代[str]) -构成 Criteo 数据集的 TSV 文件的本地路径。

  • row_mapper(可选的[可调用[[List[str]],任何]]) - 应用于每个分割 TSV 线的函数。

  • open_kw-传递给 iopath.common.file_io.PathManager.open 底层调用的选项。

基础:torch.utils.data.dataset.IterDataPipe

IterDataPipe 可用于传输 Criteo 1TB 点击日志数据集 (https://ailab.criteo.com/download-criteo-1tb-click-logs-dataset/)或 Kaggle/Criteo 显示广告数据集(https://www.kaggle.com/c/criteo-display-ad-challenge/)来自源 TSV 文件。

例子:

datapipe = CriteoIterDataPipe(
    ("/home/datasets/criteo/day_0.tsv", "/home/datasets/criteo/day_1.tsv")
)
datapipe = dp.iter.Batcher(datapipe, 100)
datapipe = dp.iter.Collator(datapipe)
batch = next(iter(datapipe))

相关用法


注:本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torchrec.datasets.criteo.CriteoIterDataPipe。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。