当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PyTorch ParquetDataFrameLoader用法及代码示例


本文简要介绍python语言中 torchdata.datapipes.iter.ParquetDataFrameLoader 的用法。

用法:

class torchdata.datapipes.iter.ParquetDataFrameLoader(source_dp: IterDataPipe[str], dtype=None, columns: Optional[List[str]] = None, device: str = '', use_threads: bool = False)

参数

  • source_dp-source DataPipe 包含 Parquet 文件的路径

  • columns-str 的列表,指定 DataFrame 的列名称

  • use_threads-如果 True ,Parquet 读取器将执行多线程列读取

  • dtype-为 DataFrame 指定 TorchArrow dtype,使用 torcharrow.dtypes.DType

  • device-指定将存储DataFrame的设备

获取 Parquet 文件的路径并为 Parquet 文件中的每个行组返回 TorchArrow DataFrame (函数名称: load_parquet_as_df )。

示例

>>> from torchdata.datapipes.iter import FileLister
>>> import torcharrow.dtypes as dt
>>> DTYPE = dt.Struct([dt.Field("Values", dt.int32)])
>>> source_dp = FileLister(".", masks="df*.parquet")
>>> parquet_df_dp = source_dp.load_parquet_as_df(dtype=DTYPE)
>>> list(parquet_df_dp)[0]
  index    Values
-------  --------
      0         0
      1         1
      2         2
dtype: Struct([Field('Values', int32)]), count: 3, null_count: 0

相关用法


注:本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torchdata.datapipes.iter.ParquetDataFrameLoader。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。