當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python PyTorch ParquetDataFrameLoader用法及代碼示例


本文簡要介紹python語言中 torchdata.datapipes.iter.ParquetDataFrameLoader 的用法。

用法:

class torchdata.datapipes.iter.ParquetDataFrameLoader(source_dp: IterDataPipe[str], dtype=None, columns: Optional[List[str]] = None, device: str = '', use_threads: bool = False)

參數

  • source_dp-source DataPipe 包含 Parquet 文件的路徑

  • columns-str 的列表,指定 DataFrame 的列名稱

  • use_threads-如果 True ,Parquet 讀取器將執行多線程列讀取

  • dtype-為 DataFrame 指定 TorchArrow dtype,使用 torcharrow.dtypes.DType

  • device-指定將存儲DataFrame的設備

獲取 Parquet 文件的路徑並為 Parquet 文件中的每個行組返回 TorchArrow DataFrame (函數名稱: load_parquet_as_df )。

示例

>>> from torchdata.datapipes.iter import FileLister
>>> import torcharrow.dtypes as dt
>>> DTYPE = dt.Struct([dt.Field("Values", dt.int32)])
>>> source_dp = FileLister(".", masks="df*.parquet")
>>> parquet_df_dp = source_dp.load_parquet_as_df(dtype=DTYPE)
>>> list(parquet_df_dp)[0]
  index    Values
-------  --------
      0         0
      1         1
      2         2
dtype: Struct([Field('Values', int32)]), count: 3, null_count: 0

相關用法


注:本文由純淨天空篩選整理自pytorch.org大神的英文原創作品 torchdata.datapipes.iter.ParquetDataFrameLoader。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。