用法:
cudf.read_parquet(filepath_or_buffer, engine='cudf', columns=None, filters=None, row_groups=None, skiprows=None, num_rows=None, strings_to_categorical=False, use_pandas_metadata=True, use_python_file_object=False, categorical_partitions=True, *args, **kwargs)
將 Parquet 數據集加載到 DataFrame 中
- filepath_or_buffer:str、路徑對象、字節、file-like 對象或列表
的此類對象。包含以下一項或多項:文件的路徑(
str
,pathlib.Path
或py._path.local.LocalPath
)、URL(包括 http、ftp 和 S3 位置)、原始二進製數據的 Python 字節或任何帶有read()
方法(例如內置的open()
文件處理函數或BytesIO
)。- engine:{ ‘cudf’, ‘pyarrow’ },默認 ‘cudf’
要使用的解析器引擎。
- columns:列表,默認無
如果不是 None,則隻會讀取這些列。
- filters:元組列表,元組列表列表默認無
如果不是 None,則指定一個過濾謂詞,用於使用為每個行組存儲的統計信息作為 Parquet 元數據過濾掉行組。不讀取與給定過濾謂詞不匹配的行組。謂詞以析取範式 (DNF) 表示,例如
[[(‘x’, ‘=’, 0), …], …]
。 DNF 允許單列謂詞的任意布爾邏輯組合。最裏麵的元組每個都說明一個列謂詞。內部謂詞列表被解釋為一個連詞 (AND),形成一個更具選擇性和多列的謂詞。最後,最外麵的列表將這些過濾器組合為析取 (OR)。謂詞也可以作為元組列表傳遞。這種形式被解釋為單個連詞。要在謂詞中表達 OR,必須使用元組列表列表的(首選)表示法。- row_groups:int,或列表,或列表列表 默認無
如果不是 None,則為每個輸入文件指定要讀取的行組。如果讀取多個輸入,則應傳遞一個列表列表,每個輸入一個列表。
- skiprows:整數,默認無
如果不是 None,則從文件開頭跳過的行數。
- num_rows:整數,默認無
如果不是 None,則要讀取的總行數。
- strings_to_categorical:布爾值,默認為 False
如果為 True,則將字符串列返回為 GDF_CATEGORY dtype;如果為 False,則將 a 作為 GDF_STRING dtype 返回。
- categorical_partitions:布爾值,默認 True
directory-partitioned 列是否應解釋為分類或原始數據類型。
- use_pandas_metadata:布爾值,默認 True
如果 True 和 dataset 具有自定義 PANDAS 架構元數據,請確保還加載了索引列。
- use_python_file_object:布爾值,默認為 False
如果為 True,則在 IO 時將使用Arrow-backed PythonFile 對象代替 fsspec AbstractBufferedFile 對象。從較大的 parquet 文件中進行少量讀取時,此選項可能會提高性能。
- DataFrame
參數:
返回:
注意:
- cuDF 支持本地和遠程數據存儲。請參閱可用源 這裏 的配置詳細信息。
例子:
>>> import cudf >>> df = cudf.read_parquet(filename) >>> df num1 datetime text 0 123 2018-11-13T12:00:00.000 5451 1 456 2018-11-14T12:35:01.000 5784 2 789 2018-11-15T18:02:59.000 6117
相關用法
- Python cudf.read_csv用法及代碼示例
- Python cudf.read_feather用法及代碼示例
- Python cudf.read_orc用法及代碼示例
- Python cudf.core.column.string.StringMethods.is_vowel用法及代碼示例
- Python cudf.Series.ceil用法及代碼示例
- Python cudf.core.column.string.StringMethods.endswith用法及代碼示例
- Python cudf.Series.update用法及代碼示例
- Python cudf.DataFrame.mod用法及代碼示例
- Python cudf.DataFrame.isin用法及代碼示例
- Python cudf.core.column.string.StringMethods.title用法及代碼示例
- Python cudf.DataFrame.rmul用法及代碼示例
- Python cudf.Series.max用法及代碼示例
- Python cudf.DatetimeIndex.dayofweek用法及代碼示例
- Python cudf.DataFrame.apply用法及代碼示例
- Python cudf.core.column.string.StringMethods.contains用法及代碼示例
- Python cudf.core.column.string.StringMethods.rsplit用法及代碼示例
- Python cudf.DataFrame.exp用法及代碼示例
- Python cudf.Series.head用法及代碼示例
- Python cudf.DataFrame.drop用法及代碼示例
- Python cudf.core.column.string.StringMethods.zfill用法及代碼示例
注:本文由純淨天空篩選整理自rapids.ai大神的英文原創作品 cudf.read_parquet。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。