用法:
cudf.read_parquet(filepath_or_buffer, engine='cudf', columns=None, filters=None, row_groups=None, skiprows=None, num_rows=None, strings_to_categorical=False, use_pandas_metadata=True, use_python_file_object=False, categorical_partitions=True, *args, **kwargs)
将 Parquet 数据集加载到 DataFrame 中
- filepath_or_buffer:str、路径对象、字节、file-like 对象或列表
的此类对象。包含以下一项或多项:文件的路径(
str
,pathlib.Path
或py._path.local.LocalPath
)、URL(包括 http、ftp 和 S3 位置)、原始二进制数据的 Python 字节或任何带有read()
方法(例如内置的open()
文件处理函数或BytesIO
)。- engine:{ ‘cudf’, ‘pyarrow’ },默认 ‘cudf’
要使用的解析器引擎。
- columns:列表,默认无
如果不是 None,则只会读取这些列。
- filters:元组列表,元组列表列表默认无
如果不是 None,则指定一个过滤谓词,用于使用为每个行组存储的统计信息作为 Parquet 元数据过滤掉行组。不读取与给定过滤谓词不匹配的行组。谓词以析取范式 (DNF) 表示,例如
[[(‘x’, ‘=’, 0), …], …]
。 DNF 允许单列谓词的任意布尔逻辑组合。最里面的元组每个都说明一个列谓词。内部谓词列表被解释为一个连词 (AND),形成一个更具选择性和多列的谓词。最后,最外面的列表将这些过滤器组合为析取 (OR)。谓词也可以作为元组列表传递。这种形式被解释为单个连词。要在谓词中表达 OR,必须使用元组列表列表的(首选)表示法。- row_groups:int,或列表,或列表列表 默认无
如果不是 None,则为每个输入文件指定要读取的行组。如果读取多个输入,则应传递一个列表列表,每个输入一个列表。
- skiprows:整数,默认无
如果不是 None,则从文件开头跳过的行数。
- num_rows:整数,默认无
如果不是 None,则要读取的总行数。
- strings_to_categorical:布尔值,默认为 False
如果为 True,则将字符串列返回为 GDF_CATEGORY dtype;如果为 False,则将 a 作为 GDF_STRING dtype 返回。
- categorical_partitions:布尔值,默认 True
directory-partitioned 列是否应解释为分类或原始数据类型。
- use_pandas_metadata:布尔值,默认 True
如果 True 和 dataset 具有自定义 PANDAS 架构元数据,请确保还加载了索引列。
- use_python_file_object:布尔值,默认为 False
如果为 True,则在 IO 时将使用Arrow-backed PythonFile 对象代替 fsspec AbstractBufferedFile 对象。从较大的 parquet 文件中进行少量读取时,此选项可能会提高性能。
- DataFrame
参数:
返回:
注意:
- cuDF 支持本地和远程数据存储。请参阅可用源 这里 的配置详细信息。
例子:
>>> import cudf >>> df = cudf.read_parquet(filename) >>> df num1 datetime text 0 123 2018-11-13T12:00:00.000 5451 1 456 2018-11-14T12:35:01.000 5784 2 789 2018-11-15T18:02:59.000 6117
相关用法
- Python cudf.read_csv用法及代码示例
- Python cudf.read_feather用法及代码示例
- Python cudf.read_orc用法及代码示例
- Python cudf.core.column.string.StringMethods.is_vowel用法及代码示例
- Python cudf.Series.ceil用法及代码示例
- Python cudf.core.column.string.StringMethods.endswith用法及代码示例
- Python cudf.Series.update用法及代码示例
- Python cudf.DataFrame.mod用法及代码示例
- Python cudf.DataFrame.isin用法及代码示例
- Python cudf.core.column.string.StringMethods.title用法及代码示例
- Python cudf.DataFrame.rmul用法及代码示例
- Python cudf.Series.max用法及代码示例
- Python cudf.DatetimeIndex.dayofweek用法及代码示例
- Python cudf.DataFrame.apply用法及代码示例
- Python cudf.core.column.string.StringMethods.contains用法及代码示例
- Python cudf.core.column.string.StringMethods.rsplit用法及代码示例
- Python cudf.DataFrame.exp用法及代码示例
- Python cudf.Series.head用法及代码示例
- Python cudf.DataFrame.drop用法及代码示例
- Python cudf.core.column.string.StringMethods.zfill用法及代码示例
注:本文由纯净天空筛选整理自rapids.ai大神的英文原创作品 cudf.read_parquet。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。