Python cudf.read_orc用法及代码示例

用法:
cudf.read_orc(filepath_or_buffer, engine='cudf', columns=None, filters=None, stripes=None, skiprows=None, num_rows=None, use_index=True, decimal_cols_as_float=None, timestamp_type=None, use_python_file_object=True, **kwargs)

将 ORC 数据集加载到 DataFrame 中

参数：

filepath_or_buffer：str、路径对象、字节或 file-like 对象: 文件的路径(str , pathlib.Path 或 py._path.local.LocalPath)、URL(包括 http、ftp 和 S3 位置)、原始二进制数据的 Python 字节或具有 read() 方法的任何对象(例如内置open() 文件处理函数或 BytesIO )。
engine：{ ‘cudf’, ‘pyarrow’ }，默认 ‘cudf’: 要使用的解析器引擎。
columns：列表，默认无: 如果不是 None，则只会从文件中读取这些列。
filters：元组列表，元组列表列表默认无: 如果不是 None，则指定一个过滤谓词，用于使用为每个行组存储的统计信息作为 Parquet 元数据过滤掉行组。不读取与给定过滤谓词不匹配的行组。谓词以析取范式 (DNF) 表示，例如 [[(‘x’, ‘=’, 0), …], …] 。 DNF 允许单列谓词的任意布尔逻辑组合。最里面的元组每个都说明一个列谓词。内部谓词列表被解释为一个连词 (AND)，形成一个更具选择性和多列的谓词。最后，最外面的列表将这些过滤器组合为析取 (OR)。谓词也可以作为元组列表传递。这种形式被解释为单个连词。要在谓词中表达 OR，必须使用元组列表列表的(首选)表示法。
stripes: list, default None：: 如果不是 None，则只会从文件中读取这些条带。条带与忽略的索引连接。
skiprows：整数，默认无: 如果不是 None，则从文件开头跳过的行数。
num_rows：整数，默认无: 如果不是 None，则要读取的总行数。
use_index：布尔值，默认为真: 如果为 True，则使用行索引(如果可用)以加快查找速度。
decimal_cols_as_float: list, default None：: 如果指定，则应在结果 DataFrame 中从 Decimal 转换为 Float64 的列的名称。
use_python_file_object：布尔值，默认 True: 如果为 True，则在 IO 时将使用Arrow-backed PythonFile 对象代替 fsspec AbstractBufferedFile 对象。当从较大的 ORC 文件进行少量读取时，此选项可能会提高性能。
kwargs are passed to the engine：

DataFrame

注意：

cuDF 支持本地和远程数据存储。请参阅可用源这里的配置详细信息。

例子：

>>> import cudf
>>> df = cudf.read_orc(filename)
>>> df
  num1                datetime text
0  123 2018-11-13T12:00:00.000 5451
1  456 2018-11-14T12:35:01.000 5784
2  789 2018-11-15T18:02:59.000 6117

相关用法

注：本文由纯净天空筛选整理自rapids.ai大神的英文原创作品 cudf.read_orc。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

注意：

例子：