当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python dask.dataframe.read_orc用法及代码示例


用法:

dask.dataframe.read_orc(path, engine='pyarrow', columns=None, index=None, split_stripes=1, aggregate_files=None, storage_options=None)

从 ORC 文件中读取数据帧

参数

path: str or list(str)

文件的位置,可以是带有协议说明符的完整 URL,如果是单个字符串,则可能包含全局字符。

engine: ‘pyarrow’ or ORCEngine

用于 IO 的后端 ORC 引擎。默认为“pyarrow”。

columns: None or list(str)

要加载的列。如果没有,则加载所有。

index: str

要设置为索引的列名。

split_stripes: int or False

每个 output-DataFrame 分区中包含的最大 ORC 条带数。使用 False 指定文件和分区之间的一对一映射。默认值为 1。

aggregate_files布尔值,默认为 False

不同的文件路径是否可以聚合到相同的输出分区中。 True 的设置意味着可以将任意两个文件路径聚合到同一个输出分区中,而 False 意味着禁止inter-file 聚合。

storage_options: None or dict

要传递给字节后端的更多参数。

返回

Dask.DataFrame(即使只有一列)

例子

>>> df = dd.read_orc('https://github.com/apache/orc/raw/'
...                  'master/examples/demo-11-zlib.orc')

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.read_orc。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。