当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark read_orc用法及代码示例


本文简要介绍 pyspark.pandas.read_orc 的用法。

用法:

pyspark.pandas.read_orc(path: str, columns: Optional[List[str]] = None, index_col: Union[str, List[str], None] = None, **options: Any) → pyspark.pandas.frame.DataFrame

从文件路径加载一个 ORC 对象,返回一个 DataFrame。

参数

pathstr

存储要读取的 ORC 文件的路径字符串。

columns列表,默认无

如果不是 None,则只会从文件中读取这些列。

index_colstr 或 str 列表,可选,默认值:无

Spark中表的索引列。

optionsdict

所有其他选项直接传递到 Spark 的数据源。

返回

DataFrame

例子

>>> ps.range(1).to_orc('%s/read_spark_io/data.orc' % path)
>>> ps.read_orc('%s/read_spark_io/data.orc' % path, columns=['id'])
   id
0   0

您可以在往返中保留索引,如下所示。

>>> ps.range(1).to_orc('%s/read_spark_io/data.orc' % path, index_col="index")
>>> ps.read_orc('%s/read_spark_io/data.orc' % path, columns=['id'], index_col="index")
... 
       id
index
0       0

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.read_orc。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。