Python pyspark read_orc用法及代碼示例

本文簡要介紹 pyspark.pandas.read_orc 的用法。

用法:
pyspark.pandas.read_orc(path: str, columns: Optional[List[str]] = None, index_col: Union[str, List[str], None] = None, **options: Any) → pyspark.pandas.frame.DataFrame

從文件路徑加載一個 ORC 對象，返回一個 DataFrame。

參數：

path：str: 存儲要讀取的 ORC 文件的路徑字符串。
columns：列表，默認無: 如果不是 None，則隻會從文件中讀取這些列。
index_col：str 或 str 列表，可選，默認值：無: Spark中表的索引列。
options：dict: 所有其他選項直接傳遞到 Spark 的數據源。

DataFrame

例子：

>>> ps.range(1).to_orc('%s/read_spark_io/data.orc' % path)
>>> ps.read_orc('%s/read_spark_io/data.orc' % path, columns=['id'])
   id
0   0

您可以在往返中保留索引，如下所示。

>>> ps.range(1).to_orc('%s/read_spark_io/data.orc' % path, index_col="index")
>>> ps.read_orc('%s/read_spark_io/data.orc' % path, columns=['id'], index_col="index")
... 
       id
index
0       0

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.read_orc。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

例子：