當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python pyspark read_delta用法及代碼示例

本文簡要介紹 pyspark.pandas.read_delta 的用法。

用法:

pyspark.pandas.read_delta(path: str, version: Optional[str] = None, timestamp: Optional[str] = None, index_col: Union[str, List[str], None] = None, **options: Any) → pyspark.pandas.frame.DataFrame

在某個文件係統上讀取一個 Delta Lake 表並返回一個 DataFrame。

如果 Delta Lake 表已存儲在目錄(也稱為元存儲)中,請使用 ‘read_table’。

參數

pathstring

Delta Lake 表的路徑。

version字符串,可選

使用 Delta 的時間旅行函數指定要讀取的表版本(基於 Delta 的內部事務版本)。這設置了 Delta 的“versionAsOf”選項。請注意,此參數和 timestamp 參數不能一起使用,否則會引發 ValueError

timestamp字符串,可選

使用 Delta 的時間旅行函數指定要讀取的表版本(基於時間戳)。這必須是 Spark 中的有效日期或時間戳字符串,並設置 Delta 的“timestampAsOf”選項。請注意,此參數和 version 參數不能一起使用,否則會引發 ValueError

index_colstr 或 str 列表,可選,默認值:無

Spark中表的索引列。

options

可以傳遞給 Delta 的其他選項。

返回

DataFrame

例子

>>> ps.range(1).to_delta('%s/read_delta/foo' % path)  
>>> ps.read_delta('%s/read_delta/foo' % path)  
   id
0   0
>>> ps.range(10, 15, num_partitions=1).to_delta('%s/read_delta/foo' % path,
...                                             mode='overwrite')  
>>> ps.read_delta('%s/read_delta/foo' % path)  
   id
0  10
1  11
2  12
3  13
4  14
>>> ps.read_delta('%s/read_delta/foo' % path, version=0)  
   id
0   0

您可以在往返中保留索引,如下所示。

>>> ps.range(10, 15, num_partitions=1).to_delta(
...     '%s/read_delta/bar' % path, index_col="index")  
>>> ps.read_delta('%s/read_delta/bar' % path, index_col="index")  
       id
index
0      10
1      11
2      12
3      13
4      14

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.read_delta。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。