Python pyspark read_delta用法及代码示例

本文简要介绍 pyspark.pandas.read_delta 的用法。

用法:
pyspark.pandas.read_delta(path: str, version: Optional[str] = None, timestamp: Optional[str] = None, index_col: Union[str, List[str], None] = None, **options: Any) → pyspark.pandas.frame.DataFrame

在某个文件系统上读取一个 Delta Lake 表并返回一个 DataFrame。

如果 Delta Lake 表已存储在目录(也称为元存储)中，请使用 ‘read_table’。

参数：

path：string: Delta Lake 表的路径。
version：字符串，可选: 使用 Delta 的时间旅行函数指定要读取的表版本(基于 Delta 的内部事务版本)。这设置了 Delta 的“versionAsOf”选项。请注意，此参数和 timestamp 参数不能一起使用，否则会引发 ValueError 。
timestamp：字符串，可选: 使用 Delta 的时间旅行函数指定要读取的表版本(基于时间戳)。这必须是 Spark 中的有效日期或时间戳字符串，并设置 Delta 的“timestampAsOf”选项。请注意，此参数和 version 参数不能一起使用，否则会引发 ValueError 。
index_col：str 或 str 列表，可选，默认值：无: Spark中表的索引列。
options：: 可以传递给 Delta 的其他选项。

DataFrame

例子：

>>> ps.range(1).to_delta('%s/read_delta/foo' % path)  
>>> ps.read_delta('%s/read_delta/foo' % path)  
   id
0   0

>>> ps.range(10, 15, num_partitions=1).to_delta('%s/read_delta/foo' % path,
...                                             mode='overwrite')  
>>> ps.read_delta('%s/read_delta/foo' % path)  
   id
0  10
1  11
2  12
3  13
4  14

>>> ps.read_delta('%s/read_delta/foo' % path, version=0)  
   id
0   0

您可以在往返中保留索引，如下所示。

>>> ps.range(10, 15, num_partitions=1).to_delta(
...     '%s/read_delta/bar' % path, index_col="index")  
>>> ps.read_delta('%s/read_delta/bar' % path, index_col="index")  
       id
index
0      10
1      11
2      12
3      13
4      14

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.read_delta。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：