当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark read_json用法及代码示例


本文简要介绍 pyspark.pandas.read_json 的用法。

用法:

pyspark.pandas.read_json(path: str, lines: bool = True, index_col: Union[str, List[str], None] = None, **options: Any) → pyspark.pandas.frame.DataFrame

将 JSON 字符串转换为 DataFrame。

参数

pathstring

文件路径

lines布尔值,默认为真

将文件作为每行的 json 对象读取。现在应该始终为 True。

index_colstr 或 str 列表,可选,默认值:无

Spark中表的索引列。

optionsdict

所有其他选项直接传递到 Spark 的数据源。

例子

>>> df = ps.DataFrame([['a', 'b'], ['c', 'd']],
...                   columns=['col 1', 'col 2'])
>>> df.to_json(path=r'%s/read_json/foo.json' % path, num_files=1)
>>> ps.read_json(
...     path=r'%s/read_json/foo.json' % path
... ).sort_values(by="col 1")
  col 1 col 2
0     a     b
1     c     d
>>> df.to_json(path=r'%s/read_json/foo.json' % path, num_files=1, lineSep='___')
>>> ps.read_json(
...     path=r'%s/read_json/foo.json' % path, lineSep='___'
... ).sort_values(by="col 1")
  col 1 col 2
0     a     b
1     c     d

您可以在往返中保留索引,如下所示。

>>> df.to_json(path=r'%s/read_json/bar.json' % path, num_files=1, index_col="index")
>>> ps.read_json(
...     path=r'%s/read_json/bar.json' % path, index_col="index"
... ).sort_values(by="col 1")  
      col 1 col 2
index
0         a     b
1         c     d

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.read_json。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。