當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python pyspark read_json用法及代碼示例

本文簡要介紹 pyspark.pandas.read_json 的用法。

用法:

pyspark.pandas.read_json(path: str, lines: bool = True, index_col: Union[str, List[str], None] = None, **options: Any) → pyspark.pandas.frame.DataFrame

將 JSON 字符串轉換為 DataFrame。

參數

pathstring

文件路徑

lines布爾值,默認為真

將文件作為每行的 json 對象讀取。現在應該始終為 True。

index_colstr 或 str 列表,可選,默認值:無

Spark中表的索引列。

optionsdict

所有其他選項直接傳遞到 Spark 的數據源。

例子

>>> df = ps.DataFrame([['a', 'b'], ['c', 'd']],
...                   columns=['col 1', 'col 2'])
>>> df.to_json(path=r'%s/read_json/foo.json' % path, num_files=1)
>>> ps.read_json(
...     path=r'%s/read_json/foo.json' % path
... ).sort_values(by="col 1")
  col 1 col 2
0     a     b
1     c     d
>>> df.to_json(path=r'%s/read_json/foo.json' % path, num_files=1, lineSep='___')
>>> ps.read_json(
...     path=r'%s/read_json/foo.json' % path, lineSep='___'
... ).sort_values(by="col 1")
  col 1 col 2
0     a     b
1     c     d

您可以在往返中保留索引,如下所示。

>>> df.to_json(path=r'%s/read_json/bar.json' % path, num_files=1, index_col="index")
>>> ps.read_json(
...     path=r'%s/read_json/bar.json' % path, index_col="index"
... ).sort_values(by="col 1")  
      col 1 col 2
index
0         a     b
1         c     d

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.read_json。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。