当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python dask.dataframe.read_json用法及代码示例


用法:

dask.dataframe.read_json(url_path, orient='records', lines=None, storage_options=None, blocksize=None, sample=1048576, encoding='utf-8', errors='strict', compression='infer', meta=None, engine=<function read_json>, include_path_column=False, path_converter=None, **kwargs)

从一组 JSON 文件创建 DataFrame

这利用了 pandas.read_json() ,并且大多数参数都通过 - 请参阅其文档字符串。

区别:orient默认为‘records’,lines=True;这适用于 line-delimited “JSON-lines” 数据,这种 JSON 输出在 big-data 场景中最常见,并且在读取时可以分块(参见 read_json() )。所有其他选项都需要 blocksize=None,即每个输入文件一个分区。

参数

url_path: str, list of str

读取位置。如果是字符串,可以包含一个 glob 字符来查找一组文件名。支持"s3://"等协议规范。

encoding, errors:

要实现的文本编码,例如 “utf-8” 以及如何响应转换中的错误(参见 str.encode() )。

orient, lines, kwargs

传递给 Pandas ;如果未指定,则当 orient='records' 时,lines=True,否则为 False。

storage_options: dict

传递给后端file-system 实现

blocksize: None or int

如果没有,文件不会被阻塞,并且每个输入文件都有一个分区。如果是 int,它只能用于 line-delimited JSON 文件,每个分区将大约是这个大小(以字节为单位),到最近的换行符。

sample: int

要预加载的字节数,为没有数据的任何块提供空数据帧结构。仅在使用块大小时相关。

encoding, errors:

文本转换,see bytes.decode()

compression字符串或无

‘gzip’ or ‘xz’ 之类的字符串。

engine函数对象,默认 pd.read_json

dask 将用于读取 JSON 文件的底层函数。默认情况下,这将是 pandas JSON 阅读器(pd.read_json)。

include_path_columnbool 或 str,可选

在 DataFrame 中每一行的来源文件路径中包含一列。如果是 True ,则会在名为 path 的 DataFrame 中添加一个新列。如果 str ,设置新的列名。默认为 False

path_converter函数或无,可选

一个接受一个参数并返回一个字符串的函数。用于转换path 列中的路径,例如,从所有路径中去除公共前缀。

metapd.DataFrame、pd.Series、dict、可迭代、元组、可选

与输出的 dtypes 和列名匹配的空 pd.DataFramepd.Series。此元数据对于 dask 数据帧中的许多算法起作用是必需的。为了便于使用,还提供了一些替代输入。可以提供 {name: dtype}dict(name, dtype) 的可迭代对象,而不是 DataFrame (请注意,名称的顺序应与列的顺序匹配)。可以使用(name, dtype) 的元组代替系列。如果未提供,dask 将尝试推断元数据。这可能会导致意外结果,因此建议提供meta。有关详细信息,请参阅 dask.dataframe.utils.make_meta

返回

dask.DataFrame

例子

加载单个文件

>>> dd.read_json('myfile.1.json')

加载多个文件

>>> dd.read_json('myfile.*.json')
>>> dd.read_json(['myfile.1.json', 'myfile.2.json'])

使用大约 256MB 大小的分区加载大型 line-delimited JSON 文件

>> dd.read_json(‘数据/文件*.csv’, blocksize=2**28)

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.read_json。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。