用法:
dask.dataframe.read_json(url_path, orient='records', lines=None, storage_options=None, blocksize=None, sample=1048576, encoding='utf-8', errors='strict', compression='infer', meta=None, engine=<function read_json>, include_path_column=False, path_converter=None, **kwargs)
从一组 JSON 文件创建 DataFrame
这利用了
pandas.read_json()
,并且大多数参数都通过 - 请参阅其文档字符串。区别:orient默认为‘records’,lines=True;这适用于 line-delimited “JSON-lines” 数据,这种 JSON 输出在 big-data 场景中最常见,并且在读取时可以分块(参见
read_json()
)。所有其他选项都需要 blocksize=None,即每个输入文件一个分区。- url_path: str, list of str:
读取位置。如果是字符串,可以包含一个 glob 字符来查找一组文件名。支持
"s3://"
等协议规范。- encoding, errors:
要实现的文本编码,例如 “utf-8” 以及如何响应转换中的错误(参见
str.encode()
)。- orient, lines, kwargs:
传递给 Pandas ;如果未指定,则当 orient='records' 时,lines=True,否则为 False。
- storage_options: dict:
传递给后端file-system 实现
- blocksize: None or int:
如果没有,文件不会被阻塞,并且每个输入文件都有一个分区。如果是 int,它只能用于 line-delimited JSON 文件,每个分区将大约是这个大小(以字节为单位),到最近的换行符。
- sample: int:
要预加载的字节数,为没有数据的任何块提供空数据帧结构。仅在使用块大小时相关。
- encoding, errors:
文本转换,
see bytes.decode()
- compression:字符串或无
‘gzip’ or ‘xz’ 之类的字符串。
- engine:函数对象,默认
pd.read_json
dask 将用于读取 JSON 文件的底层函数。默认情况下,这将是 pandas JSON 阅读器(
pd.read_json
)。- include_path_column:bool 或 str,可选
在 DataFrame 中每一行的来源文件路径中包含一列。如果是
True
,则会在名为path
的 DataFrame 中添加一个新列。如果str
,设置新的列名。默认为False
。- path_converter:函数或无,可选
一个接受一个参数并返回一个字符串的函数。用于转换
path
列中的路径,例如,从所有路径中去除公共前缀。- meta:pd.DataFrame、pd.Series、dict、可迭代、元组、可选
与输出的 dtypes 和列名匹配的空
pd.DataFrame
或pd.Series
。此元数据对于 dask 数据帧中的许多算法起作用是必需的。为了便于使用,还提供了一些替代输入。可以提供{name: dtype}
的dict
或(name, dtype)
的可迭代对象,而不是DataFrame
(请注意,名称的顺序应与列的顺序匹配)。可以使用(name, dtype)
的元组代替系列。如果未提供,dask 将尝试推断元数据。这可能会导致意外结果,因此建议提供meta
。有关详细信息,请参阅dask.dataframe.utils.make_meta
。
- dask.DataFrame
参数:
返回:
例子:
加载单个文件
>>> dd.read_json('myfile.1.json')
加载多个文件
>>> dd.read_json('myfile.*.json')
>>> dd.read_json(['myfile.1.json', 'myfile.2.json'])
使用大约 256MB 大小的分区加载大型 line-delimited JSON 文件
>> dd.read_json(‘数据/文件*.csv’, blocksize=2**28)
相关用法
- Python dask.dataframe.read_table用法及代码示例
- Python dask.dataframe.read_hdf用法及代码示例
- Python dask.dataframe.read_fwf用法及代码示例
- Python dask.dataframe.read_sql_table用法及代码示例
- Python dask.dataframe.read_parquet用法及代码示例
- Python dask.dataframe.read_csv用法及代码示例
- Python dask.dataframe.read_orc用法及代码示例
- Python dask.dataframe.reshape.get_dummies用法及代码示例
- Python dask.dataframe.rolling.Rolling.var用法及代码示例
- Python dask.dataframe.rolling.Rolling.count用法及代码示例
- Python dask.dataframe.rolling.Rolling.min用法及代码示例
- Python dask.dataframe.rolling.Rolling.quantile用法及代码示例
- Python dask.dataframe.rolling.Rolling.std用法及代码示例
- Python dask.dataframe.rolling.Rolling.sum用法及代码示例
- Python dask.dataframe.rolling.Rolling.kurt用法及代码示例
- Python dask.dataframe.rolling.Rolling.mean用法及代码示例
- Python dask.dataframe.rolling.Rolling.median用法及代码示例
- Python dask.dataframe.Series.apply用法及代码示例
- Python dask.dataframe.to_records用法及代码示例
- Python dask.dataframe.DataFrame.applymap用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.read_json。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。