当前位置: 首页>>编程示例 >>用法及示例精选 >>正文


Python pyspark read_csv用法及代码示例

本文简要介绍 pyspark.pandas.read_csv 的用法。

用法:

pyspark.pandas.read_csv(path: str, sep: str = ',', header: Union[str, int, None] = 'infer', names: Union[str, List[str], None] = None, index_col: Union[str, List[str], None] = None, usecols: Union[List[int], List[str], Callable[[str], bool], None] = None, squeeze: bool = False, mangle_dupe_cols: bool = True, dtype: Union[str, numpy.dtype, pandas.core.dtypes.base.ExtensionDtype, Dict[str, Union[str, numpy.dtype, pandas.core.dtypes.base.ExtensionDtype]], None] = None, nrows: Optional[int] = None, parse_dates: bool = False, quotechar: Optional[str] = None, escapechar: Optional[str] = None, comment: Optional[str] = None, **options: Any) → Union[pyspark.pandas.frame.DataFrame, pyspark.pandas.series.Series]

将 CSV(逗号分隔)文件读入 DataFrame 或系列。

参数

pathstr

存储要读取的 CSV 文件的路径字符串。

sepstr,默认“,”

要使用的分隔符。必须是单个字符。

header整数,默认 ‘infer’

是否用作列名,以及数据的开头。默认行为是推断列名:如果没有传递名称,则行为与 header=0 相同,并且从文件的第一行推断列名,如果显式传递列名,则行为与 header=None 相同.显式传递 header=0 以便能够替换现有名称

namesstr 或类似数组,可选

要使用的列名列表。如果文件不包含标题行,那么您应该明确传递 header=None 。此列表中的重复项将导致发出错误。如果给定一个字符串,它应该是 Spark SQL 中的 DDL 格式的字符串,为了更好的性能,最好避免模式推断。

index_col: str or list of str, optional, default: None

Spark中表的索引列。

usecolslist-like 或可调用,可选

返回列的子集。如果list-like,所有元素必须是位置的(即文档列的整数索引)或与用户在名称中提供的列名或从文档标题行推断的列名相对应的字符串。如果可调用,可调用函数将根据列名进行评估,返回可调用函数评估为 True 的名称。

squeeze布尔值,默认为 False

如果解析的数据只包含一列,则返回一个系列。

mangle_dupe_cols布尔值,默认为真

重复的列将被指定为“X0”、“X1”、……“XN”,而不是“X”……“X”。如果列中存在重复名称,则传入 False 将导致数据被覆盖。目前只允许True

dtype类型名称或列的字典 -> 类型,默认无

数据或列的数据类型。例如: {‘a’: np.float64, ‘b’: np.int32} 使用 str 或 object 以及合适的 na_values 设置来保留而不是解释 dtype。

nrows整数,默认无

从 CSV 文件中读取的行数。

parse_dates布尔值或整数或名称列表或列表或字典列表,默认为 False

目前只允许False

quotecharstr(长度 1),可选

用于表示引用项的开始和结束的字符。引用的项目可以包含分隔符,它将被忽略。

escapecharstr(长度 1),默认无

One-character 用于转义分隔符的字符串

comment: str, optional

指示不应解析该行。

optionsdict

所有其他选项直接传递到 Spark 的数据源。

返回

DataFrame 或系列

例子

>>> ps.read_csv('data.csv')

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.read_csv。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。