pyspark.pandas.read_csv
的用法。用法:
pyspark.pandas.read_csv(path: str, sep: str = ',', header: Union[str, int, None] = 'infer', names: Union[str, List[str], None] = None, index_col: Union[str, List[str], None] = None, usecols: Union[List[int], List[str], Callable[[str], bool], None] = None, squeeze: bool = False, mangle_dupe_cols: bool = True, dtype: Union[str, numpy.dtype, pandas.core.dtypes.base.ExtensionDtype, Dict[str, Union[str, numpy.dtype, pandas.core.dtypes.base.ExtensionDtype]], None] = None, nrows: Optional[int] = None, parse_dates: bool = False, quotechar: Optional[str] = None, escapechar: Optional[str] = None, comment: Optional[str] = None, **options: Any) → Union[pyspark.pandas.frame.DataFrame, pyspark.pandas.series.Series]
将 CSV(逗号分隔)文件读入 DataFrame 或系列。
- path:str
存储要读取的 CSV 文件的路径字符串。
- sep:str,默认“,”
要使用的分隔符。必须是单个字符。
- header:整数,默认 ‘infer’
是否用作列名,以及数据的开头。默认行为是推断列名:如果没有传递名称,则行为与
header=0
相同,并且从文件的第一行推断列名,如果显式传递列名,则行为与header=None
相同.显式传递header=0
以便能够替换现有名称- names:str 或类似数组,可选
要使用的列名列表。如果文件不包含标题行,那么您应该明确传递
header=None
。此列表中的重复项将导致发出错误。如果给定一个字符串,它应该是 Spark SQL 中的 DDL 格式的字符串,为了更好的性能,最好避免模式推断。- index_col: str or list of str, optional, default: None:
Spark中表的索引列。
- usecols:list-like 或可调用,可选
返回列的子集。如果list-like,所有元素必须是位置的(即文档列的整数索引)或与用户在名称中提供的列名或从文档标题行推断的列名相对应的字符串。如果可调用,可调用函数将根据列名进行评估,返回可调用函数评估为
True
的名称。- squeeze:布尔值,默认为 False
如果解析的数据只包含一列,则返回一个系列。
- mangle_dupe_cols:布尔值,默认为真
重复的列将被指定为“X0”、“X1”、……“XN”,而不是“X”……“X”。如果列中存在重复名称,则传入 False 将导致数据被覆盖。目前只允许
True
。- dtype:类型名称或列的字典 -> 类型,默认无
数据或列的数据类型。例如: {‘a’: np.float64, ‘b’: np.int32} 使用 str 或 object 以及合适的 na_values 设置来保留而不是解释 dtype。
- nrows:整数,默认无
从 CSV 文件中读取的行数。
- parse_dates:布尔值或整数或名称列表或列表或字典列表,默认为
False
。 目前只允许
False
。- quotechar:str(长度 1),可选
用于表示引用项的开始和结束的字符。引用的项目可以包含分隔符,它将被忽略。
- escapechar:str(长度 1),默认无
One-character 用于转义分隔符的字符串
- comment: str, optional:
指示不应解析该行。
- options:dict
所有其他选项直接传递到 Spark 的数据源。
- DataFrame 或系列
参数:
返回:
例子:
>>> ps.read_csv('data.csv')
相关用法
- Python pyspark read_json用法及代码示例
- Python pyspark read_parquet用法及代码示例
- Python pyspark read_spark_io用法及代码示例
- Python pyspark read_delta用法及代码示例
- Python pyspark read_orc用法及代码示例
- Python pyspark read_table用法及代码示例
- Python pyspark read_sql_query用法及代码示例
- Python pyspark read_excel用法及代码示例
- Python pyspark read_sql_table用法及代码示例
- Python pyspark read_sql用法及代码示例
- Python pyspark read_html用法及代码示例
- Python pyspark reverse用法及代码示例
- Python pyspark register_index_accessor用法及代码示例
- Python pyspark register_series_accessor用法及代码示例
- Python pyspark regexp_extract用法及代码示例
- Python pyspark repeat用法及代码示例
- Python pyspark register_dataframe_accessor用法及代码示例
- Python pyspark regexp_replace用法及代码示例
- Python pyspark range用法及代码示例
- Python pyspark rand用法及代码示例
- Python pyspark rpad用法及代码示例
- Python pyspark round用法及代码示例
- Python pyspark randn用法及代码示例
- Python pyspark create_map用法及代码示例
- Python pyspark date_add用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.read_csv。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。