pyspark.pandas.read_csv
的用法。用法:
pyspark.pandas.read_csv(path: str, sep: str = ',', header: Union[str, int, None] = 'infer', names: Union[str, List[str], None] = None, index_col: Union[str, List[str], None] = None, usecols: Union[List[int], List[str], Callable[[str], bool], None] = None, squeeze: bool = False, mangle_dupe_cols: bool = True, dtype: Union[str, numpy.dtype, pandas.core.dtypes.base.ExtensionDtype, Dict[str, Union[str, numpy.dtype, pandas.core.dtypes.base.ExtensionDtype]], None] = None, nrows: Optional[int] = None, parse_dates: bool = False, quotechar: Optional[str] = None, escapechar: Optional[str] = None, comment: Optional[str] = None, **options: Any) → Union[pyspark.pandas.frame.DataFrame, pyspark.pandas.series.Series]
將 CSV(逗號分隔)文件讀入 DataFrame 或係列。
- path:str
存儲要讀取的 CSV 文件的路徑字符串。
- sep:str,默認“,”
要使用的分隔符。必須是單個字符。
- header:整數,默認 ‘infer’
是否用作列名,以及數據的開頭。默認行為是推斷列名:如果沒有傳遞名稱,則行為與
header=0
相同,並且從文件的第一行推斷列名,如果顯式傳遞列名,則行為與header=None
相同.顯式傳遞header=0
以便能夠替換現有名稱- names:str 或類似數組,可選
要使用的列名列表。如果文件不包含標題行,那麽您應該明確傳遞
header=None
。此列表中的重複項將導致發出錯誤。如果給定一個字符串,它應該是 Spark SQL 中的 DDL 格式的字符串,為了更好的性能,最好避免模式推斷。- index_col: str or list of str, optional, default: None:
Spark中表的索引列。
- usecols:list-like 或可調用,可選
返回列的子集。如果list-like,所有元素必須是位置的(即文檔列的整數索引)或與用戶在名稱中提供的列名或從文檔標題行推斷的列名相對應的字符串。如果可調用,可調用函數將根據列名進行評估,返回可調用函數評估為
True
的名稱。- squeeze:布爾值,默認為 False
如果解析的數據隻包含一列,則返回一個係列。
- mangle_dupe_cols:布爾值,默認為真
重複的列將被指定為“X0”、“X1”、……“XN”,而不是“X”……“X”。如果列中存在重複名稱,則傳入 False 將導致數據被覆蓋。目前隻允許
True
。- dtype:類型名稱或列的字典 -> 類型,默認無
數據或列的數據類型。例如: {‘a’: np.float64, ‘b’: np.int32} 使用 str 或 object 以及合適的 na_values 設置來保留而不是解釋 dtype。
- nrows:整數,默認無
從 CSV 文件中讀取的行數。
- parse_dates:布爾值或整數或名稱列表或列表或字典列表,默認為
False
。 目前隻允許
False
。- quotechar:str(長度 1),可選
用於表示引用項的開始和結束的字符。引用的項目可以包含分隔符,它將被忽略。
- escapechar:str(長度 1),默認無
One-character 用於轉義分隔符的字符串
- comment: str, optional:
指示不應解析該行。
- options:dict
所有其他選項直接傳遞到 Spark 的數據源。
- DataFrame 或係列
參數:
返回:
例子:
>>> ps.read_csv('data.csv')
相關用法
- Python pyspark read_json用法及代碼示例
- Python pyspark read_parquet用法及代碼示例
- Python pyspark read_spark_io用法及代碼示例
- Python pyspark read_delta用法及代碼示例
- Python pyspark read_orc用法及代碼示例
- Python pyspark read_table用法及代碼示例
- Python pyspark read_sql_query用法及代碼示例
- Python pyspark read_excel用法及代碼示例
- Python pyspark read_sql_table用法及代碼示例
- Python pyspark read_sql用法及代碼示例
- Python pyspark read_html用法及代碼示例
- Python pyspark reverse用法及代碼示例
- Python pyspark register_index_accessor用法及代碼示例
- Python pyspark register_series_accessor用法及代碼示例
- Python pyspark regexp_extract用法及代碼示例
- Python pyspark repeat用法及代碼示例
- Python pyspark register_dataframe_accessor用法及代碼示例
- Python pyspark regexp_replace用法及代碼示例
- Python pyspark range用法及代碼示例
- Python pyspark rand用法及代碼示例
- Python pyspark rpad用法及代碼示例
- Python pyspark round用法及代碼示例
- Python pyspark randn用法及代碼示例
- Python pyspark create_map用法及代碼示例
- Python pyspark date_add用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.read_csv。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。