當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python pyspark read_csv用法及代碼示例

本文簡要介紹 pyspark.pandas.read_csv 的用法。

用法:

pyspark.pandas.read_csv(path: str, sep: str = ',', header: Union[str, int, None] = 'infer', names: Union[str, List[str], None] = None, index_col: Union[str, List[str], None] = None, usecols: Union[List[int], List[str], Callable[[str], bool], None] = None, squeeze: bool = False, mangle_dupe_cols: bool = True, dtype: Union[str, numpy.dtype, pandas.core.dtypes.base.ExtensionDtype, Dict[str, Union[str, numpy.dtype, pandas.core.dtypes.base.ExtensionDtype]], None] = None, nrows: Optional[int] = None, parse_dates: bool = False, quotechar: Optional[str] = None, escapechar: Optional[str] = None, comment: Optional[str] = None, **options: Any) → Union[pyspark.pandas.frame.DataFrame, pyspark.pandas.series.Series]

將 CSV(逗號分隔)文件讀入 DataFrame 或係列。

參數

pathstr

存儲要讀取的 CSV 文件的路徑字符串。

sepstr,默認“,”

要使用的分隔符。必須是單個字符。

header整數,默認 ‘infer’

是否用作列名,以及數據的開頭。默認行為是推斷列名:如果沒有傳遞名稱,則行為與 header=0 相同,並且從文件的第一行推斷列名,如果顯式傳遞列名,則行為與 header=None 相同.顯式傳遞 header=0 以便能夠替換現有名稱

namesstr 或類似數組,可選

要使用的列名列表。如果文件不包含標題行,那麽您應該明確傳遞 header=None 。此列表中的重複項將導致發出錯誤。如果給定一個字符串,它應該是 Spark SQL 中的 DDL 格式的字符串,為了更好的性能,最好避免模式推斷。

index_col: str or list of str, optional, default: None

Spark中表的索引列。

usecolslist-like 或可調用,可選

返回列的子集。如果list-like,所有元素必須是位置的(即文檔列的整數索引)或與用戶在名稱中提供的列名或從文檔標題行推斷的列名相對應的字符串。如果可調用,可調用函數將根據列名進行評估,返回可調用函數評估為 True 的名稱。

squeeze布爾值,默認為 False

如果解析的數據隻包含一列,則返回一個係列。

mangle_dupe_cols布爾值,默認為真

重複的列將被指定為“X0”、“X1”、……“XN”,而不是“X”……“X”。如果列中存在重複名稱,則傳入 False 將導致數據被覆蓋。目前隻允許True

dtype類型名稱或列的字典 -> 類型,默認無

數據或列的數據類型。例如: {‘a’: np.float64, ‘b’: np.int32} 使用 str 或 object 以及合適的 na_values 設置來保留而不是解釋 dtype。

nrows整數,默認無

從 CSV 文件中讀取的行數。

parse_dates布爾值或整數或名稱列表或列表或字典列表,默認為 False

目前隻允許False

quotecharstr(長度 1),可選

用於表示引用項的開始和結束的字符。引用的項目可以包含分隔符,它將被忽略。

escapecharstr(長度 1),默認無

One-character 用於轉義分隔符的字符串

comment: str, optional

指示不應解析該行。

optionsdict

所有其他選項直接傳遞到 Spark 的數據源。

返回

DataFrame 或係列

例子

>>> ps.read_csv('data.csv')

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.read_csv。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。