用法:
cudf.read_csv(filepath_or_buffer, lineterminator='\n', quotechar='"', quoting=0, doublequote=True, header='infer', mangle_dupe_cols=True, usecols=None, sep=',', delimiter=None, delim_whitespace=False, skipinitialspace=False, names=None, dtype=None, skipfooter=0, skiprows=0, dayfirst=False, compression='infer', thousands=None, decimal='.', true_values=None, false_values=None, nrows=None, byte_range=None, skip_blank_lines=True, parse_dates=None, comment=None, na_values=None, keep_default_na=True, na_filter=True, prefix=None, index_col=None, use_python_file_object=True, **kwargs)
將comma-seperated-values (CSV) 數據集加載到 DataFrame 中
- filepath_or_buffer:str、路徑對象或 file-like 對象
文件路徑(
str
,pathlib.Path
或py._path.local.LocalPath
)、URL(包括 http、ftp 和 S3 位置)或具有read()
方法的任何對象(例如內置的open()
文件處理函數或StringIO
)。- sep:字符,默認“,”
要使用的分隔符。
- delimiter:字符,默認無
sep 的替代參數名稱。
- delim_whitespace:布爾值,默認為 False
確定是否使用空格作為分隔符。
- lineterminator:字符,默認 ‘n’
表示行尾的字符。
- skipinitialspace:布爾值,默認為 False
分隔符後跳過空格。
- names:str 列表,默認無
要使用的列名列表。
- dtype:type, str, list of types, or dict of column -> type, default None
數據或列的數據類型。如果
dtype
是類型/字符串,則所有列都映射到傳遞的特定類型。如果是列表,則類型的應用順序與列名相同。如果是 dict,則類型映射到列名。例如: {‘a’: np.float64, ‘b’: int32, ‘c’: ‘float’} 如果None
,則從數據集中推斷數據類型。使用str
來保存數據,而不是推斷或解釋為 dtype。- quotechar:字符,默認'''
指示引號項目開始和結束的字符。
- quoting:str 或 int,默認 0
控製引用行為。設置為 0 (csv.QUOTE_MINIMAL)、1 (csv.QUOTE_ALL)、2 (csv.QUOTE_NONNUMERIC) 或 3 (csv.QUOTE_NONE) 之一。對除 3 之外的所有值啟用引用。
- doublequote:布爾值,默認為真
啟用引號時,指示是否將字段內的兩個連續引號字符解釋為單引號字符
- header:整數,默認 ‘infer’
用作列名的行號。默認行為是推斷列名:如果沒有傳遞名稱,則 header=0;如果列名被顯式傳遞,header=None。
- usecols:int 或 str 列表,默認無
返回列表中給定列的子集。所有元素必須是整數索引(列號)或對應於列名的字符串
- mangle_dupe_cols:布爾值,默認 True
重複的列將被指定為“X”、“X.1”、...“X.N”。
- skiprows:整數,默認 0
從文件開頭跳過的行數。
- skipfooter:整數,默認 0
文件底部要跳過的行數。
- compression:{‘infer’, ‘gzip’, ‘zip’, 無},默認 ‘infer’
用於on-disk 數據的即時解壓縮。如果‘infer’,則從以下擴展名中檢測壓縮:'.gz','.zip'(否則不解壓縮)。如果使用‘zip’,ZIP 文件必須隻包含一個要讀入的數據文件,否則將使用第一個非零大小的文件。設置為無表示不解壓。
- decimal:字符,默認“。”
用作小數點的字符。
- thousands:字符,默認無
用作千位分隔符的字符。
- true_values:列表,默認無
考慮為布爾值的值 True
- false_values:列表,默認無
考慮為布爾值的值 False
- nrows:整數,默認無
如果指定,則要讀取的最大行數
- byte_range:列表或元組,默認無
要讀取的輸入文件中的字節範圍。第一個數字是以字節為單位的偏移量,第二個數字是以字節為單位的範圍大小。將大小設置為零以讀取偏移位置之後的所有數據。讀取在範圍結束之前或結束處開始的行,即使它在範圍結束之後結束。
- skip_blank_lines:布爾值,默認為真
如果為 True,則丟棄並且不解析空行如果為 False,則將空行解釋為 NaN 值
- parse_dates:int 或名稱列表,默認無
如果是列列表,則嘗試將每個條目解析為日期。列可能並不總是被識別為日期,例如由於異常或非標準格式。要保證日期並提高解析速度,請為所需列顯式指定
dtype=’date’
。- comment:字符,默認無
用作評論指示符的字符。如果在一行的開頭找到,則該行將被完全忽略。
- na_values:標量、str 或 list-like,可選
要識別為空值的附加字符串。默認情況下,以下值被解釋為空值:''、'#N/A'、'#N/AN/A'、'#NA'、'-1.#IND'、'-1.#QNAN'、 '-NaN'、'-nan'、'1.#IND'、'1.#QNAN'、'<NA>'、'N/A'、'NA'、'NULL'、'NaN'、'n /a',‘nan’, ‘null’。
- keep_default_na:布爾值,默認為真
解析數據時是否包含默認的 NA 值。
- na_filter:布爾值,默認為真
檢測缺失值(空字符串和na_values 中的值)。傳遞 False 可以提高性能。
- prefix:str,默認無
在沒有標題行的情況下解析時添加到列號的前綴
- index_col:int,字符串或假,默認無
用作 DataFrame 的行標簽的列。傳遞
index_col=False
顯式禁用索引列推斷並丟棄最後一列。- use_python_file_object:布爾值,默認 True
如果為 True,則在 IO 時將使用Arrow-backed PythonFile 對象代替 fsspec AbstractBufferedFile 對象。從較大的 CSV 文件進行少量讀取時,此選項可能會提高性能。
- GPU
DataFrame
對象。
- GPU
參數:
返回:
注意:
- cuDF 支持本地和遠程數據存儲。請參閱可用源 這裏 的配置詳細信息。
例子:
創建一個測試 csv 文件
>>> import cudf >>> filename = 'foo.csv' >>> lines = [ ... "num1,datetime,text", ... "123,2018-11-13T12:00:00,abc", ... "456,2018-11-14T12:35:01,def", ... "789,2018-11-15T18:02:59,ghi" ... ] >>> with open(filename, 'w') as fp: ... fp.write('\n'.join(lines)+'\n')
使用
cudf.read_csv
讀取文件>>> cudf.read_csv(filename) num1 datetime text 0 123 2018-11-13T12:00:00.000 5451 1 456 2018-11-14T12:35:01.000 5784 2 789 2018-11-15T18:02:59.000 6117
相關用法
- Python cudf.read_feather用法及代碼示例
- Python cudf.read_parquet用法及代碼示例
- Python cudf.read_orc用法及代碼示例
- Python cudf.core.column.string.StringMethods.is_vowel用法及代碼示例
- Python cudf.Series.ceil用法及代碼示例
- Python cudf.core.column.string.StringMethods.endswith用法及代碼示例
- Python cudf.Series.update用法及代碼示例
- Python cudf.DataFrame.mod用法及代碼示例
- Python cudf.DataFrame.isin用法及代碼示例
- Python cudf.core.column.string.StringMethods.title用法及代碼示例
- Python cudf.DataFrame.rmul用法及代碼示例
- Python cudf.Series.max用法及代碼示例
- Python cudf.DatetimeIndex.dayofweek用法及代碼示例
- Python cudf.DataFrame.apply用法及代碼示例
- Python cudf.core.column.string.StringMethods.contains用法及代碼示例
- Python cudf.core.column.string.StringMethods.rsplit用法及代碼示例
- Python cudf.DataFrame.exp用法及代碼示例
- Python cudf.Series.head用法及代碼示例
- Python cudf.DataFrame.drop用法及代碼示例
- Python cudf.core.column.string.StringMethods.zfill用法及代碼示例
注:本文由純淨天空篩選整理自rapids.ai大神的英文原創作品 cudf.read_csv。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。