Python cudf.read_csv用法及代碼示例

用法:
cudf.read_csv(filepath_or_buffer, lineterminator='\n', quotechar='"', quoting=0, doublequote=True, header='infer', mangle_dupe_cols=True, usecols=None, sep=',', delimiter=None, delim_whitespace=False, skipinitialspace=False, names=None, dtype=None, skipfooter=0, skiprows=0, dayfirst=False, compression='infer', thousands=None, decimal='.', true_values=None, false_values=None, nrows=None, byte_range=None, skip_blank_lines=True, parse_dates=None, comment=None, na_values=None, keep_default_na=True, na_filter=True, prefix=None, index_col=None, use_python_file_object=True, **kwargs)

將comma-seperated-values (CSV) 數據集加載到 DataFrame 中

參數：

filepath_or_buffer：str、路徑對象或 file-like 對象: 文件路徑(str , pathlib.Path 或 py._path.local.LocalPath)、URL(包括 http、ftp 和 S3 位置)或具有 read() 方法的任何對象(例如內置的 open() 文件處理函數或StringIO)。
sep：字符，默認“，”: 要使用的分隔符。
delimiter：字符，默認無: sep 的替代參數名稱。
delim_whitespace：布爾值，默認為 False: 確定是否使用空格作為分隔符。
lineterminator：字符，默認 ‘n’: 表示行尾的字符。
skipinitialspace：布爾值，默認為 False: 分隔符後跳過空格。
names：str 列表，默認無: 要使用的列名列表。
dtype：type, str, list of types, or dict of column -> type, default None: 數據或列的數據類型。如果dtype 是類型/字符串，則所有列都映射到傳遞的特定類型。如果是列表，則類型的應用順序與列名相同。如果是 dict，則類型映射到列名。例如： {‘a’: np.float64, ‘b’: int32, ‘c’: ‘float’} 如果 None ，則從數據集中推斷數據類型。使用 str 來保存數據，而不是推斷或解釋為 dtype。
quotechar：字符，默認''': 指示引號項目開始和結束的字符。
quoting：str 或 int，默認 0: 控製引用行為。設置為 0 (csv.QUOTE_MINIMAL)、1 (csv.QUOTE_ALL)、2 (csv.QUOTE_NONNUMERIC) 或 3 (csv.QUOTE_NONE) 之一。對除 3 之外的所有值啟用引用。
doublequote：布爾值，默認為真: 啟用引號時，指示是否將字段內的兩個連續引號字符解釋為單引號字符
header：整數，默認 ‘infer’: 用作列名的行號。默認行為是推斷列名：如果沒有傳遞名稱，則 header=0；如果列名被顯式傳遞，header=None。
usecols：int 或 str 列表，默認無: 返回列表中給定列的子集。所有元素必須是整數索引(列號)或對應於列名的字符串
mangle_dupe_cols：布爾值，默認 True: 重複的列將被指定為“X”、“X.1”、...“X.N”。
skiprows：整數，默認 0: 從文件開頭跳過的行數。
skipfooter：整數，默認 0: 文件底部要跳過的行數。
compression：{‘infer’, ‘gzip’, ‘zip’, 無}，默認 ‘infer’: 用於on-disk 數據的即時解壓縮。如果‘infer’，則從以下擴展名中檢測壓縮：'.gz'，'.zip'(否則不解壓縮)。如果使用‘zip’，ZIP 文件必須隻包含一個要讀入的數據文件，否則將使用第一個非零大小的文件。設置為無表示不解壓。
decimal：字符，默認“。”: 用作小數點的字符。
thousands：字符，默認無: 用作千位分隔符的字符。
true_values：列表，默認無: 考慮為布爾值的值 True
false_values：列表，默認無: 考慮為布爾值的值 False
nrows：整數，默認無: 如果指定，則要讀取的最大行數
byte_range：列表或元組，默認無: 要讀取的輸入文件中的字節範圍。第一個數字是以字節為單位的偏移量，第二個數字是以字節為單位的範圍大小。將大小設置為零以讀取偏移位置之後的所有數據。讀取在範圍結束之前或結束處開始的行，即使它在範圍結束之後結束。
skip_blank_lines：布爾值，默認為真: 如果為 True，則丟棄並且不解析空行如果為 False，則將空行解釋為 NaN 值
parse_dates：int 或名稱列表，默認無: 如果是列列表，則嘗試將每個條目解析為日期。列可能並不總是被識別為日期，例如由於異常或非標準格式。要保證日期並提高解析速度，請為所需列顯式指定dtype=’date’。
comment：字符，默認無: 用作評論指示符的字符。如果在一行的開頭找到，則該行將被完全忽略。
na_values：標量、str 或 list-like，可選: 要識別為空值的附加字符串。默認情況下，以下值被解釋為空值：''、'#N/A'、'#N/AN/A'、'#NA'、'-1.#IND'、'-1.#QNAN'、 '-NaN'、'-nan'、'1.#IND'、'1.#QNAN'、'<NA>'、'N/A'、'NA'、'NULL'、'NaN'、'n /a'，‘nan’, ‘null’。
keep_default_na：布爾值，默認為真: 解析數據時是否包含默認的 NA 值。
na_filter：布爾值，默認為真: 檢測缺失值(空字符串和na_values 中的值)。傳遞 False 可以提高性能。
prefix：str，默認無: 在沒有標題行的情況下解析時添加到列號的前綴
index_col：int，字符串或假，默認無: 用作 DataFrame 的行標簽的列。傳遞 index_col=False 顯式禁用索引列推斷並丟棄最後一列。
use_python_file_object：布爾值，默認 True: 如果為 True，則在 IO 時將使用Arrow-backed PythonFile 對象代替 fsspec AbstractBufferedFile 對象。從較大的 CSV 文件進行少量讀取時，此選項可能會提高性能。

GPU DataFrame 對象。

注意：

cuDF 支持本地和遠程數據存儲。請參閱可用源這裏的配置詳細信息。

例子：

創建一個測試 csv 文件

>>> import cudf
>>> filename = 'foo.csv'
>>> lines = [
...   "num1,datetime,text",
...   "123,2018-11-13T12:00:00,abc",
...   "456,2018-11-14T12:35:01,def",
...   "789,2018-11-15T18:02:59,ghi"
... ]
>>> with open(filename, 'w') as fp:
...     fp.write('\n'.join(lines)+'\n')

使用cudf.read_csv 讀取文件

>>> cudf.read_csv(filename)
  num1                datetime text
0  123 2018-11-13T12:00:00.000 5451
1  456 2018-11-14T12:35:01.000 5784
2  789 2018-11-15T18:02:59.000 6117

相關用法

注：本文由純淨天空篩選整理自rapids.ai大神的英文原創作品 cudf.read_csv。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

注意：

例子：