當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python cudf.read_csv用法及代碼示例

用法:

cudf.read_csv(filepath_or_buffer, lineterminator='\n', quotechar='"', quoting=0, doublequote=True, header='infer', mangle_dupe_cols=True, usecols=None, sep=',', delimiter=None, delim_whitespace=False, skipinitialspace=False, names=None, dtype=None, skipfooter=0, skiprows=0, dayfirst=False, compression='infer', thousands=None, decimal='.', true_values=None, false_values=None, nrows=None, byte_range=None, skip_blank_lines=True, parse_dates=None, comment=None, na_values=None, keep_default_na=True, na_filter=True, prefix=None, index_col=None, use_python_file_object=True, **kwargs)

將comma-seperated-values (CSV) 數據集加載到 DataFrame 中

參數

filepath_or_bufferstr、路徑對象或 file-like 對象

文件路徑(str , pathlib.Pathpy._path.local.LocalPath)、URL(包括 http、ftp 和 S3 位置)或具有 read() 方法的任何對象(例如內置的 open() 文件處理函數或StringIO)。

sep字符,默認“,”

要使用的分隔符。

delimiter字符,默認無

sep 的替代參數名稱。

delim_whitespace布爾值,默認為 False

確定是否使用空格作為分隔符。

lineterminator字符,默認 ‘n’

表示行尾的字符。

skipinitialspace布爾值,默認為 False

分隔符後跳過空格。

namesstr 列表,默認無

要使用的列名列表。

dtypetype, str, list of types, or dict of column -> type, default None

數據或列的數據類型。如果dtype 是類型/字符串,則所有列都映射到傳遞的特定類型。如果是列表,則類型的應用順序與列名相同。如果是 dict,則類型映射到列名。例如: {‘a’: np.float64, ‘b’: int32, ‘c’: ‘float’} 如果 None ,則從數據集中推斷數據類型。使用 str 來保存數據,而不是推斷或解釋為 dtype。

quotechar字符,默認'''

指示引號項目開始和結束的字符。

quotingstr 或 int,默認 0

控製引用行為。設置為 0 (csv.QUOTE_MINIMAL)、1 (csv.QUOTE_ALL)、2 (csv.QUOTE_NONNUMERIC) 或 3 (csv.QUOTE_NONE) 之一。對除 3 之外的所有值啟用引用。

doublequote布爾值,默認為真

啟用引號時,指示是否將字段內的兩個連續引號字符解釋為單引號字符

header整數,默認 ‘infer’

用作列名的行號。默認行為是推斷列名:如果沒有傳遞名稱,則 header=0;如果列名被顯式傳遞,header=None。

usecolsint 或 str 列表,默認無

返回列表中給定列的子集。所有元素必須是整數索引(列號)或對應於列名的字符串

mangle_dupe_cols布爾值,默認 True

重複的列將被指定為“X”、“X.1”、...“X.N”。

skiprows整數,默認 0

從文件開頭跳過的行數。

skipfooter整數,默認 0

文件底部要跳過的行數。

compression{‘infer’, ‘gzip’, ‘zip’, 無},默認 ‘infer’

用於on-disk 數據的即時解壓縮。如果‘infer’,則從以下擴展名中檢測壓縮:'.gz','.zip'(否則不解壓縮)。如果使用‘zip’,ZIP 文件必須隻包含一個要讀入的數據文件,否則將使用第一個非零大小的文件。設置為無表示不解壓。

decimal字符,默認“。”

用作小數點的字符。

thousands字符,默認無

用作千位分隔符的字符。

true_values列表,默認無

考慮為布爾值的值 True

false_values列表,默認無

考慮為布爾值的值 False

nrows整數,默認無

如果指定,則要讀取的最大行數

byte_range列表或元組,默認無

要讀取的輸入文件中的字節範圍。第一個數字是以字節為單位的偏移量,第二個數字是以字節為單位的範圍大小。將大小設置為零以讀取偏移位置之後的所有數據。讀取在範圍結束之前或結束處開始的行,即使它在範圍結束之後結束。

skip_blank_lines布爾值,默認為真

如果為 True,則丟棄並且不解析空行如果為 False,則將空行解釋為 NaN 值

parse_datesint 或名稱列表,默認無

如果是列列表,則嘗試將每個條目解析為日期。列可能並不總是被識別為日期,例如由於異常或非標準格式。要保證日期並提高解析速度,請為所需列顯式指定dtype=’date’

comment字符,默認無

用作評論指示符的字符。如果在一行的開頭找到,則該行將被完全忽略。

na_values標量、str 或 list-like,可選

要識別為空值的附加字符串。默認情況下,以下值被解釋為空值:''、'#N/A'、'#N/AN/A'、'#NA'、'-1.#IND'、'-1.#QNAN'、 '-NaN'、'-nan'、'1.#IND'、'1.#QNAN'、'<NA>'、'N/A'、'NA'、'NULL'、'NaN'、'n /a',‘nan’, ‘null’。

keep_default_na布爾值,默認為真

解析數據時是否包含默認的 NA 值。

na_filter布爾值,默認為真

檢測缺失值(空字符串和na_values 中的值)。傳遞 False 可以提高性能。

prefixstr,默認無

在沒有標題行的情況下解析時添加到列號的前綴

index_colint,字符串或假,默認無

用作 DataFrame 的行標簽的列。傳遞 index_col=False 顯式禁用索引列推斷並丟棄最後一列。

use_python_file_object布爾值,默認 True

如果為 True,則在 IO 時將使用Arrow-backed PythonFile 對象代替 fsspec AbstractBufferedFile 對象。從較大的 CSV 文件進行少量讀取時,此選項可能會提高性能。

返回

GPU DataFrame 對象。

注意

  • cuDF 支持本地和遠程數據存儲。請參閱可用源 這裏 的配置詳細信息。

例子

創建一個測試 csv 文件

>>> import cudf
>>> filename = 'foo.csv'
>>> lines = [
...   "num1,datetime,text",
...   "123,2018-11-13T12:00:00,abc",
...   "456,2018-11-14T12:35:01,def",
...   "789,2018-11-15T18:02:59,ghi"
... ]
>>> with open(filename, 'w') as fp:
...     fp.write('\n'.join(lines)+'\n')

使用cudf.read_csv 讀取文件

>>> cudf.read_csv(filename)
  num1                datetime text
0  123 2018-11-13T12:00:00.000 5451
1  456 2018-11-14T12:35:01.000 5784
2  789 2018-11-15T18:02:59.000 6117

相關用法


注:本文由純淨天空篩選整理自rapids.ai大神的英文原創作品 cudf.read_csv。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。