当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python cudf.read_csv用法及代码示例


用法:

cudf.read_csv(filepath_or_buffer, lineterminator='\n', quotechar='"', quoting=0, doublequote=True, header='infer', mangle_dupe_cols=True, usecols=None, sep=',', delimiter=None, delim_whitespace=False, skipinitialspace=False, names=None, dtype=None, skipfooter=0, skiprows=0, dayfirst=False, compression='infer', thousands=None, decimal='.', true_values=None, false_values=None, nrows=None, byte_range=None, skip_blank_lines=True, parse_dates=None, comment=None, na_values=None, keep_default_na=True, na_filter=True, prefix=None, index_col=None, use_python_file_object=True, **kwargs)

将comma-seperated-values (CSV) 数据集加载到 DataFrame 中

参数

filepath_or_bufferstr、路径对象或 file-like 对象

文件路径(str , pathlib.Pathpy._path.local.LocalPath)、URL(包括 http、ftp 和 S3 位置)或具有 read() 方法的任何对象(例如内置的 open() 文件处理函数或StringIO)。

sep字符,默认“,”

要使用的分隔符。

delimiter字符,默认无

sep 的替代参数名称。

delim_whitespace布尔值,默认为 False

确定是否使用空格作为分隔符。

lineterminator字符,默认 ‘n’

表示行尾的字符。

skipinitialspace布尔值,默认为 False

分隔符后跳过空格。

namesstr 列表,默认无

要使用的列名列表。

dtypetype, str, list of types, or dict of column -> type, default None

数据或列的数据类型。如果dtype 是类型/字符串,则所有列都映射到传递的特定类型。如果是列表,则类型的应用顺序与列名相同。如果是 dict,则类型映射到列名。例如: {‘a’: np.float64, ‘b’: int32, ‘c’: ‘float’} 如果 None ,则从数据集中推断数据类型。使用 str 来保存数据,而不是推断或解释为 dtype。

quotechar字符,默认'''

指示引号项目开始和结束的字符。

quotingstr 或 int,默认 0

控制引用行为。设置为 0 (csv.QUOTE_MINIMAL)、1 (csv.QUOTE_ALL)、2 (csv.QUOTE_NONNUMERIC) 或 3 (csv.QUOTE_NONE) 之一。对除 3 之外的所有值启用引用。

doublequote布尔值,默认为真

启用引号时,指示是否将字段内的两个连续引号字符解释为单引号字符

header整数,默认 ‘infer’

用作列名的行号。默认行为是推断列名:如果没有传递名称,则 header=0;如果列名被显式传递,header=None。

usecolsint 或 str 列表,默认无

返回列表中给定列的子集。所有元素必须是整数索引(列号)或对应于列名的字符串

mangle_dupe_cols布尔值,默认 True

重复的列将被指定为“X”、“X.1”、...“X.N”。

skiprows整数,默认 0

从文件开头跳过的行数。

skipfooter整数,默认 0

文件底部要跳过的行数。

compression{‘infer’, ‘gzip’, ‘zip’, 无},默认 ‘infer’

用于on-disk 数据的即时解压缩。如果‘infer’,则从以下扩展名中检测压缩:'.gz','.zip'(否则不解压缩)。如果使用‘zip’,ZIP 文件必须只包含一个要读入的数据文件,否则将使用第一个非零大小的文件。设置为无表示不解压。

decimal字符,默认“。”

用作小数点的字符。

thousands字符,默认无

用作千位分隔符的字符。

true_values列表,默认无

考虑为布尔值的值 True

false_values列表,默认无

考虑为布尔值的值 False

nrows整数,默认无

如果指定,则要读取的最大行数

byte_range列表或元组,默认无

要读取的输入文件中的字节范围。第一个数字是以字节为单位的偏移量,第二个数字是以字节为单位的范围大小。将大小设置为零以读取偏移位置之后的所有数据。读取在范围结束之前或结束处开始的行,即使它在范围结束之后结束。

skip_blank_lines布尔值,默认为真

如果为 True,则丢弃并且不解析空行如果为 False,则将空行解释为 NaN 值

parse_datesint 或名称列表,默认无

如果是列列表,则尝试将每个条目解析为日期。列可能并不总是被识别为日期,例如由于异常或非标准格式。要保证日期并提高解析速度,请为所需列显式指定dtype=’date’

comment字符,默认无

用作评论指示符的字符。如果在一行的开头找到,则该行将被完全忽略。

na_values标量、str 或 list-like,可选

要识别为空值的附加字符串。默认情况下,以下值被解释为空值:''、'#N/A'、'#N/AN/A'、'#NA'、'-1.#IND'、'-1.#QNAN'、 '-NaN'、'-nan'、'1.#IND'、'1.#QNAN'、'<NA>'、'N/A'、'NA'、'NULL'、'NaN'、'n /a',‘nan’, ‘null’。

keep_default_na布尔值,默认为真

解析数据时是否包含默认的 NA 值。

na_filter布尔值,默认为真

检测缺失值(空字符串和na_values 中的值)。传递 False 可以提高性能。

prefixstr,默认无

在没有标题行的情况下解析时添加到列号的前缀

index_colint,字符串或假,默认无

用作 DataFrame 的行标签的列。传递 index_col=False 显式禁用索引列推断并丢弃最后一列。

use_python_file_object布尔值,默认 True

如果为 True,则在 IO 时将使用Arrow-backed PythonFile 对象代替 fsspec AbstractBufferedFile 对象。从较大的 CSV 文件进行少量读取时,此选项可能会提高性能。

返回

GPU DataFrame 对象。

注意

  • cuDF 支持本地和远程数据存储。请参阅可用源 这里 的配置详细信息。

例子

创建一个测试 csv 文件

>>> import cudf
>>> filename = 'foo.csv'
>>> lines = [
...   "num1,datetime,text",
...   "123,2018-11-13T12:00:00,abc",
...   "456,2018-11-14T12:35:01,def",
...   "789,2018-11-15T18:02:59,ghi"
... ]
>>> with open(filename, 'w') as fp:
...     fp.write('\n'.join(lines)+'\n')

使用cudf.read_csv 读取文件

>>> cudf.read_csv(filename)
  num1                datetime text
0  123 2018-11-13T12:00:00.000 5451
1  456 2018-11-14T12:35:01.000 5784
2  789 2018-11-15T18:02:59.000 6117

相关用法


注:本文由纯净天空筛选整理自rapids.ai大神的英文原创作品 cudf.read_csv。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。