用法:
cudf.read_csv(filepath_or_buffer, lineterminator='\n', quotechar='"', quoting=0, doublequote=True, header='infer', mangle_dupe_cols=True, usecols=None, sep=',', delimiter=None, delim_whitespace=False, skipinitialspace=False, names=None, dtype=None, skipfooter=0, skiprows=0, dayfirst=False, compression='infer', thousands=None, decimal='.', true_values=None, false_values=None, nrows=None, byte_range=None, skip_blank_lines=True, parse_dates=None, comment=None, na_values=None, keep_default_na=True, na_filter=True, prefix=None, index_col=None, use_python_file_object=True, **kwargs)
将comma-seperated-values (CSV) 数据集加载到 DataFrame 中
- filepath_or_buffer:str、路径对象或 file-like 对象
文件路径(
str
,pathlib.Path
或py._path.local.LocalPath
)、URL(包括 http、ftp 和 S3 位置)或具有read()
方法的任何对象(例如内置的open()
文件处理函数或StringIO
)。- sep:字符,默认“,”
要使用的分隔符。
- delimiter:字符,默认无
sep 的替代参数名称。
- delim_whitespace:布尔值,默认为 False
确定是否使用空格作为分隔符。
- lineterminator:字符,默认 ‘n’
表示行尾的字符。
- skipinitialspace:布尔值,默认为 False
分隔符后跳过空格。
- names:str 列表,默认无
要使用的列名列表。
- dtype:type, str, list of types, or dict of column -> type, default None
数据或列的数据类型。如果
dtype
是类型/字符串,则所有列都映射到传递的特定类型。如果是列表,则类型的应用顺序与列名相同。如果是 dict,则类型映射到列名。例如: {‘a’: np.float64, ‘b’: int32, ‘c’: ‘float’} 如果None
,则从数据集中推断数据类型。使用str
来保存数据,而不是推断或解释为 dtype。- quotechar:字符,默认'''
指示引号项目开始和结束的字符。
- quoting:str 或 int,默认 0
控制引用行为。设置为 0 (csv.QUOTE_MINIMAL)、1 (csv.QUOTE_ALL)、2 (csv.QUOTE_NONNUMERIC) 或 3 (csv.QUOTE_NONE) 之一。对除 3 之外的所有值启用引用。
- doublequote:布尔值,默认为真
启用引号时,指示是否将字段内的两个连续引号字符解释为单引号字符
- header:整数,默认 ‘infer’
用作列名的行号。默认行为是推断列名:如果没有传递名称,则 header=0;如果列名被显式传递,header=None。
- usecols:int 或 str 列表,默认无
返回列表中给定列的子集。所有元素必须是整数索引(列号)或对应于列名的字符串
- mangle_dupe_cols:布尔值,默认 True
重复的列将被指定为“X”、“X.1”、...“X.N”。
- skiprows:整数,默认 0
从文件开头跳过的行数。
- skipfooter:整数,默认 0
文件底部要跳过的行数。
- compression:{‘infer’, ‘gzip’, ‘zip’, 无},默认 ‘infer’
用于on-disk 数据的即时解压缩。如果‘infer’,则从以下扩展名中检测压缩:'.gz','.zip'(否则不解压缩)。如果使用‘zip’,ZIP 文件必须只包含一个要读入的数据文件,否则将使用第一个非零大小的文件。设置为无表示不解压。
- decimal:字符,默认“。”
用作小数点的字符。
- thousands:字符,默认无
用作千位分隔符的字符。
- true_values:列表,默认无
考虑为布尔值的值 True
- false_values:列表,默认无
考虑为布尔值的值 False
- nrows:整数,默认无
如果指定,则要读取的最大行数
- byte_range:列表或元组,默认无
要读取的输入文件中的字节范围。第一个数字是以字节为单位的偏移量,第二个数字是以字节为单位的范围大小。将大小设置为零以读取偏移位置之后的所有数据。读取在范围结束之前或结束处开始的行,即使它在范围结束之后结束。
- skip_blank_lines:布尔值,默认为真
如果为 True,则丢弃并且不解析空行如果为 False,则将空行解释为 NaN 值
- parse_dates:int 或名称列表,默认无
如果是列列表,则尝试将每个条目解析为日期。列可能并不总是被识别为日期,例如由于异常或非标准格式。要保证日期并提高解析速度,请为所需列显式指定
dtype=’date’
。- comment:字符,默认无
用作评论指示符的字符。如果在一行的开头找到,则该行将被完全忽略。
- na_values:标量、str 或 list-like,可选
要识别为空值的附加字符串。默认情况下,以下值被解释为空值:''、'#N/A'、'#N/AN/A'、'#NA'、'-1.#IND'、'-1.#QNAN'、 '-NaN'、'-nan'、'1.#IND'、'1.#QNAN'、'<NA>'、'N/A'、'NA'、'NULL'、'NaN'、'n /a',‘nan’, ‘null’。
- keep_default_na:布尔值,默认为真
解析数据时是否包含默认的 NA 值。
- na_filter:布尔值,默认为真
检测缺失值(空字符串和na_values 中的值)。传递 False 可以提高性能。
- prefix:str,默认无
在没有标题行的情况下解析时添加到列号的前缀
- index_col:int,字符串或假,默认无
用作 DataFrame 的行标签的列。传递
index_col=False
显式禁用索引列推断并丢弃最后一列。- use_python_file_object:布尔值,默认 True
如果为 True,则在 IO 时将使用Arrow-backed PythonFile 对象代替 fsspec AbstractBufferedFile 对象。从较大的 CSV 文件进行少量读取时,此选项可能会提高性能。
- GPU
DataFrame
对象。
- GPU
参数:
返回:
注意:
- cuDF 支持本地和远程数据存储。请参阅可用源 这里 的配置详细信息。
例子:
创建一个测试 csv 文件
>>> import cudf >>> filename = 'foo.csv' >>> lines = [ ... "num1,datetime,text", ... "123,2018-11-13T12:00:00,abc", ... "456,2018-11-14T12:35:01,def", ... "789,2018-11-15T18:02:59,ghi" ... ] >>> with open(filename, 'w') as fp: ... fp.write('\n'.join(lines)+'\n')
使用
cudf.read_csv
读取文件>>> cudf.read_csv(filename) num1 datetime text 0 123 2018-11-13T12:00:00.000 5451 1 456 2018-11-14T12:35:01.000 5784 2 789 2018-11-15T18:02:59.000 6117
相关用法
- Python cudf.read_feather用法及代码示例
- Python cudf.read_parquet用法及代码示例
- Python cudf.read_orc用法及代码示例
- Python cudf.core.column.string.StringMethods.is_vowel用法及代码示例
- Python cudf.Series.ceil用法及代码示例
- Python cudf.core.column.string.StringMethods.endswith用法及代码示例
- Python cudf.Series.update用法及代码示例
- Python cudf.DataFrame.mod用法及代码示例
- Python cudf.DataFrame.isin用法及代码示例
- Python cudf.core.column.string.StringMethods.title用法及代码示例
- Python cudf.DataFrame.rmul用法及代码示例
- Python cudf.Series.max用法及代码示例
- Python cudf.DatetimeIndex.dayofweek用法及代码示例
- Python cudf.DataFrame.apply用法及代码示例
- Python cudf.core.column.string.StringMethods.contains用法及代码示例
- Python cudf.core.column.string.StringMethods.rsplit用法及代码示例
- Python cudf.DataFrame.exp用法及代码示例
- Python cudf.Series.head用法及代码示例
- Python cudf.DataFrame.drop用法及代码示例
- Python cudf.core.column.string.StringMethods.zfill用法及代码示例
注:本文由纯净天空筛选整理自rapids.ai大神的英文原创作品 cudf.read_csv。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。