当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python tf.compat.v1.data.experimental.CsvDataset用法及代码示例


包含来自一个或多个 CSV 文件的行的数据集。

继承自:DatasetDataset

用法

tf.compat.v1.data.experimental.CsvDataset(
    filenames, record_defaults, compression_type=None, buffer_size=None,
    header=False, field_delim=',', use_quote_delim=True,
    na_value='', select_cols=None, exclude_cols=None
)

参数

  • filenames 包含一个或多个文件名的tf.string 张量。
  • record_defaults CSV 字段的默认值列表。列表中的每个项目或者是有效的 CSV DType(float32、float64、int32、int64、字符串),或者是具有上述类型之一的 Tensor 对象。每列一个 CSV 数据,如果是可选的,则为该列的标量 Tensor 默认值,或者如果需要,则为 DType 或空的 Tensor。如果同时指定了 this 和 select_columns,则它们必须具有相同的长度,并且假定 column_defaults 是按列索引递增的顺序排序的。如果同时指定了 this 和 'exclude_cols',则 record_defaults 和 exclude_cols 的长度总和应等于 CSV 文件中的总列数。
  • compression_type (可选。)tf.string 标量评估为 ""(无压缩)、"ZLIB""GZIP" 之一。默认为无压缩。
  • buffer_size (可选。)tf.int64 标量,表示读取文件时要缓冲的字节数。默认为 4MB。
  • header (可选。)tf.bool 标量,指示 CSV 文件是否具有在解析时应跳过的标题行。默认为 False
  • field_delim (可选。)tf.string 标量包含分隔记录中的字段的分隔符。默认为 ","
  • use_quote_delim (可选。)tf.bool 标量。如果 False ,将双引号视为字符串字段中的常规字符(忽略 RFC 4180,第 2 节,第 5 条)。默认为 True
  • na_value (可选。)tf.string 标量,指示将被视为 NA/NaN 的值。
  • select_cols (可选。)要从输入数据中选择的列索引的排序列表。如果指定,将仅解析此列子集。默认解析所有列。最多可以指定select_colsexclude_cols 之一。

属性

  • element_spec 此数据集元素的类型规范。
    dataset = tf.data.Dataset.from_tensor_slices([1, 2, 3])
    dataset.element_spec
    TensorSpec(shape=(), dtype=tf.int32, name=None)

    如需更多信息,请阅读本指南。

  • output_classes 返回此数据集元素的每个组件的类。 (已弃用)

    警告:此函数已弃用。它将在未来的版本中删除。更新说明:使用 tf.compat.v1.data.get_output_classes(dataset)

  • output_shapes 返回此数据集元素的每个组件的形状。 (已弃用)

    警告:此函数已弃用。它将在未来的版本中删除。更新说明:使用 tf.compat.v1.data.get_output_shapes(dataset)

  • output_types 返回此数据集元素的每个组件的类型。 (已弃用)

    警告:此函数已弃用。它将在未来的版本中删除。更新说明:使用 tf.compat.v1.data.get_output_types(dataset)

相关用法


注:本文由纯净天空筛选整理自tensorflow.org大神的英文原创作品 tf.compat.v1.data.experimental.CsvDataset。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。