Python tf.compat.v1.data.experimental.CsvDataset用法及代碼示例

包含來自一個或多個 CSV 文件的行的數據集。

繼承自：Dataset，Dataset

用法

tf.compat.v1.data.experimental.CsvDataset(
    filenames, record_defaults, compression_type=None, buffer_size=None,
    header=False, field_delim=',', use_quote_delim=True,
    na_value='', select_cols=None, exclude_cols=None
)

參數

filenames 包含一個或多個文件名的tf.string 張量。
record_defaults CSV 字段的默認值列表。列表中的每個項目或者是有效的 CSV DType(float32、float64、int32、int64、字符串)，或者是具有上述類型之一的 Tensor 對象。每列一個 CSV 數據，如果是可選的，則為該列的標量 Tensor 默認值，或者如果需要，則為 DType 或空的 Tensor。如果同時指定了 this 和 select_columns，則它們必須具有相同的長度，並且假定 column_defaults 是按列索引遞增的順序排序的。如果同時指定了 this 和 'exclude_cols'，則 record_defaults 和 exclude_cols 的長度總和應等於 CSV 文件中的總列數。
compression_type (可選。)tf.string 標量評估為 ""(無壓縮)、"ZLIB" 或 "GZIP" 之一。默認為無壓縮。
buffer_size (可選。)tf.int64 標量，表示讀取文件時要緩衝的字節數。默認為 4MB。
header (可選。)tf.bool 標量，指示 CSV 文件是否具有在解析時應跳過的標題行。默認為 False 。
field_delim (可選。)tf.string 標量包含分隔記錄中的字段的分隔符。默認為 "," 。
use_quote_delim (可選。)tf.bool 標量。如果 False ，將雙引號視為字符串字段中的常規字符(忽略 RFC 4180，第 2 節，第 5 條)。默認為 True 。
na_value (可選。)tf.string 標量，指示將被視為 NA/NaN 的值。
select_cols (可選。)要從輸入數據中選擇的列索引的排序列表。如果指定，將僅解析此列子集。默認解析所有列。最多可以指定select_cols 和exclude_cols 之一。

屬性

element_spec 此數據集元素的類型規範。

dataset = tf.data.Dataset.from_tensor_slices([1, 2, 3])
dataset.element_spec
TensorSpec(shape=(), dtype=tf.int32, name=None)

如需更多信息，請閱讀本指南。

output_classes 返回此數據集元素的每個組件的類。 (已棄用)
警告：此函數已棄用。它將在未來的版本中刪除。更新說明：使用 tf.compat.v1.data.get_output_classes(dataset) 。
output_shapes 返回此數據集元素的每個組件的形狀。 (已棄用)
警告：此函數已棄用。它將在未來的版本中刪除。更新說明：使用 tf.compat.v1.data.get_output_shapes(dataset) 。
output_types 返回此數據集元素的每個組件的類型。 (已棄用)
警告：此函數已棄用。它將在未來的版本中刪除。更新說明：使用 tf.compat.v1.data.get_output_types(dataset) 。

相關用法

注：本文由純淨天空篩選整理自tensorflow.org大神的英文原創作品 tf.compat.v1.data.experimental.CsvDataset。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。