tf.estimator快速入门

TensorFlow的high-level机器学习API(tf.estimator)可以轻松配置、训练和评估各种机器学习模型。在本教程中，您将使用tf.estimator构造一个神经网络分类器，在iris数据集上进行训练并根据萼片/花瓣几何学参数预测花的种类。您将编写代码来执行以下五个步骤：

将包含iris训练/测试数据的CSV加载到TensorFlow中的Dataset
构建一个神经网络分类器
使用训练数据训练模型
评估模型的准确性
分类新样品

注意：在开始本教程之前，请在你的机器上安装TensorFlow。

完整的神经网络源代码

以下是神经网络分类器的完整代码：

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import os
from six.moves.urllib.request import urlopen

import numpy as np
import tensorflow as tf

# Data sets
IRIS_TRAINING = "iris_training.csv"
IRIS_TRAINING_URL = "http://download.tensorflow.org/data/iris_training.csv"

IRIS_TEST = "iris_test.csv"
IRIS_TEST_URL = "http://download.tensorflow.org/data/iris_test.csv"

def main():
  # If the training and test sets aren't stored locally, download them.
  if not os.path.exists(IRIS_TRAINING):
    raw = urlopen(IRIS_TRAINING_URL).read()
    with open(IRIS_TRAINING, "wb") as f:
      f.write(raw)

  if not os.path.exists(IRIS_TEST):
    raw = urlopen(IRIS_TEST_URL).read()
    with open(IRIS_TEST, "wb") as f:
      f.write(raw)

  # Load datasets.
  training_set = tf.contrib.learn.datasets.base.load_csv_with_header(
      filename=IRIS_TRAINING,
      target_dtype=np.int,
      features_dtype=np.float32)
  test_set = tf.contrib.learn.datasets.base.load_csv_with_header(
      filename=IRIS_TEST,
      target_dtype=np.int,
      features_dtype=np.float32)

  # Specify that all features have real-value data
  feature_columns = [tf.feature_column.numeric_column("x", shape=[4])]

  # Build 3 layer DNN with 10, 20, 10 units respectively.
  classifier = tf.estimator.DNNClassifier(feature_columns=feature_columns,
                                          hidden_units=[10, 20, 10],
                                          n_classes=3,
                                          model_dir="/tmp/iris_model")
  # Define the training inputs
  train_input_fn = tf.estimator.inputs.numpy_input_fn(
      x={"x": np.array(training_set.data)},
      y=np.array(training_set.target),
      num_epochs=None,
      shuffle=True)

  # Train model.
  classifier.train(input_fn=train_input_fn, steps=2000)

  # Define the test inputs
  test_input_fn = tf.estimator.inputs.numpy_input_fn(
      x={"x": np.array(test_set.data)},
      y=np.array(test_set.target),
      num_epochs=1,
      shuffle=False)

  # Evaluate accuracy.
  accuracy_score = classifier.evaluate(input_fn=test_input_fn)["accuracy"]

  print("\nTest Accuracy: {0:f}\n".format(accuracy_score))

  # Classify two new flower samples.
  new_samples = np.array(
      [[6.4, 3.2, 4.5, 1.5],
       [5.8, 3.1, 5.0, 1.7]], dtype=np.float32)
  predict_input_fn = tf.estimator.inputs.numpy_input_fn(
      x={"x": new_samples},
      num_epochs=1,
      shuffle=False)

  predictions = list(classifier.predict(input_fn=predict_input_fn))
  predicted_classes = [p["classes"] for p in predictions]

  print(
      "New Samples, Class Predictions:    {}\n"
      .format(predicted_classes))

if __name__ == "__main__":
    main()

以下部分详细介绍了代码。

将Iris CSV数据加载到TensorFlow

该iris数据集包含150行数据，包括来自三个相关iris种类的每一类50个样本：iris setosa，iris virginica，和iris versicolor。

Petal geometry compared for three iris species: Iris setosa, Iris virginica, and Iris versicolor 从左到右，iris setosa(通过Radomil，CC BY-SA 3.0)，iris versicolor(通过Dlanglois，CC BY-SA 3.0)和iris virginica(通过弗兰克梅菲尔德，CC BY-SA 2.0)。

每行包含每个花样的以下数据：萼片长度，萼片宽度，花瓣长度，花瓣宽度和花卉种类。花种以整数表示，0表示iris setosa，1表示iris versicolor，2表示iris virginica。

萼片长度	萼片宽度	花瓣长度	花瓣宽度	种类
5.1	3.5	1.4	0.2	0
4.9	3.0	1.4	0.2	0
4.7	3.2	1.3	0.2	0
…	…	…	…	…
7	3.2	4.7	1.4	1
6.4	3.2	4.5	1.5	1
6.9	3.1	4.9	1.5	1
…	…	…	…	…
6.5	3.0	5.2	2.0	2
6.2	3.4	5.4	2.3	2
5.9	3.0	5.1	1.8	2

对于本教程，iris数据已被随机分成两个独立的CSV：

A training set of 120 samples
(iris_training.csv)
A test set of 30 samples
(iris_test.csv).

要开始，首先导入所有必要的模块，并定义下载和存储数据集的位置：

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import os
from six.moves.urllib.request import urlopen

import tensorflow as tf
import numpy as np

IRIS_TRAINING = "iris_training.csv"
IRIS_TRAINING_URL = "http://download.tensorflow.org/data/iris_training.csv"

IRIS_TEST = "iris_test.csv"
IRIS_TEST_URL = "http://download.tensorflow.org/data/iris_test.csv"

然后，如果训练和测试集尚未存储在本地，则下载它们。

if not os.path.exists(IRIS_TRAINING):
  raw = urlopen(IRIS_TRAINING_URL).read()
  with open(IRIS_TRAINING,'wb') as f:
    f.write(raw)

if not os.path.exists(IRIS_TEST):
  raw = urlopen(IRIS_TEST_URL).read()
  with open(IRIS_TEST,'wb') as f:
    f.write(raw)

接下来，将训练和测试集加载到Dataset，使用load_csv_with_header()方法learn.datasets.base。load_csv_with_header()方法需要三个必需的参数：

filename，CSV文件路径
target_dtype，这需要numpy数据类型的数据集的目标值。
features_dtype，这需要numpy数据类型数据集的特征值。

在这里，目标(你正在训练模型来预测的值)是花的种类，它是一个0-2的整数，所以适当的numpy数据类型是np.int：

# Load datasets.
training_set = tf.contrib.learn.datasets.base.load_csv_with_header(
    filename=IRIS_TRAINING,
    target_dtype=np.int,
    features_dtype=np.float32)
test_set = tf.contrib.learn.datasets.base.load_csv_with_header(
    filename=IRIS_TEST,
    target_dtype=np.int,
    features_dtype=np.float32)

Dataset在tf.contrib.learn中，是命名元组;您可以通过data和target字段访问功能数据和目标值。这里，training_set.data和training_set.target分别包含训练集的特征数据和目标值test_set.data和test_set.target包含测试集的特征数据和目标值。

之后，在“用DNNClassifier拟合iris训练数据”你会用training_set.data和training_set.target训练你的模型，用test_set.data和test_set.target“评估模型的准确性”。

构建深度神经网络分类器

tf.estimator提供了各种预定义的模型，称为Estimators，您可以使用“开箱即用”对数据进行训练和评估操作。在这里，您将配置深度神经网络分类器模型以拟合Iris数据。使用tf.estimator，你可以实例化你的tf.estimator.DNNClassifier只需要几行代码：

# Specify that all features have real-value data
feature_columns = [tf.feature_column.numeric_column("x", shape=[4])]

# Build 3 layer DNN with 10, 20, 10 units respectively.
classifier = tf.estimator.DNNClassifier(feature_columns=feature_columns,
                                        hidden_units=[10, 20, 10],
                                        n_classes=3,
                                        model_dir="/tmp/iris_model")

上面的代码首先定义模型的特征列，它指定数据集中特征的数据类型。所有的特征数据都是连续的，tf.feature_column.numeric_column是用于构造特征列的适当函数。数据集中有四个特征(萼片宽度，萼片高度，花瓣宽度和花瓣高度)，因此shape必须设置为[4]保存所有数据。

然后，代码创建一个DNNClassifier模型，使用以下参数：

feature_columns=feature_columns。特征列。
hidden_units=[10, 20, 10]。三隐藏的图层，分别含有10,20和10个神经元。
n_classes=3。三个目标类，代表三个iris种类。
model_dir=/tmp/iris_model。 TensorFlow将在模型训练期间保存检查点数据和TensorBoard摘要的目录。

描述训练输入的pipeline

该tf.estimatorAPI使用输入函数，这些函数创建生成模型数据的TensorFlow操作。我们可以用tf.estimator.inputs.numpy_input_fn生产输入管道：

# Define the training inputs
train_input_fn = tf.estimator.inputs.numpy_input_fn(
    x={"x": np.array(training_set.data)},
    y=np.array(training_set.target),
    num_epochs=None,
    shuffle=True)

使用DNNClassifier拟合Iris训练数据

现在你已经配置了你的DNNclassifier模型，你可以用它来拟合Iris训练数据，使用train方法。传入train_input_fn作为input_fn，以及要训练的步数(这里是2000)：

# Train model.
classifier.train(input_fn=train_input_fn, steps=2000)

模型的状态保存在classifier这意味着如果你喜欢，你可以反复训练。例如，上面的代买和以下内容相当：

classifier.train(input_fn=train_input_fn, steps=1000)
classifier.train(input_fn=train_input_fn, steps=1000)

但是，如果您想在训练时跟踪模型，则可能需要使用TensorFlowSessionRunHook执行日志记录操作。

评估模型的准确性

完成模型训练之后，就可以检查Iris测试数据的准确性了，使用evaluate方法。跟train一样，evaluate需要一个输入函数来建立它的输入管道。evaluate返回一个dict保存的评估结果。以下代码将Iris测试数据 – test_set.data和test_set.target传入evaluate并打印accuracy结果：

# Define the test inputs
test_input_fn = tf.estimator.inputs.numpy_input_fn(
    x={"x": np.array(test_set.data)},
    y=np.array(test_set.target),
    num_epochs=1,
    shuffle=False)

# Evaluate accuracy.
accuracy_score = classifier.evaluate(input_fn=test_input_fn)["accuracy"]

print("\nTest Accuracy: {0:f}\n".format(accuracy_score))

当你运行完整的脚本时，它会打印出一些接近的内容：

Test Accuracy: 0.966667

您的结果准确性可能会有所不同，但应该高于90％。在一个相对较小的数据集上，这个效果已经很不错了！

分类新样本

使用估算器predict()方法分类新样本。例如，假设你有这两个新的花样本：

萼片长度	萼片宽度	花瓣长度	花瓣宽度
6.4	3.2	4.5	1.5
5.8	3.1	5	1.7

你可以用predict()方法来预测它们的种类。predict返回一个字符串生成器，它可以很容易地转换为列表。以下代码检索并打印类的预测结果：

# Classify two new flower samples.
new_samples = np.array(
    [[6.4, 3.2, 4.5, 1.5],
     [5.8, 3.1, 5.0, 1.7]], dtype=np.float32)
predict_input_fn = tf.estimator.inputs.numpy_input_fn(
    x={"x": new_samples},
    num_epochs=1,
    shuffle=False)

predictions = list(classifier.predict(input_fn=predict_input_fn))
predicted_classes = [p["classes"] for p in predictions]

print(
    "New Samples, Class Predictions:    {}\n"
    .format(predicted_classes))

你的结果应该如下所示：

New Samples, Class Predictions:    [1 2]

因此模型预测第一个样本是Iris versicolor，第二个样本是iris virginica。

其他资源

To learn more about using tf.estimator to create linear models, see
Large-scale Linear Models with TensorFlow.
To build your own Estimator using tf.estimator APIs, check out
Creating Estimators in tf.estimator.
To experiment with neural network modeling and visualization in the browser,
check out Deep Playground.
For more advanced tutorials on neural networks, see
Convolutional Neural Networks and Recurrent Neural
Networks.

参考资料

tf.estimator Quickstart

萼片长度	萼片宽度	花瓣长度	花瓣宽度	种类
5.1	3.5	1.4	0.2	0
4.9	3.0	1.4	0.2	0
4.7	3.2	1.3	0.2	0
…	…	…	…	…
7	3.2	4.7	1.4	1
6.4	3.2	4.5	1.5	1
6.9	3.1	4.9	1.5	1
…	…	…	…	…
6.5	3.0	5.2	2.0	2
6.2	3.4	5.4	2.3	2
5.9	3.0	5.1	1.8	2

萼片长度	萼片宽度	花瓣长度	花瓣宽度	种类
5.1	3.5	1.4	0.2	0
4.9	3.0	1.4	0.2	0
4.7	3.2	1.3	0.2	0
…	…	…	…	…
7	3.2	4.7	1.4	1
6.4	3.2	4.5	1.5	1
6.9	3.1	4.9	1.5	1
…	…	…	…	…
6.5	3.0	5.2	2.0	2
6.2	3.4	5.4	2.3	2
5.9	3.0	5.1	1.8	2

萼片长度	萼片宽度	花瓣长度	花瓣宽度	种类
5.1	3.5	1.4	0.2	0
4.9	3.0	1.4	0.2	0
4.7	3.2	1.3	0.2	0
…	…	…	…	…
7	3.2	4.7	1.4	1
6.4	3.2	4.5	1.5	1
6.9	3.1	4.9	1.5	1
…	…	…	…	…
6.5	3.0	5.2	2.0	2
6.2	3.4	5.4	2.3	2
5.9	3.0	5.1	1.8	2