当前位置: 首页>>技术教程>>正文


词的向量表示(Tensorflow word2vec)

qingchuan 技术教程 , , , , 1条评论

在本教程中,我们看一下Mikolov等人的word2vec模型,该模型用于学习单词的向量表示,称为"word embeddings"。

画重点

  • 我们首先给出了为什么我们想要将单词表示为向量的动机。
  • 我们观察模型背后的直觉以及如何训练(用数学方法来衡量)。
  • 我们还在TensorFlow中展示了一个简单的模型实现。
  • 最后,我们看看如何让初级版本更好地扩展。

在本教程中我们稍后介绍代码,但是如果您希望直接进入,请随时查看简单的实现tensorflow/examples/tutorials/word2vec/word2vec_basic.py 这个基本的例子包含了下载一些数据所需的代码,对它进行一些训练并将结果可视化。一旦你阅读和运行了基本版本,你可以毕业了models/tutorials/embedding/word2vec.py这是一个更严格的实现,展示了一些更高级的TensorFlow原理,如何有效地使用线程将数据移动到文本模型中,如何在训练过程中设置检查点等。

但首先,我们来看看为什么我们想要学习单词嵌入(word embedding)。如果你是一个Embedding专家,你可以跳过这个部分。

动机:为什么学习Word嵌入?

图像和音频处理系统在大量且高维的数据集一起工作,该高维数据集被编码为用于图像数据的各个原始像素向量,或者例如音频数据的功率谱密度系数。对于像图像物体或语音识别这样的任务,我们知道成功执行任务所需的所有信息都被编码在数据中(因为人类可以从原始数据执行这些任务)。然而,自然语言处理系统传统上把单词当作离散的原子符号,因此'cat'可以表示为Id537,而'dog'为Id143。这些编码是任意的,并且不提供关于各个符号之间可能存在的关系。这意味着模型在处理有关'dogs'(例如动物,four-legged,宠物等)的数据时不能充分利用'cats'的相关知识。将单词表示为唯一的离散标识还会导致数据稀疏,通常意味着我们可能需要更多数据才能成功地训练统计模型。使用矢量表示可以部分克服这些障碍。

向量空间模型(VSM)将单词表示为(嵌入)到连续向量空间,其中语义上相似的单词被映射到附近的点('彼此嵌入在一起')。 VSM在NLP中有着悠久而丰富的历史,但是所有的方法都依赖于某种方式分布假设,其中指出,出现在相同语境中的词语具有相同语义意义。利用这一原则的不同方法可以分为两类:count-based方法(例如。潜在的语义分析)和预测方法(例如。神经概率语言模型)。

这个区别更详细的阐述参考Baroni等人,但简而言之:Count-based方法计算一个词与其相邻词在一个大文本语料库中共现频率的统计,然后将每个词的这些count-statistics映射到小而密集向量。预测模型直接从邻居单词预测当前词,从而尝试学习小而密嵌入向量(考虑模型的参数)。

Word2vec是一个特别的可高效计算的预测模型,用于从原始文本中学习单词嵌入。它有两种方式,连续Bag-of-Words模型(CBOW)和Skip-Gram模型(第3.1和3.2节Mikolov等人)。在算法上,这些模型是类似的,除了CBOW从源上下文词('cat坐在')预测目标词(例如'mat'),而skip-gram做相反的并且从目标词预测上下文单词。这种倒置可能看起来像是一种任意的选择,但从统计上来看,CBOW具有平滑许多分布信息的效果(通过将整个上下文视为一个观察)。大部分情况下,这对于较小的数据集是一个有用的东西。但是,skip-gram将每个上下文目标对视为一个新的观测值,而当我们有更大的数据集时,这往往会更好。我们将在本教程的其余部分重点介绍skip-gram模型。

扩大Noise-Contrastive训练

神经概率语言模型传统上使用的训练依据是最大似然(ML)的原则,以最大化给出前面的单词 \(h \) (对于"history")时下一个单词 \(w_t \) 的概率(对于"target"),采用的方式是SOFTMAX函数

\(\begin{align}P(w_t | h) &= \text{softmax} (\text{score} (w_t, h)) \\ &= \frac{\exp \{ \text{score} (w_t, h) \} }{\sum_\text{Word w' in Vocab} \exp \{ \text{score} (w', h) \} }\end{align}\)

其中 \(\text {score}(w_t, h)\) 计算word \(w_t \) 与上下文 \(h \) 的兼容性(通常使用点积)。我们通过最大化log-likelihood来训练这个模型。在训练集上,即通过最大化

\(\begin{align}J_\text{ML} &= \log P(w_t | h) \\ &= \text{score} (w_t, h) - \log \left( \sum_\text{Word w' in Vocab} \exp \{ \text{score} (w', h) \} \right). \end{align}\)

这产生了一个适当的规范化的语言建模概率模型。然而,这是非常昂贵的,因为在每一个训练阶段, 我们需要使用当前上下文 \(h \) 中的所有其他 \(V \) 个词 \(w'\) 的分数来计算和归一化每个概率。

另一方面,对于word2vec中的特征学习,我们不需要完全的概率模型。 CBOW和skip-gram模型是使用二元分类目标(逻辑回归),在相同的上下文中区分来自 \(k \) 虚数(噪声)单词 \(\ tilde w \) 和实际目标单词 \(w_t \) 。我们在下面对CBOW模型进行说明。对于skip-gram,方向是简单的倒转。

在数学上,目标(对于每个示例)是最大化的

\( J_ \text {NEG} = \log Q_ \theta(D = 1 | w_t, h)+ k \mathop {\mathbb {E}} _ {\tilde w \sim P_ \text {noise}} \left [\log Q_ \theta(D = 0 | \tilde w, h)\right] \)

其中 \(Q_ \theta(D = 1 | w, h)\) 是数据集 \(D\) 中上下文 \(h \) ,根据学习的嵌入向量 \(\theta \) 计算。在实践中,我们通过从噪声分布中取出 \(k\) 对比词来近似期望(即,我们计算a蒙特卡洛平均)。

当模型将高概率分配给真实的词时,这个目标是最大化的,对噪声词的概率低。从技术上讲,这被称为负采样,并且使用这个损失函数有很好的数学动机:它提出的更新近似于极限情况下softmax函数的更新。并且从计算角度来看,这是非常有吸引力的,因为计算损失函数现在只能随着噪音词数量的变化而变化,即我们选择的( \(k \) ),而不是词汇( \(V \) )表中的所有单词。这使得训练要快得多。实际上我们会利用非常相似的noise-contrastive估计(NCE)损失,为此TensorFlow有一个方便的帮手功能tf.nn.nce_loss()

让我们直观地感受一下,在实践中这将如何工作!

Skip-gram模型

作为一个例子,我们来考虑一下数据集

the quick brown fox jumped over the lazy dog

我们首先构造一个数据集,它包括单词及其出现的上下文。我们可以用任何有意义的方式定义上下文'context',事实上人们已经研究过句法上下文(即当前目标单词的句法依赖,参见例如Levy等人),目标左边的单词,目标右边的单词,等等。让我们锁定在普通定义上,界定'context'为目标单词上的一个窗口,它包含左边和右边的单词。使用1的窗口大小,我们有数据集

([the, brown], quick), ([quick, fox], brown), ([brown, jumped], fox), ...

(context, target)对。回想一下,skip-gram颠倒上下文和目标,并试图从目标字中预测每个上下文字,所以任务变为预测来自'quick'的'the'和'brown',来自'brown'的'quick'和'fox'等。因此,我们的数据集变成

(quick, the), (quick, brown), (brown, quick), (brown, fox), ...

(input, output)对。目标函数是在整个数据集上定义的,但是我们通常使用随机梯度下降(SGD)对这个函数进行优化,一次使用一个示例(或'minibatch',batch_size例子,典型的16 <= batch_size <= 512)。所以让我们来看看这个过程的一个步骤。

让我们想象在训练步骤 \(t\) 我们观察上面的第一个训练案例,目标是从quick预测the。我们选择通过从一些噪声分布(通常是单字符分布)中提取噪声(对比)样本,数量为num_noise。(P(w))。为了简单,让我们设置num_noise=1我们选择sheep作为一个噪声样本。接下来,我们计算这对观察到的和有噪声的例子的损失,即在时间步骤 \(t \) 处的目标变成

\(J^{(t)}_\text{NEG} = \log Q_\theta(D=1 | \text{the, quick}) + \log(Q_\theta(D=0 | \text{sheep, quick}))\)

目标是对嵌入参数 \(\theta \) 进行更新以改进(在这种情况下,最大化)这个目标函数。我们通过推导相对于嵌入参数的损失梯度来实现,即 \(\frac{\partial}{\partial \theta} J_\text{NEG}\) ,(Tensorflow有简单的辅助功能来做到这一点!)。然后,我们通过向梯度方向迈出一小步来更新嵌入。当这个过程在整个训练集上重复时,这将对每个单词产生移动('moving')嵌入向量的效果,直到模型成功识别真实单词与噪声单词为止。

我们可以通过使用例如t-SNE降维技术类似的东西,将它们投影到2维来可视化所学习的向量。当我们检查这些可视化时,显然这些向量捕捉到了一些一般的,实际上相当有用的,关于单词的语义信息及相互之间的关系。非常有趣的是,向量空间中的某些方向专注于特定的语义关系。例如,男性-女性动词时态,乃至国家-首都,如下图所示(另见例如Mikolov等,2013)。

这解释了为什么这些矢量也可以用作许多典型NLP预测任务的特征,例如词类标记或命名实体识别(例如,参见Collobert等人,2011(PDF格式),或follow-up工作Turian等人,2010)。

但现在,让我们用它们来绘制美丽的图画!

建立图表

首先,来定义我们的embedding矩阵。作为开始,这只是一个很大的随机矩阵,我们将使用均匀分布初始化单位立方体中的值。

embeddings = tf.Variable(
    tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))

noise-contrastive评估损失是根据逻辑回归模型定义的。为此,我们需要为词汇中的每个单词定义权重和偏差

nce_weights = tf.Variable(
  tf.truncated_normal([vocabulary_size, embedding_size],
                      stddev=1.0 / math.sqrt(embedding_size)))
nce_biases = tf.Variable(tf.zeros([vocabulary_size]))

现在我们已经有了参数,我们可以定义我们的skip-gram模型图。为了简单起见,假设我们已经将文本语料库与词汇表进行了整合,以便将每个词表示为一个整数(参见tensorflow/examples/tutorials/word2vec/word2vec_basic.py的细节)。 skip-gram模型需要两个输入。一个是一批代表源语境词汇的整数,另一个是针对目标词汇的整数。让我们为这些输入创建占位符节点,以便稍后输入数据。

# Placeholders for inputs
train_inputs = tf.placeholder(tf.int32, shape=[batch_size])
train_labels = tf.placeholder(tf.int32, shape=[batch_size, 1])

现在我们需要做的是查找batch中每个源词的向量。 TensorFlow有方便的帮手,使这个实现起来很简单。

embed = tf.nn.embedding_lookup(embeddings, train_inputs)

好的,现在我们已经为每个单词Embedding了,我们想用noise-contrastive训练目标来预测目标单词。

# Compute the NCE loss, using a sample of the negative labels each time.
loss = tf.reduce_mean(
  tf.nn.nce_loss(weights=nce_weights,
                 biases=nce_biases,
                 labels=train_labels,
                 inputs=embed,
                 num_sampled=num_sampled,
                 num_classes=vocabulary_size))

现在我们有一个损失节点,我们需要添加计算梯度所需的节点并更新参数等等。为此,我们将使用随机梯度下降,并且TensorFlow也有方便的帮助器来使这一点变得容易。

# We use the SGD optimizer.
optimizer = tf.train.GradientDescentOptimizer(learning_rate=1.0).minimize(loss)

训练模型

训练模型就是简单地使用feed_dict将数据推送到占位符和调用tf.Session.run

for inputs, labels in generate_batch(...):
  feed_dict = {train_inputs: inputs, train_labels: labels}
  _, cur_loss = session.run([optimizer, loss], feed_dict=feed_dict)

请参阅完整的示例代码tensorflow /示例/教程/word2vec /word2vec_basic.py

Embedding的可视化

训练完成后,我们可以使用t-SNE可视化已学习的Embedding。

瞧!如预期的那样,相似的单词最终彼此聚集在一起。对于展示更多TensorFlow高级功能的更重量级的word2vec实现,请参阅models/tutorials/embedding/word2vec.py

评估Embedding:类比推理(Analogical Reasoning)

Embedding对于NLP中的各种预测任务是有用的。在训练full-blown词类模型或命名实体模型之后,评估Embedding的一种简单方法是直接使用它们来预测句法和语义关系king is to queen as father is to ?。这就是所谓的类比推理,此任务是由Mikolov和同事引入的。可从下载该任务的数据集。

要知道如何做这个评估,看看build_eval_graph()eval()函数,它们在models/tutorials/embedding/word2vec.py.

超参数的选择可以强烈影响此任务的准确性。为了在这个任务上实现state-of-the-art性能,需要对一个非常大的数据集进行训练,仔细调整超参数并利用诸如子采样数据这样的技巧,这超出了本教程的范围。

优化实现

我们的普通实施展示了TensorFlow的灵活性。例如,改变训练目标就像把调用tf.nn.nce_loss()换成现成的tf.nn.sampled_softmax_loss()一样简单。如果您对损失函数有新的想法,则可以在TensorFlow中手动为新目标编写一个表达式,然后让优化器计算其导数。这种灵活性在机器学习模型开发的探索阶段是非常有价值的,在这个阶段我们正在尝试几个不同的想法并且快速迭代。

一旦你有一个满意的模型结构,就可以考虑优化你的实现从而更有效地运行(在更短的时间内覆盖更多的数据)。例如,我们在本教程中使用的朴素代码将会有不利影响,因为我们使用Python来读取和提供数据项 - 而这在TensorFlow后端上只需要很少的工作。如果您发现您的模型对输入数据有严重的瓶颈,您可能需要为您的问题实现自定义数据读取器,如新的数据格式。对于Skip-Gram建模的例子,我们实际上已经为你做了这个例子 models/tutorials/embedding/word2vec.py

如果您的模型不再受I/O限制,但您仍希望获得更高的性能,则可以通过编写自己的TensorFlow Ops来进一步处理,如添加一个新的操作。我们再次为Skip-Gram案例提供了一个例子models/tutorials/embedding/word2vec_optimized.py。可以随意对这些对方进行基准测试,以衡量每个阶段的性能改进。

结论

在本教程中,我们介绍了word2vec模型,这是一个用于学习单词嵌入的高效计算模型。我们激发了为什么嵌入是有用的,讨论了高效的训练技术,并展示了如何在TensorFlow中实现所有这些功能。

参考资料

本文由《纯净的天空》出品。文章地址: https://vimsky.com/article/3662.html,未经允许,请勿转载。

一条评论

  1. qingchuan 2018年3月5日 21:43

    word2vec