谷歌机器学习课程笔记(9)——特征组合

特征组合是指两个或多个特征相乘形成的合成特征。特征的相乘组合可以提供超出这些特征单独能够提供的预测能力。

 

一、对非线性规律进行编码

 

有的问题是个非线性问题,无法用一条线就将数据分成两类。

要解决非线性问题,可以创建一个特征组合。特征组合是指通过将两个或多个输入特征相乘来对特征空间中的非线性规律进行编码的合成特征。我们通过将 x1 与 x2 组合来创建一个名为 x3 的特征组合:

x3=x1x2

我们像处理任何其他特征一样来处理这个新建的 x3 特征组合。线性公式变为:

y=b+w1x1+w2x2+w3x3

线性算法可以算出 w3 的权重,就像算出 w1 和 w2 的权重一样。换言之,虽然 w3 表示非线性信息,但不需要改变线性模型的训练方式来确定 w3 的值。

特征组合的种类

可以创建很多不同种类的特征组合。例如:

  • [A X B]:将两个特征的值相乘形成的特征组合。
  • [A x B x C x D x E]:将五个特征的值相乘形成的特征组合。
  • [A x A]:对单个特征的值求平方形成的特征组合。

通过采用随机梯度下降法,可以有效地训练线性模型。因此,在使用扩展的线性模型时辅以特征组合一直都是训练大规模数据集的有效方法。

 

二、组合独热矢量

 

在实践中,机器学习模型很少会组合连续特征。不过,机器学习模型却经常组合独热特征矢量,将独热特征矢量的特征组合视为逻辑连接。

假设具有两个特征,对每个特征进行独热编码会生成具有二元特征的矢量,然后对这些独热编码进行特征组合,则会得到可解读为逻辑连接的二元特征。

在某些情况下,多个特征构建的特征组合获得的预测能力将远远超过任一特征单独的预测能力。

线性学习器可以很好地扩展到大量数据。对大规模数据集使用特征组合是学习高度复杂模型的一种有效策略。

Pingbacks已关闭。

Trackbacks

评论已关闭