谷歌机器学习课程笔记(5)——泛化

一、过拟合

 

泛化是指模型很好地拟合以前未见过的新数据(从用于创建该模型的同一分布中抽取)的能力。

如果一个模型在训练过程中产生的损失很低,但在预测新数据方面的表现却非常糟糕,这表明该模型过拟合了训练数据的特性。过拟合是由于模型的复杂程度超出所需程度而造成的。机器学习的基本冲突是适当拟合我们的数据,但也要尽可能简单地拟合数据。

奥卡姆剃刀定律在机器学习方面的运用如下:机器学习模型越简单,良好的实证结果就越有可能不仅仅基于样本的特性。

模型泛化到新数据的能力,可以用以下因素表示:

  • 模型的复杂程度
  • 模型在处理训练数据方面的表现

机器学习模型旨在根据以前未见过的新数据做出良好预测。但是,如果要根据数据集构建模型,如何获得以前未见过的数据呢?一种方法是将数据集分成两个子集:

  • 训练集 - 用于训练模型的子集。
  • 测试集 - 用于测试模型的子集。

一般来说,在测试集上表现是否良好是衡量能否在新数据上表现良好的有用指标,前提是:

  • 测试集足够大。
  • 不反复使用相同的测试集。

 

二、机器学习细则

 

以下三项基本假设阐明了泛化:

  • 我们从分布中随机抽取独立同分布 (i.i.d) 的样本。换言之,样本之间不会互相影响。(另一种解释:i.i.d. 是表示变量随机性的一种方式)。
  • 分布是平稳的;即分布在数据集内不会发生变化。
  • 我们从同一分布的数据划分中抽取样本。

在实践中,我们有时会违背这些假设。如果违背了上述三项基本假设中的任何一项,那么我们就必须密切注意指标。

Pingbacks已关闭。

Trackbacks

评论已关闭