谷歌机器学习课程笔记(9)——特征组合

特征组合是指两个或多个特征相乘形成的合成特征。特征的相乘组合可以提供超出这些特征单独能够提供的预测能力。

 

一、对非线性规律进行编码

 

有的问题是个非线性问题,无法用一条线就将数据分成两类。

要解决非线性问题,可以创建一个特征组合。特征组合是指通过将两个或多个输入特征相乘来对特征空间中的非线性规律进行编码的合成特征。我们通过将 x1 与 x2 组合来创建一个名为 x3 的特征组合:

x3=x1x2

我们像处理任何其他特征一样来处理这个新建的 x3 特征组合。线性公式变为:

y=b+w1x1+w2x2+w3x3

线性算法可以算出 w3 的权重,就像算出 w1 和 w2 的权重一样。换言之,虽然 w ...

继续阅读

谷歌机器学习课程笔记(8)——表示

机器学习模型不能直接看到、听到或感知输入样本。必须创建数据表示,为模型提供有用的信号来了解数据的关键特性。也就是说,为了训练模型,必须选择最能代表数据的特征集。

 

一、特征工程

 

将原始数据映射到特征

下图左侧表示来自输入数据源的原始数据,右侧表示特征矢量,也就是组成数据集中样本的浮点值集。 特征工程指的是将原始数据转换为特征矢量。进行特征工程预计需要大量时间。

机器学习模型通常期望样本表示为实数矢量。这种矢量的构建方法如下:为每个字段衍生特征,然后将它们全部连接到一起。

 

映射数值

机器学习模型根据浮点值进行训练,因此整数和浮点原始数据不需要特殊编码。

 

映射字符串值

模型无法通过字符串值学习规律,因此需要进行一些特征工程来将这些值转换为数字形式:

1、首先,为要表示的所有特征的字符串值定义一个词汇表

2、然后,使用该词汇表创建一个独热编码,用于将指定字符串值表示为二元矢量。在该矢量(与指定的字符串值对应)中:

  • 只有一个元素设为 1
  • 其他所有元素均设为 0

该矢量的长度等于词汇表中的元素数。

 

映射分类(枚举)值

分类特征具有一组离散的可能值 ...

继续阅读

谷歌机器学习课程笔记(7)——验证

通过将数据集划分为训练集和测试集,可以判断给定模型能否很好地泛化到新数据。不过,当进行多轮超参数调整时,仅使用两类数据可能不太够。

 

另一个划分

 

将数据集划分为训练集和测试集。借助这种划分,可以对一个样本集进行训练,然后使用不同的样本集测试模型。采用两种分类之后,工作流程可能如下所示:

 

将数据集划分为两个子集是个不错的想法,但不是万能的。通过将数据集划分为三个子集:训练集、验证集、测试集,可以大幅降低过拟合的发生几率。

使用验证集评估训练集的效果。然后,在模型“通过”验证集之后,使用测试集再次检查评估结果。下图展示了这一新工作流程:

 

在这一经过改进的工作流程中:

1、选择在验证集上获得最佳效果的模型。

2、使用测试集再次检查该模型。

该工作流程之所以更好,原因在于它暴露给测试集的信息更少。

谷歌机器学习课程笔记(6)——训练集和测试集

测试集是用于评估根据训练集开发的模型的数据集。

 

拆分数据

 

数据集可拆分为两个子集:

  • 训练集 - 用于训练模型的子集。
  • 测试集 - 用于测试训练后模型的子集。

测试集需要确保满足以下两个条件:

  • 规模足够大,可产生具有统计意义的结果。
  • 能代表整个数据集。换言之,挑选的测试集的特征应该与训练集的特征相同。

请勿对测试数据进行训练。 如果评估指标取得了意外的好结果,则可能表明不小心对测试集进行了训练。

谷歌机器学习课程笔记(5)——泛化

一、过拟合

 

泛化是指模型很好地拟合以前未见过的新数据(从用于创建该模型的同一分布中抽取)的能力。

如果一个模型在训练过程中产生的损失很低,但在预测新数据方面的表现却非常糟糕,这表明该模型过拟合了训练数据的特性。过拟合是由于模型的复杂程度超出所需程度而造成的。机器学习的基本冲突是适当拟合我们的数据,但也要尽可能简单地拟合数据。

奥卡姆剃刀定律在机器学习方面的运用如下:机器学习模型越简单,良好的实证结果就越有可能不仅仅基于样本的特性。

模型泛化到新数据的能力,可以用以下因素表示:

  • 模型的复杂程度
  • 模型在处理训练数据方面的表现

机器学习模型旨在根据以前未见过的新数据做出良好预测。但是,如果要根据数据集构建模型,如何获得以前未见过的数据呢?一种方法是将数据集分成两个子集:

  • 训练集 - 用于训练模型的子集。
  • 测试集 - 用于测试模型的子集。

一般来说,在测试集上表现是否良好是衡量能否在新数据上表现良好的有用指标,前提是:

  • 测试集足够大。
  • 不反复使用相同的测试集。

 

二、机器学习细则

 

以下三项基本假设阐明了泛化:

  • 我们从分布中随机抽取独立同分布 (i.i.d) 的样本。换言之,样本之间不会互相影响。(另一种解释:i.i ...

继续阅读

谷歌机器学习课程笔记(4)——降低损失

一、迭代方法

 

为了训练模型,需要一种可降低模型损失的好方法。迭代方法是一种广泛用于降低损失的方法,而且使用起来简单有效。迭代策略在机器学习中的应用非常普遍,这主要是因为它们可以很好地扩展到大型数据集。

 

下图显示了机器学习算法用于训练模型的迭代试错过程:

“模型”部分将一个或多个特征作为输入,然后返回一个预测 (y') 作为输出。

图中的“计算损失”部分是模型将要使用的损失函数。

机器学习系统就是在图中的“计算参数更新”部分根据所有标签评估所有特征,为损失函数生成一个新值,而该值又产生新的参数值。这种学习过程会持续迭代,直到该算法发现损失可能最低的模型参数。通常需要不断迭代直到总体损失不再变化或至少变化极其缓慢为止。这时候,可以说该模型已收敛

 

二、梯度下降法

 

现在,将详细说明“计算参数更新”部分的算法。

 

假设我们有时间和计算资源来计算 w1 的所有可能值的损失。对于我们一直在研究的回归问题,所产生的损失与 w1 的图形始终是凸形。

凸形问题只有一个最低点;即只存在一个斜率正好为 0 的位置。这个最小值就是损失函数收敛之处。

通过计算整个数据集中 w1 每个可能值的损失函数来找到收敛点这种方法效率太低。我们来研究一种更好的机制,这种机制在机器学习领域非常热门,称为梯度下降法

  ...

继续阅读

关于低价的steam礼物,CDKEY和账号

原作者:我应该怎么说呢
原出处:今日头条
原链接:steam礼物,CDKEY和账号

剁手平台steam,已经吸引了很多的断手玩家。因此也有很多卖家也盯上这些玩家。最多店家应该就是某宝上代激活。很多的店家代激活是切换到低价区礼物激活。这样确实便宜了不少,但是风险也很高。俄区是低价区代激活最多的地区了。

如果你被V社封禁,你需要证明你当时是去过俄罗斯,并且证明你在俄罗斯的地区买了这款游戏。你需要找店家要各种资料,但是有多少店家是真的在俄区,可以来提供需要的资料。最近的跨区封禁听到确实不是很多。只不过没有人愿意所有人都可以买儿童票的,G胖也不是慈善家。steam官方自己也有封禁风险提醒了。所以买俄区的断手玩家注意了,跨区礼物是有风险的。去某宝买的新手,也注意下自己的账号安全。

同时国区礼物也有一种黑礼物的情况,黑礼物是全球不管哪个区都有的,道理是跟黑key一样。盗刷别人的信用卡,或者各种支付问题。因此你在购买时候,使用不会有任何问题。但是出现steam官方所说的付款争议或者欺诈那么礼物是退给steam。如果是key也会被反激活,移除游戏。对于购买某宝购买国区礼物,这类型的大概只能看评价和店铺时间了。

关于CDKEY这部分,可以买别地区的CDKEY。。跟G胖的同理,低价区的key一样便宜,没人想这样少赚钱。所以风险应该也是有的,只是各自原因风险很低。G胖连steam上跨区的账号,都不能即时封禁。怎么会帮别的公司盯着是否跨区激活CDKEY。而且之前大部分key是被移除游戏,而不是封禁账号。

CDKEY别的地区的需要在别的地区IP激活,可以使用云激活或者梯子 ...

继续阅读

Steam新功能,现在可以在Steam上面举报V社了!

Steam推出了一个新的功能,允许玩家屏蔽和举报游戏厂商。

流程如下:
1.在游戏商店页面点开对应的开发商

2.在开发商页面右手边“测试版”下方新增了2个小按钮。左边是屏蔽,右边是举报。

3.选择屏蔽之后,Steam不再为你推荐这个厂商发行和开发的任何游戏。

选择举报之后,可以进一步选择举报的是“攻击性”或者“版权”内容,也可以自己另外填写举报内容。

攻击性 - 含有明显攻击性、蓄意惊吓或令人厌恶的内容

版权 - 含有鉴赏家并不拥有或没有充分权利的内容(如背景图片或头像)

然后,我们就可以屏蔽和举报V社啦~手动滑稽

谷歌机器学习课程笔记(3)——深入了解机器学习

一、线性回归

 

线性回归是一种找到最适合一组点的直线或超平面的方法。本模块会先直观介绍线性回归,为介绍线性回归的机器学习方法奠定基础。

 

最基本的线性关系:

y=mx+b

其中:

y 指的是我们试图预测的值

m 指的是直线的斜率

x 指的是输入特征的值

b 指的是 y 轴截距

 

按照机器学习的惯例,以上方程可写为:

y′=b+w1x1

其中:

y′ 指的是预测标签(理想输出值)。

b 指的是偏差(y 轴截距)。而在一些机器学习文档中,它称为 w0

w1 指的是特征 1 的权重 ...

继续阅读

谷歌机器学习课程笔记(2)——基本概念

本课程将介绍的基本框架:监督式机器学习。即机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。

 

基本术语:

 

标签是我们要预测的事物,即简单线性回归中的 y 变量。

 

特征是输入变量,即简单线性回归中的 x 变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征,按如下方式指定:{x1,x2,...xN}

 

样本是指数据的特定实例。我们将样本分为以下两类:

有标签样本同时包含特征和标签

我们使用有标签样本来训练模型。

无标签样本包含特征,但不包含标签。

在使用有标签样本训练了我们的模型之后,我们会使用该模型来预测无标签样本的标签。

 

模型定义了特征与标签之间的关系。

模型生命周期的两个阶段:

训练表示创建或学习模型。

推断表示将训练后的模型应用于无标签样本。

 

模型有两大类:

回归模型可预测连续值。

分类模型可预测离散值。

年度归档