传统的机器学习再许多问题上都有良好效果,但却无法解决人工智能的关键问题,如语音识别、对象识别等。于是,深度学习应运而生。
维数灾难
当数据的维数很高时,很多机器学习问题变得相当困难。在低维空间,仅需要少量样本便可将样本空间填充得非常稠密,随着维度得增加需要的样本数则是指数型增长的趋势,很显然我们无法在收集数据上花费如此大量的时间,少量样本在高维空间的系数存在将导致模型的繁华能力很弱。
局部不变性和平滑正则化
机器学习中我们一般会通过先验经验来决定学习什么样的函数集,许多模型完全依靠这些先验获得良好的泛化。其中最广泛使用的隐式 ‘‘先验’’ 是平滑先验(smoothness prior),或局部不变性先验(local constancy prior)。这个先验表明我们学习的函数不应在小区域内发生很大的变化。
局部不变性
许多模型旨在鼓励学习过程能够学习出函数$f^(x)$,使函数对于任意 $x$ 与足够小的 $\epsilon$ ,有
$$f^(x)=f^*(x+\epsilon)$$
换言之,如果我们知道对应输入 x 的答案(例如,x 是个有标签的训练样本),那么该答案对于 x 的邻域应该也适用。如果在有些邻域中我们有几个好答案,那么我们可以组合它们(通过某种形式的平均或插值法)以产生一个尽可能和大多数输入一致的答案。
局部不变方法的一个极端例子是 k-最近邻系列的学习算法。当一个区域里的所有点 x 在训练集中的 k 个最近邻是一样的,那么对这些点的预测也是一样的。当k = 1 时,不同区域的数目不会比训练样本还多。
平滑
决策树也有平滑学习的局限性,因为它将输入空间分成和叶节点一样多的区间,并在每个区间使用单独的参数(或者有些决策树的拓展有多个参数)。如果目标函数需要至少拥有 n 个叶节点的树才能精确表示,那么至少需要 n 个训练样本去拟合。
流行学习
流形(manifold)指连接在一起的区域。数学上,它是指一组点,且每个点都有其邻域。给定一个任意的点,其流形局部看起来像是欧几里得空间。日常生活中,我们将地球视为二维平面,但实际上它是三维空间中的球状流形。
机器学习中,感兴趣的输入只分布在包含少量点的子集构成的一组流形中,而其他绝大部分输入都是无效的。学习函数中感兴趣输出的变动只位于流形中的方向,或者感兴趣的变动只发生在我们从一个流形移动到另一个流形的时候。
支持这个假设主要来源于两类观测结果:①我们随机的为一副图像的每个像素赋予一个值,它出现一副有意义的图像的概率几乎为0,同样我们每次随机抽取一个字母,它能组成一句话或者一篇文章的概率几乎为0;②人脸图像的流形不太可能连接到猫脸图像的流形。