本文约7000字,建议阅读10+分钟
深度学习和简单的统计学是一回事吗?很多人可能都有这个疑问,毕竟二者连术语都有很多相似的地方。在这篇文章中,理论计算机科学家、哈佛大学知名教授 Boaz Barak 详细比较了深度学习与经典统计学的差异,认为“如果纯粹从统计学角度认识深度学习,就会忽略其成功的关键因素”。


文章链接:https://projecteuclid.org/journals/statistical-science/volume-16/issue-3/Statistical-Modeling--The-Two-Cultures-with-comments-and-a/10.1214/ss/1009213726.full
(
是
的矩阵;
是
维向量,即类别标签。把数据认为是来自某个有结构且包含噪声的模型,就是要去拟合的模型)
,并用优化算法来最小化经验风险。就是说通过优化算法找到这样的
,使得
最小,
代表损失(表明预测值有多接近真实值),
是可选的正则化项。
的值相对最小。
是经过优化的模型集合(如果函数是非凸的或包含正则化项,精心选择算法和正则化,可得到模型集
。
的偏差是元素
越大,需要缩小其成员范围的样本越多,因此算法输出模型的方差越大。总体泛化误差是偏差和方差的总和。因此,统计学习通常是 Bias-Variance 权衡,正确的模型复杂度是将总体误差降至最低。事实上,Geman 等人证明了其对神经网络的悲观态度,他们认为:Bias-Variance 困境造成的基本限制适用于所有非参数推理模型,包括神经网络。
和
),比独立学习每个分布更难。
所需的数据点数量与参数
和
是有关的,即数据点数量约等于
。在这种情况下,需要大约 k 个样本才能启动,但一旦这样做,就面临着回报递减的情况,即如果需要
个点才能达到 90% 的准确率,则需要大约额外的
个点来将准确率提高到 95%。一般来说,随着资源增加(无论是数据、模型复杂度还是计算),人们希望获得越来越精细的区分,而不是解锁特定的新功能。多多益善:一般来说,做题越多、题型涉猎越广的学生表现越好。同时做一些微积分题和代数题,不会导致学生的微积分成绩下降,相反可能帮助其微积分成绩提升。
,其中
是某个数据点(比如一张图片),
是标签。
的深度神经网络。通过最小化某种类型的自监督损失函数,仅使用数据点
而不使用标签来训练该函数。这种损失函数的例子是重建(用其它输入恢复输入)或对比学习(核心思想是正样本和负样本在特征空间对比,学习样本的特征表示)。
拟合线性分类器
(
是类数),以最小化交叉熵损失。我们的最终分类器是:
在自监督学习中,表示质量随着数据量的增加而提高,不会因为混合了几个来源的数据而变糟。事实上,数据越多样化越好。
正确分类点
的概率随
的技能而单调提升,随
难度单调降低)。






















还没有评论,来说两句吧...