统计学习方法-概论
文章目录
统计学习方法概论
1、机器学习<=>统计机器学习
2、统计学习的基本假设:同类数据具有一定的统计规律性
3、统计学习的目的:预测与分析
4、统计学习方法:监督学习,非监督学习,半监督学习,强化学习
5、评估模型,损失函数
(1) 0-1损失函数:
$$L(Y,f(X))=\begin{cases}1& \text{Y$\neq$f(X)} \\0& \text{Y=f(X)}\end{cases}$$
(2) 平方损失函数:
$$L(Y,f(X))=(Y-f(X))^{2}$$
(3) 绝对损失函数:
$$L(Y,f(X))=|Y-f(X)|$$
(2) 对数损失函数:
$$L(Y,P(Y|X))=-\log P(Y|X)$$
6、经验风险,数据量很小时,经验风险最小化效果差,会产生过拟合
$$R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))$$7、结构风险
$$R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)$$λ为罚项,权衡经验风险与模型复杂度
J(f)为模型复杂度,模型越复杂越大
8、模型选择,模型复杂度提升,测试误差会先降低后上升,最终目的使得测试误差最小
正则化(奥卡姆剃刀原理)
交叉验证(简单交叉,S折交叉,留一交叉)
9、泛化误差=训练误差+关于N的单调递减函数
$$R(f)\leq+\varepsilon(d,N,\delta)$$ $$\varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\log d+\log \frac{1}{\delta})}$$10、分类问题几个基本概念
- TP-正预测为正
- FN-正预测为负
- FP-负预测为正
- TN-负预测为负
精确率:$$P=\frac{TP}{TP+FP}$$ 召回率:$$P=\frac{TP}{TP+FN}$$