文章目录
  1. 统计学习方法概论
    1. 1、机器学习<=>统计机器学习
    2. 2、统计学习的基本假设:同类数据具有一定的统计规律性
    3. 3、统计学习的目的:预测与分析
    4. 4、统计学习方法:监督学习,非监督学习,半监督学习,强化学习
    5. 5、评估模型,损失函数
    6. 6、经验风险,数据量很小时,经验风险最小化效果差,会产生过拟合
    7. 7、结构风险
    8. 8、模型选择,模型复杂度提升,测试误差会先降低后上升,最终目的使得测试误差最小
    9. 9、泛化误差=训练误差+关于N的单调递减函数
    10. 10、分类问题几个基本概念

统计学习方法概论

1、机器学习<=>统计机器学习

2、统计学习的基本假设:同类数据具有一定的统计规律性

3、统计学习的目的:预测与分析

4、统计学习方法:监督学习,非监督学习,半监督学习,强化学习

5、评估模型,损失函数

(1) 0-1损失函数:
$$L(Y,f(X))=\begin{cases}1& \text{Y$\neq$f(X)} \\0& \text{Y=f(X)}\end{cases}$$
(2) 平方损失函数:
$$L(Y,f(X))=(Y-f(X))^{2}$$
(3) 绝对损失函数:
$$L(Y,f(X))=|Y-f(X)|$$
(2) 对数损失函数:
$$L(Y,P(Y|X))=-\log P(Y|X)$$

6、经验风险,数据量很小时,经验风险最小化效果差,会产生过拟合

$$R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))$$

7、结构风险

$$R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)$$

λ为罚项,权衡经验风险与模型复杂度
J(f)为模型复杂度,模型越复杂越大

8、模型选择,模型复杂度提升,测试误差会先降低后上升,最终目的使得测试误差最小

模型复杂度与测试误差关系

正则化(奥卡姆剃刀原理)
交叉验证(简单交叉,S折交叉,留一交叉)

9、泛化误差=训练误差+关于N的单调递减函数

$$R(f)\leq+\varepsilon(d,N,\delta)$$ $$\varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\log d+\log \frac{1}{\delta})}$$

10、分类问题几个基本概念

  • TP-正预测为正
  • FN-正预测为负
  • FP-负预测为正
  • TN-负预测为负
    精确率:$$P=\frac{TP}{TP+FP}$$ 召回率:$$P=\frac{TP}{TP+FN}$$
文章目录
  1. 统计学习方法概论
    1. 1、机器学习<=>统计机器学习
    2. 2、统计学习的基本假设:同类数据具有一定的统计规律性
    3. 3、统计学习的目的:预测与分析
    4. 4、统计学习方法:监督学习,非监督学习,半监督学习,强化学习
    5. 5、评估模型,损失函数
    6. 6、经验风险,数据量很小时,经验风险最小化效果差,会产生过拟合
    7. 7、结构风险
    8. 8、模型选择,模型复杂度提升,测试误差会先降低后上升,最终目的使得测试误差最小
    9. 9、泛化误差=训练误差+关于N的单调递减函数
    10. 10、分类问题几个基本概念