统计学习方法学习笔记

统计学习方法学习笔记

概论

本部分主要讲述了:

  • 统计学习的研究内容
  • 统计学习的三要素
  • 监督学习的学习方法
  • 对于模型的评价
  • 监督学习的三个子问题
  1. 统计学习
    • 假设数据有统计规律
    • 通过对数据进行分析,发现其中的知识
    • 学习: 一个系统通过执行某个过程来改进它的性能
    • 目的是对数据进行预测和分析
    • 主要方法
      • 监督学习(supervised learning)
      • 非监督学习(insupervised learning)
      • 半监督学习(semi-supervised learning)
      • 强化学习(reinforcement learning)
  2. 监督学习
    • 任务:学习一个模型。该模型能够对输出产生较好的预测结果
    • 基本概念:
      1. 输入空间,特征空间,输出空间
      2. 联合概率分布,条件概率(决策函数)
      3. 假设空间
  3. 统计学习三要素

    • 模型:模型的假设空间,即需要学习的函数属于的某一个函数空间
      1. 通过模型学习输入和输出的联合概率密度(生成方法)或者条件概率密度(判别方法,也叫决策函数)
    • 策略:模型选择的准则,用于评价假设空间中的模型,以选择一个最优模型

      1. 损失函数(loss function)/代价函数(cost function):
        • 衡量模型一次预测的好坏
        • wait to insert LaTex function
          • 0-1(0-1 loss function)
          • 平方损失(quadrtic loss function)
          • 绝对损失(absolute loss function)
          • 对数损失(logarithmic loss function)
      2. 风险函数(risk function)

        • 平均意义下的模型的好坏,

        损失函数的期望,即风险函数(risk function)或者是期望损失(expected loss)

        因为风险函数中的联合概率分布未知,因此使用经验风险估计期望风险。(当样本数量足够多的时候可行,实际中样本往往较少,因此需要对这个函数进行修正)

      3. 经验风险(empirivcal risk)/经验损失(empirical loss)
        • 训练集上的平均损失
        • 矫正策略:
          • 经验风险最小化(容易引起过拟合(overfitting))
          • 结构风险最小化
            • 同时表示模型的经验风险和模型的复杂度
            • 正则化
          • 将统计学习问题转化为最优化问题
    • 算法:模型学习的算法
      • 统计学习归结为最优化问题,因此可采用最优化算法来求解最优化模型
  4. 模型评估
    • 训练误差:训练数据集的平均损失
      • 可以判断该问题是否可以学习,但是本质上是不重要的
    • 测试误差:测试数据集的平均损失
      • 测试误差用于判断模型的泛化能力,决定模型的好坏
  5. 模型选择
    • 过拟合
      • 选择的模型复杂度比较高(比实际模型高)
      • 包含参数过多
    • 模型选择
      • 复杂度适当
  6. 正则化和交叉验证
    • 正则化:
      • 在经验风险的基础上增加正则化项或者罚项。
    • 交叉验证
      • 在数据集不足的时候重复使用数据来对模型进行验证
      • 简单交叉验证
        • 随机拆分数据为训练集和测试机
        • 在不同的条件下训练模型,在测试集上测试这些模型,选择最好的
      • S折交叉验证(S-fold cross validation)
        • 将数据集分成S个不相交子集,S-1个用于训练,1个用于测试
        • 重复所有S种可能,选择平均测试误差最小的模型
      • 留一交叉验证(leave one out cross validation)
        • S-fold的特殊情况,S=N
  7. 泛化能力
    • 评价标准:泛化误差上界
    • 泛化误差(generalization ability)
    • 泛化误差上界:
      • 是N(样本容量)的函数,N增大,上界->0
      • 是假设空间容量的函数,capacity越大,上界越大
    • 二分类问题的泛化误差上界
  8. 生成模型和判别模型
    • 生成模型:学习的是X,Y的联合分布函数g(X,Y)
      • 朴素贝叶斯
      • 隐马尔可夫
    • 判别模型:学习的是X,Y的条件概率分布(也即决策函数)
      • K-近邻
      • 感知机
      • 决策树
      • 逻辑斯蒂回归
      • 最大熵
      • 支持向量机
      • 提升方法
      • 条件随机场
  9. 分类问题(连续/离散输入 —> 离散输出)
    • 二分类
      • 预测情况:
        • TP: True Positive
        • FN: False Negetive
        • TN: True Negetive
        • FP: False Positive
      • 评价标准:
        • 精确率(precision)
        • 召回率(recall)
        • F1值
    • 多分类
  10. 标注问题(序列输入 —> 序列输出)
    • 分类问题的推广
    • 结构预测的简单形式
    • 输入:观测序列
    • 输出:标记序列或者是状态序列
  11. 回归问题
    • 预测输入变量和输出变量的关系
    • 等价于函数拟合
    • 分类
      • 按输入维度:
        • 一元回归
        • 多元回归
      • 按模型类型
        • 线性
        • 非线性

感知机

二类分类,线性模型

模型

  • 特征空间中的线性分类模型的集合,属于判别模型(模型是一个输入和输出是线性关系)

  • 输入:n维特征向量 $x$

  • 输出:$y=+1$或者$y=-1$
  • 参数:
    • $w$:超平面的法向量,
    • $b$:超平面的截距

学习策略

  • 损失函数极小化
  • 误分类点
  • 损失函数:误分类点到超平面的总距离

    $-\dfrac{1}{|w|}\displaystyle\sum_{x_i\in M}|w\cdot{x_i}+{b}|$

  • $|w|$是$w$的$L_2$范数

学习算法

  • 随机梯度下降(SGD)
  • 原始形式
    • w表示为原始形式
  • 对偶形式
    • w用$\displaystyle\sum_{i=1}^N{\alpha_iy_ix_i}$表示

k-近邻

基本的回归和分类方法

特征空间划分

  • 原理
    • 根据k个最近邻的实例确定新实例的类别,例如通过多数表决确定
  • 三要素
    • 距离度量
      • 欧式距离($L_2$距离)
      • $L_p$距离:$L_p(x_i,x_j)=(\displaystyle\sum_{l=1}^n{|x_i^{(l)}-x_j^{(l)}|}^p)^\frac{1}{p}$
      • Minkowski距离
    • k值的选择
      • k小:近似误差小,估计误差大
      • k大:近似误差大,估计误差小
    • 分类决策规则
      • 多数表决
  • 实现
    • 线性扫描
    • kd树(这里的k表示空间的维度k)

朴素贝叶斯

基于贝叶斯定理、特征条件独立假设、分类方法

  • 学习的是联合概率分布

决策树

  • 基本分类和回归方法

逻辑斯蒂回归和最大熵

支持向量机

提升方法

EM算法及其推广

隐马尔可夫模型

条件随机场

总结

分享到