统计学习方法学习笔记

2020-03-04

机器学习, 笔记

统计学习方法学习笔记

概论

本部分主要讲述了：

统计学习的研究内容
统计学习的三要素
监督学习的学习方法
对于模型的评价
监督学习的三个子问题

统计学习
- 假设数据有统计规律
- 通过对数据进行分析，发现其中的知识
- 学习：一个系统通过执行某个过程来改进它的性能
- 目的是对数据进行预测和分析
- 主要方法
  - 监督学习(supervised learning)
  - 非监督学习(insupervised learning)
  - 半监督学习(semi-supervised learning)
  - 强化学习(reinforcement learning)
监督学习
- 任务：学习一个模型。该模型能够对输出产生较好的预测结果
- 基本概念：
  1. 输入空间，特征空间，输出空间
  2. 联合概率分布，条件概率（决策函数）
  3. 假设空间
统计学习三要素
- 模型：模型的假设空间，即需要学习的函数属于的某一个函数空间
  1. 通过模型学习输入和输出的联合概率密度（生成方法）或者条件概率密度（判别方法，也叫决策函数）
- 策略：模型选择的准则，用于评价假设空间中的模型，以选择一个最优模型
  1. 损失函数(loss function)/代价函数(cost function):
    - 衡量模型一次预测的好坏
    - wait to insert LaTex function
      
      0-1(0-1 loss function)
      
      平方损失(quadrtic loss function)
      
      绝对损失(absolute loss function)
      
      对数损失(logarithmic loss function)
  2. 风险函数(risk function)
    - 平均意义下的模型的好坏，
    损失函数的期望,即风险函数(risk function)或者是期望损失(expected loss)
    
    因为风险函数中的联合概率分布未知，因此使用经验风险估计期望风险。(当样本数量足够多的时候可行，实际中样本往往较少，因此需要对这个函数进行修正)
  3. 经验风险(empirivcal risk)/经验损失(empirical loss)
    - 训练集上的平均损失
    - 矫正策略：
      - 经验风险最小化（容易引起过拟合(overfitting)）
      - 结构风险最小化
        
        同时表示模型的经验风险和模型的复杂度
        
        正则化
      - 将统计学习问题转化为最优化问题
- 算法：模型学习的算法
  - 统计学习归结为最优化问题，因此可采用最优化算法来求解最优化模型
模型评估
- 训练误差：训练数据集的平均损失
  - 可以判断该问题是否可以学习，但是本质上是不重要的
- 测试误差：测试数据集的平均损失
  - 测试误差用于判断模型的泛化能力，决定模型的好坏
模型选择
- 过拟合
  - 选择的模型复杂度比较高（比实际模型高）
  - 包含参数过多
- 模型选择
  - 复杂度适当
正则化和交叉验证
- 正则化：
  - 在经验风险的基础上增加正则化项或者罚项。
- 交叉验证
  - 在数据集不足的时候重复使用数据来对模型进行验证
  - 简单交叉验证
    - 随机拆分数据为训练集和测试机
    - 在不同的条件下训练模型，在测试集上测试这些模型，选择最好的
  - S折交叉验证(S-fold cross validation)
    - 将数据集分成S个不相交子集，S-1个用于训练，1个用于测试
    - 重复所有S种可能，选择平均测试误差最小的模型
  - 留一交叉验证(leave one out cross validation)
    - S-fold的特殊情况，S=N
泛化能力
- 评价标准：泛化误差上界
- 泛化误差(generalization ability)
- 泛化误差上界：
  - 是N（样本容量）的函数，N增大，上界->0
  - 是假设空间容量的函数，capacity越大，上界越大
- 二分类问题的泛化误差上界
生成模型和判别模型
- 生成模型：学习的是X，Y的联合分布函数g(X,Y)
  - 朴素贝叶斯
  - 隐马尔可夫
- 判别模型：学习的是X,Y的条件概率分布（也即决策函数）
  - K-近邻
  - 感知机
  - 决策树
  - 逻辑斯蒂回归
  - 最大熵
  - 支持向量机
  - 提升方法
  - 条件随机场
分类问题（连续/离散输入 —> 离散输出）
- 二分类
  - 预测情况：
    - TP: True Positive
    - FN: False Negetive
    - TN: True Negetive
    - FP: False Positive
  - 评价标准：
    - 精确率(precision)
    - 召回率(recall)
    - F1值
- 多分类
标注问题（序列输入 —> 序列输出）
- 分类问题的推广
- 结构预测的简单形式
- 输入：观测序列
- 输出：标记序列或者是状态序列
回归问题
- 预测输入变量和输出变量的关系
- 等价于函数拟合
- 分类
  - 按输入维度：
    - 一元回归
    - 多元回归
  - 按模型类型
    - 线性
    - 非线性

感知机

二类分类，线性模型

模型

特征空间中的线性分类模型的集合，属于判别模型（模型是一个输入和输出是线性关系）
$f(x) = sign(w\cdot{x}+b)$
输入：n维特征向量 $x$
输出：$y=+1$或者$y=-1$
参数：
- $w$：超平面的法向量，
- $b$：超平面的截距

学习策略

损失函数极小化
误分类点
损失函数：误分类点到超平面的总距离

$-\dfrac{1}{|w|}\displaystyle\sum_{x_i\in M}|w\cdot{x_i}+{b}|$
$|w|$是$w$的$L_2$范数

学习算法

随机梯度下降（SGD）
原始形式
- w表示为原始形式
对偶形式
- w用$\displaystyle\sum_{i=1}^N{\alpha_iy_ix_i}$表示

k-近邻

基本的回归和分类方法

特征空间划分

原理
- 根据k个最近邻的实例确定新实例的类别，例如通过多数表决确定
三要素
- 距离度量
  - 欧式距离($L_2$距离)
  - $L_p$距离：$L_p(x_i,x_j)=(\displaystyle\sum_{l=1}^n{|x_i^{(l)}-x_j^{(l)}|}^p)^\frac{1}{p}$
  - Minkowski距离
- k值的选择
  - k小：近似误差小，估计误差大
  - k大：近似误差大，估计误差小
- 分类决策规则
  - 多数表决
实现
- 线性扫描
- kd树（这里的k表示空间的维度k）

子在川上曰：逝者如斯夫！不舍昼夜

学习机器学习

统计学习方法学习笔记

统计学习方法学习笔记

概论

感知机

模型

学习策略

学习算法

k-近邻

朴素贝叶斯

决策树

逻辑斯蒂回归和最大熵

支持向量机

提升方法

EM算法及其推广

隐马尔可夫模型

条件随机场

总结