统计学习方法学习笔记
概论
本部分主要讲述了:
- 统计学习的研究内容
- 统计学习的三要素
- 监督学习的学习方法
- 对于模型的评价
- 监督学习的三个子问题
- 统计学习
- 假设数据有统计规律
- 通过对数据进行分析,发现其中的知识
- 学习: 一个系统通过执行某个过程来改进它的性能
- 目的是对数据进行预测和分析
- 主要方法
- 监督学习(supervised learning)
- 非监督学习(insupervised learning)
- 半监督学习(semi-supervised learning)
- 强化学习(reinforcement learning)
- 监督学习
- 任务:学习一个模型。该模型能够对输出产生较好的预测结果
- 基本概念:
- 输入空间,特征空间,输出空间
- 联合概率分布,条件概率(决策函数)
- 假设空间
统计学习三要素
- 模型:模型的假设空间,即需要学习的函数属于的某一个函数空间
- 通过模型学习输入和输出的联合概率密度(生成方法)或者条件概率密度(判别方法,也叫决策函数)
策略:模型选择的准则,用于评价假设空间中的模型,以选择一个最优模型
- 损失函数(loss function)/代价函数(cost function):
- 衡量模型一次预测的好坏
- wait to insert LaTex function
- 0-1(0-1 loss function)
- 平方损失(quadrtic loss function)
- 绝对损失(absolute loss function)
- 对数损失(logarithmic loss function)
风险函数(risk function)
- 平均意义下的模型的好坏,
损失函数的期望,即风险函数(risk function)或者是期望损失(expected loss)
因为风险函数中的联合概率分布未知,因此使用经验风险估计期望风险。(当样本数量足够多的时候可行,实际中样本往往较少,因此需要对这个函数进行修正)
- 经验风险(empirivcal risk)/经验损失(empirical loss)
- 训练集上的平均损失
- 矫正策略:
- 经验风险最小化(容易引起过拟合(overfitting))
- 结构风险最小化
- 同时表示模型的经验风险和模型的复杂度
- 正则化
- 将统计学习问题转化为最优化问题
- 损失函数(loss function)/代价函数(cost function):
- 算法:模型学习的算法
- 统计学习归结为最优化问题,因此可采用最优化算法来求解最优化模型
- 模型:模型的假设空间,即需要学习的函数属于的某一个函数空间
- 模型评估
- 训练误差:训练数据集的平均损失
- 可以判断该问题是否可以学习,但是本质上是不重要的
- 测试误差:测试数据集的平均损失
- 测试误差用于判断模型的泛化能力,决定模型的好坏
- 训练误差:训练数据集的平均损失
- 模型选择
- 过拟合
- 选择的模型复杂度比较高(比实际模型高)
- 包含参数过多
- 模型选择
- 复杂度适当
- 过拟合
- 正则化和交叉验证
- 正则化:
- 在经验风险的基础上增加正则化项或者罚项。
- 交叉验证
- 在数据集不足的时候重复使用数据来对模型进行验证
- 简单交叉验证
- 随机拆分数据为训练集和测试机
- 在不同的条件下训练模型,在测试集上测试这些模型,选择最好的
- S折交叉验证(S-fold cross validation)
- 将数据集分成S个不相交子集,S-1个用于训练,1个用于测试
- 重复所有S种可能,选择平均测试误差最小的模型
- 留一交叉验证(leave one out cross validation)
- S-fold的特殊情况,S=N
- 正则化:
- 泛化能力
- 评价标准:泛化误差上界
- 泛化误差(generalization ability)
- 泛化误差上界:
- 是N(样本容量)的函数,N增大,上界->0
- 是假设空间容量的函数,capacity越大,上界越大
- 二分类问题的泛化误差上界
- 生成模型和判别模型
- 生成模型:学习的是X,Y的联合分布函数g(X,Y)
- 朴素贝叶斯
- 隐马尔可夫
- 判别模型:学习的是X,Y的条件概率分布(也即决策函数)
- K-近邻
- 感知机
- 决策树
- 逻辑斯蒂回归
- 最大熵
- 支持向量机
- 提升方法
- 条件随机场
- 生成模型:学习的是X,Y的联合分布函数g(X,Y)
- 分类问题(连续/离散输入 —> 离散输出)
- 二分类
- 预测情况:
- TP: True Positive
- FN: False Negetive
- TN: True Negetive
- FP: False Positive
- 评价标准:
- 精确率(precision)
- 召回率(recall)
- F1值
- 预测情况:
- 多分类
- 二分类
- 标注问题(序列输入 —> 序列输出)
- 分类问题的推广
- 结构预测的简单形式
- 输入:观测序列
- 输出:标记序列或者是状态序列
- 回归问题
- 预测输入变量和输出变量的关系
- 等价于函数拟合
- 分类
- 按输入维度:
- 一元回归
- 多元回归
- 按模型类型
- 线性
- 非线性
- 按输入维度:
感知机
二类分类,线性模型
模型
特征空间中的线性分类模型的集合,属于判别模型(模型是一个输入和输出是线性关系)
输入:n维特征向量 $x$
- 输出:$y=+1$或者$y=-1$
- 参数:
- $w$:超平面的法向量,
- $b$:超平面的截距
学习策略
- 损失函数极小化
- 误分类点
损失函数:误分类点到超平面的总距离
$-\dfrac{1}{|w|}\displaystyle\sum_{x_i\in M}|w\cdot{x_i}+{b}|$
- $|w|$是$w$的$L_2$范数
学习算法
- 随机梯度下降(SGD)
- 原始形式
- w表示为原始形式
- 对偶形式
- w用$\displaystyle\sum_{i=1}^N{\alpha_iy_ix_i}$表示
k-近邻
基本的回归和分类方法
特征空间划分
- 原理
- 根据k个最近邻的实例确定新实例的类别,例如通过多数表决确定
- 三要素
- 距离度量
- 欧式距离($L_2$距离)
- $L_p$距离:$L_p(x_i,x_j)=(\displaystyle\sum_{l=1}^n{|x_i^{(l)}-x_j^{(l)}|}^p)^\frac{1}{p}$
- Minkowski距离
- k值的选择
- k小:近似误差小,估计误差大
- k大:近似误差大,估计误差小
- 分类决策规则
- 多数表决
- 距离度量
- 实现
- 线性扫描
- kd树(这里的k表示空间的维度k)
朴素贝叶斯
基于贝叶斯定理、特征条件独立假设、分类方法
- 学习的是联合概率分布
决策树
- 基本分类和回归方法