百面机器学习—3.逻辑回归与决策树要点总结

阅读量：277 次

发布时间：2019-03-01

本文共 1669 字，大约阅读时间需要 5 分钟。

逻辑回归与决策树分析

一、逻辑回归

1. 逻辑回归公式推导

逻辑回归是一种简单的线性分类模型，适用于二分类问题。其核心公式可以从以下四个方面展开：

伯努利过程：输入特征向量 $x$，输出一个二元类别的概率分布。

极大似然估计：通过最大化似然函数来确定参数 $\theta$，使得模型能够拟合数据。

损失函数：采用交叉熵损失函数来衡量预测结果与真实结果的差异。

梯度下降：通过优化算法不断更新参数，逐步逼近最优解。

逻辑回归的预测结果可以表示为：

$$\hat{y}(\theta_j) = \sigma(w^T x_j + b)$$

其中 $\sigma$ 是sigmoid函数，$w$ 和 $b$ 是模型参数。

2. 逻辑回归的优缺点

优点：

形式简单：模型易于理解，特征权重直观反映特征影响。

模型效果：在特征工程合理的情况下，效果可接受且开发效率高。

训练速度快：对特征数量敏感，适合小规模特征集。

资源占用低：仅需存储特征值，适合内存有限的环境。

结果调整方便：输出概率分数，可通过阈值直接分类。

缺点：

准确率有限：难以拟合复杂数据分布。

特征工程依赖：难以处理不平衡数据。

线性假设限制：无法处理非线性数据。

特征选择有限：需要额外工具（如GBDT）辅助特征筛选。

3. 为什么需要归一化？

归一化的作用在于：

收敛速度：使不同量纲特征处于同一范围，减少方差较大的特征影响。

模型精度：提升预测结果的准确性。

4. 连续特征离散化的作用

离散化的好处包括：

特征工程简化：将连续值转换为离散特征，便于模型训练。

计算效率提升：稀疏向量运算加快，内存占用减少。

异常处理：离散化后的特征对异常值鲁棒性更好。

非线性表达：通过特征交叉提升模型表达能力。

5. 逻辑回归能否解决非线性问题？

是的，通过引入核技巧（Kernel Trick），逻辑回归可以处理非线性分类问题。然而，核方法通常隐式实现，无法直接从低维映射到高维。与SVM相比，逻辑回归的参数存储量较低，但在非线性分类中，SVM更常用。

二、决策树

1. 决策树算法总结

1.1 ID3—信息增益

ID3通过信息增益选择划分特征，信息增益计算公式为：$$IG(A,D) = H(D) - H(D|A)$$其中 $H(D)$ 为数据集 $D$ 的熵，$H(D|A)$ 为条件熵。

1.2 C4.5—信息增益比

C4.5改进了ID3，引入信息增益比：$$IGB(A,D) = \frac{IG(A,D)}{H(A,D)}$$信息增益比通过惩罚取值多的特征，避免过拟合。

1.3 CART—基尼指数

CART使用基尼指数最小化准则：$$Gini = p_l \cdot (1 - p_r) + p_r \cdot (1 - p_l)$$其中 $p_l$ 和 $p_r$ 分别为左、右子树的错误率。

1.4 算法对比

C4.5 vs ID3：C4.5在小数据集上表现更好，信息增益比克服了ID3的偏向。

连续型变量处理：C4.5和CART支持连续型变量，通过排序和二值划分转换为离散特征。

多任务能力：CART支持分类和回归，适合多输出问题。

2. 为什么需要剪枝？

剪枝用于防止过拟合：

预剪枝：在节点划分前估计划分性能，若无法提升则停止划分。

后剪枝：自下而上检查节点，若改善泛化性能则剪枝。

3. 为什么信息增益比信息增益更佳？

信息增益比通过特征熵惩罚取值多的特征，避免对多值特征过度依赖。

4. C4.5对ID3的改进

信息增益率：解决信息增益偏向取值多的特征问题。

连续属性离散化：通过排序划分转换为离散特征。

缺失值处理：通过权重分配对缺失值样本进行划分。

决策树常见问题解答

1. 如何选择最优划分属性（存在缺失值）？

信息增益计算时，考虑无缺失值样本的比例乘以信息增益。

2. 如何划分缺失值样本？

通过权重分配，将缺失值样本按比例划分到各分支。

3. 测试样本属性值不完整时如何分类？

在决策树构造完成后，采用插值或其他方法处理不完整属性，确保预测结果合理。

转载地址：http://eysv.baihongyu.com/

你可能感兴趣的文章

quick sort | 快速排序 C++ 实现

查看>>

pkpmbs 建设工程质量监督系统 Ajax_operaFile.aspx 文件读取漏洞复现

查看>>

pkpmbs 建设工程质量监督系统文件上传漏洞复现

查看>>

pku 2400 Supervisor, Supervisee KM求最小权匹配+DFS回溯解集

查看>>

queue队列、deque双端队列和priority_queue优先队列

pl sql 的目录所在的目录不能有小括号，如 Program Files (x86)

查看>>

PL SQLDEVELOPMENT导出数据库脚本

查看>>

Queue

查看>>

PL/SQL Developer中文版下载以及使用图解（绿色版）

查看>>

pl/sql developer乱码，日期格式等问题解决

query简单入门到精通细节 - （六）Jquery效果之“淡入与淡出”

查看>>

PL/SQL提示“ORA-01722：无效数字，将无效数字查找出来

查看>>

PL/sql语法单元

查看>>

PL/SQL连接远程服务器数据库，出现ORA-12154: TNS: 无法解析指定的连接标识符。

查看>>

pl/sql锁

查看>>

PL2303 Windows 10 驱动项目常见问题解决方案

查看>>