概述集成学习的基本概念、为何能降低方差与偏差、强调基学习器的多样性,并比较 Bagging、 Random Forest、 Boosting 的异同。
类别极度不平衡时, Accuracy 失效,应以 Precision、 Recall、 F1、 ROC 与 AUC 评估,并用欠采样、过采样、阈值调整或代价敏感学习应对。
感知机仅对线性可分数据收敛,遇到 XOR 等非线性问题会震荡,需特征变换或引入非线性模型解决。
概述神经网络基础:感知机、隐藏层、激活函数、反向传播与训练要点。
介绍 SVM 的最大 margin 思想、线性 / 非线性 形式、核技巧与优缺点。
介绍 KNN 的实例学习思想、距离度量与 k 值选择,以及预处理、性能瓶颈与常见优化。
介绍基于规则的分类思想、规则评估与冲突处理,以及规则生成与 FOIL 信息增益方法。
概述贝叶斯决策与 MAP,先验 / 似然 / 后验的更新规则,朴素贝叶斯的条件独立与平滑处理,以及贝叶斯网络在相关特征下的建模与局限。
涵盖分类误差与泛化、训练误差对比,解析欠拟合 / 过拟合原因、复杂度惩罚与剪枝策略,以及模型评估与交叉验证要点。
本文系统介绍了机器学习的五大框架:监督学习、非监督学习、半监督学习、强化学习及其他类型,并详细讲解了决策树等具体训练方法及其评估指标。