介绍基于规则的分类思想、规则评估与冲突处理,以及规则生成与 FOIL 信息增益方法。
概述贝叶斯决策与 MAP,先验 / 似然 / 后验的更新规则,朴素贝叶斯的条件独立与平滑处理,以及贝叶斯网络在相关特征下的建模与局限。
涵盖分类误差与泛化、训练误差对比,解析欠拟合 / 过拟合原因、复杂度惩罚与剪枝策略,以及模型评估与交叉验证要点。
本文系统介绍了机器学习的五大框架:监督学习、非监督学习、半监督学习、强化学习及其他类型,并详细讲解了决策树等具体训练方法及其评估指标。
本文介绍了数据挖掘的基础概念, 包括数据质量、相似度与距离度量、数据预处理方法以及信息论度量。内容涵盖余弦相似度、Jaccard 系数、皮尔逊相关系数、欧氏距离、马氏距离等多种算法, 并解释了熵和互信息在数据挖掘中的应用。
本文详细介绍了数据科学中的基本概念,包括对象、属性、属性值的类型(名义型、有序型、区间型、比例型)、离散与连续属性值、属性值的对称性以及数据集的类型(记录型、图数据、有序数据)。