Sehlani
Sehlani
发布于 2025-10-02 / 10 阅读
0
0

机器学习入门:1. 数据属性与类型详解

1. 属性和对象(attribute & objects)

我们从最简单的开始,一个简单的excel表。

这两个东西是什么?很简单,比如我们收集一个人的数据。

姓名

身高

体重

张三

178

76

李四

165

66

那么,张三 就是一个 对象,object.

身高 体重 便是对应着 属性, Attrbutes.

那么更宽泛来说,就是我们要描述一个东西,比如太阳,月亮,人,他们都是 对象

我们如何去描述这个对象所用的限定词,或者说形容词之类的,有多大,什么颜色,身高体重,便是 属性

有了描述对象和其对应的属性,我们就有了最基础的数据。

2. 属性值

很简单,表格里的身高体重的具体数值就是 属性值。

3. 属性的类型(types of attributes)

属性 可以分为四类,(其实只是越来越特殊罢了)。

A. 名义型 (Nominal)

只有区分,没有顺序和运算意义。

颜色,性别,邮政编码

B. 有序型(Ordinal)

有顺序,但差值和比例无意义。

比赛名次。

C. 区间型(Interval)

差值有意义,也属于有序,就是有顺序。

温度,比赛名次差距,日历日期。

D. 比例型(Ratio)

都有意义,包括差值的比例什么。

身高,体重,收入

类型

区分性

顺序性

差值

比例

示例

Nominal

性别、颜色

Ordinal

排名、成绩

Interval

日期、摄氏温度

Ratio

身高、体重、年龄

4. 离散和连续的属性值

A. 离散型

类似于,整数,类别,或者邮编,人数,这种的属性值。

定义:只有有限个或者无限多个取值。

可数

B. 连续型

类似于,身高,体重

定义:取值在师叔范围内,可以是无限多的值。

不可数

5. 属性值的对称性

这个也很简单,举个例子来说,

  • 小王买了牛奶,小李也买了牛奶 → 有相似度。

  • 小王没买牛奶,小李也没买牛奶 → 这不说明他们购物习惯相似。

就是对于很多二元分类,也就是说在判断关联性的时候,在这个情况下,存在更为重要一点,对应1值,不存在,对应0值,他们能够推导出来的信息量是不对称的。

但是小王喜欢数字1,小李喜欢数字0,这个信息,属性值就是对称的。

6. 数据集的类型

A. 记录型数据 (Record Data)

结构:由一组记录(对象)组成,每条记录有固定数量的属性。

例子:

  • 数据矩阵 (Data Matrix):表格形式,每行是对象,每列是属性。

  • 文档数据 (Document Data):文档表示为“词向量”。

  • 事务数据 (Transaction Data):每条记录是一组物品,如超市购物篮分析。

B. 图数据 (Graph Data)

对象间存在关系,用边表示。

例子:

  • 社交网络(节点=用户,边=好友关系)

  • 分子结构(节点=原子,边=化学键)

  • Web页面(节点=网页,边=超链接)

C. 有序数据 (Ordered Data)

对象具有顺序或时空依赖。

例子:

  • 时间序列 (Time Series):股票价格随时间变化。

  • 序列数据 (Sequence Data):基因序列、日志记录。

  • 空间/时空数据 (Spatial/Spatio-Temporal Data):气温分布、卫星影像。


评论