西瓜书填坑【一】假设空间与版本空间
在西瓜问题中,如何根据训练集求所对应的版本空间?①写出假设空间:先列出所有可能的样本点(即特征向量)(即每个属性都取到所有的属性值)②对应着给出的已知数据集,将与正样本不一致的、与负样本一致的假设删除。即可得出与训练集一致的假设集合,也就是版本空间了。 假设空间是在已知属性和属性可能取值的情况下,对所有可能满足目标(好瓜)的情况的一种毫无遗漏的假设集合。例子:假设一...
在西瓜问题中,如何根据训练集求所对应的版本空间?
①写出假设空间:先列出所有可能的样本点(即特征向量)(即每个属性都取到所有的属性值)
②对应着给出的已知数据集,将与正样本不一致的、与负样本一致的假设删除。
即可得出与训练集一致的假设集合,也就是版本空间了。
假设空间是在已知属性和属性可能取值的情况下,对所有可能满足目标(好瓜)的情况的一种毫无遗漏的假设集合。
例子:
假设一个瓜的好或不好,由三个属性确定。分别是色泽、根蒂、敲声。
其中,色泽有青绿、乌黑、浅白3种取值,根蒂有蜷缩、稍蜷、硬挺3种取值,敲声有浊响、清脆、沉闷3种取值。
那么假设空间由形如 “(色泽=?) ∧ (根蒂=?) ∧ (敲声=?)” 的所有假设组成。
除了考虑属性色泽、根蒂、敲声分别有3 、3、3种可能取值,还要考虑到一种属性可能无论取什么值都合适(用通配符*表示),另外有一种情况就是好瓜这个概念根本不成立(用∅表示),则假设空间大小为 (3 + 1)×(3 + 1)×(3 + 1)+ 1 = 65 。
|
编号 |
色泽 |
根蒂 |
敲声 |
|
1 |
* |
* |
* |
|
2 |
青绿 |
* |
* |
|
3 |
乌黑 |
* |
* |
|
4 |
浅白 |
* |
* |
|
5 |
* |
蜷缩 |
* |
|
6 |
* |
硬挺 |
* |
|
7 |
* |
稍蜷 |
* |
|
8 |
* |
* |
浊响 |
|
9 |
* |
* |
清脆 |
|
10 |
* |
* |
沉闷 |
|
11 |
青绿 |
蜷缩 |
* |
|
12 |
青绿 |
硬挺 |
* |
|
13 |
青绿 |
稍蜷 |
* |
|
14 |
乌黑 |
蜷缩 |
* |
|
15 |
乌黑 |
硬挺 |
* |
|
16 |
乌黑 |
稍蜷 |
* |
|
17 |
浅白 |
蜷缩 |
* |
|
18 |
浅白 |
硬挺 |
* |
|
19 |
浅白 |
稍蜷 |
* |
|
20 |
青绿 |
* |
浊响 |
|
21 |
青绿 |
* |
清脆 |
|
22 |
青绿 |
* |
沉闷 |
|
23 |
乌黑 |
* |
浊响 |
|
24 |
乌黑 |
* |
清脆 |
|
25 |
乌黑 |
* |
沉闷 |
|
26 |
浅白 |
* |
浊响 |
|
27 |
浅白 |
* |
清脆 |
|
28 |
浅白 |
* |
沉闷 |
|
29 |
* |
蜷缩 |
浊响 |
|
30 |
* |
蜷缩 |
清脆 |
|
31 |
* |
蜷缩 |
沉闷 |
|
32 |
* |
硬挺 |
浊响 |
|
33 |
* |
硬挺 |
清脆 |
|
34 |
* |
硬挺 |
沉闷 |
|
35 |
* |
稍蜷 |
浊响 |
|
36 |
* |
稍蜷 |
清脆 |
|
37 |
* |
稍蜷 |
沉闷 |
|
38 |
青绿 |
蜷缩 |
浊响 |
|
39 |
青绿 |
蜷缩 |
清脆 |
|
40 |
青绿 |
蜷缩 |
沉闷 |
|
41 |
青绿 |
硬挺 |
浊响 |
|
42 |
青绿 |
硬挺 |
清脆 |
|
43 |
青绿 |
硬挺 |
沉闷 |
|
44 |
青绿 |
稍蜷 |
浊响 |
|
45 |
青绿 |
稍蜷 |
清脆 |
|
46 |
青绿 |
稍蜷 |
沉闷 |
|
47 |
乌黑 |
蜷缩 |
浊响 |
|
48 |
乌黑 |
蜷缩 |
清脆 |
|
49 |
乌黑 |
蜷缩 |
沉闷 |
|
50 |
乌黑 |
硬挺 |
浊响 |
|
51 |
乌黑 |
硬挺 |
清脆 |
|
52 |
乌黑 |
硬挺 |
沉闷 |
|
53 |
乌黑 |
稍蜷 |
浊响 |
|
54 |
乌黑 |
稍蜷 |
清脆 |
|
55 |
乌黑 |
稍蜷 |
沉闷 |
|
56 |
浅白 |
蜷缩 |
浊响 |
|
57 |
浅白 |
蜷缩 |
清脆 |
|
58 |
浅白 |
蜷缩 |
沉闷 |
|
59 |
浅白 |
硬挺 |
浊响 |
|
60 |
浅白 |
硬挺 |
清脆 |
|
61 |
浅白 |
硬挺 |
沉闷 |
|
62 |
浅白 |
稍蜷 |
浊响 |
|
63 |
浅白 |
稍蜷 |
清脆 |
|
64 |
浅白 |
稍蜷 |
沉闷 |
|
65 |
Ø |
|
|
西瓜数据集如下:
| 编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
|---|---|---|---|---|
| 1 | 青绿 | 蜷缩 | 浊响 | 是 |
| 2 | 乌黑 | 蜷缩 | 浊响 | 是 |
| 3 | 青绿 | 硬挺 | 清脆 | 否 |
| 4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
接下来进行版本空间的计算:
版本空间为与训练集一致的“假设集合”。
在此‘西瓜例’中,我们的学习目标为“好瓜”,所以我们要通过训练集(表2),从假设空间中删除与正例不一致的假设、和(或)与反例一致的假设,最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果,学得的假设集合即为要求的版本空间。步骤如下:
1) 根据表2的样本1,我们知“好瓜”的概念是成立的,所以先删除 ∅ 的假设。删除假设空间中的红色样本。
2) 删除与正例(好瓜)不一致的假设。
根据样本((色泽=青绿)^(根蒂=蜷缩)^(敲声=浊响))——>好瓜,删除橙色样本
根据样本((色泽=乌黑)^(根蒂=蜷缩)^(敲声=浊响))——>好瓜,在上一步的基础上再删除绿色样本
这里把((色泽=乌黑)^(根蒂=蜷缩)^(敲声=浊响))删除,这个和样本2符合,不要觉得心虚,因为利用样本2进行删除的时候也会删掉((色泽=青绿)^(根蒂=蜷缩)^(敲声=浊响))这样刚好留下了((色泽=*)^(根蒂=蜷缩)^(敲声=浊响))
3)删除与反例(不是好瓜)一致的假设。
根据样本((色泽=青绿)^(根蒂=硬挺)^(敲声=清脆))——>不是好瓜,在上一步的基础上再删除蓝色样本
根据样本((色泽=乌黑)^(根蒂=稍蜷)^(敲声=沉闷))——>不是好瓜,剩余假设空间中已无满足此条件可被删的假设。
此时,只剩余(5)、(8)、(29)与训练集一致。
(5) (色泽=*)^(根蒂=蜷缩)^(敲声=*)
(8) (色泽=*)^(根蒂=*)^(敲声=浊响)
(29)(色泽=*)^(根蒂=蜷缩)^(敲声=浊响)
即表1所对应的版本空间为:
色泽=*,根蒂=蜷缩,敲声=*
色泽=*,根蒂=*,敲声=浊响
色泽=*,根蒂=蜷缩,敲声=浊响
现实问题中,我们常面临很大的假设空间,但学习过程是根据有限的样本训练集进行的,那么对于不同版本的训练集,应该会有不同版本的“删除后”的假设空间与之对应。便称之为版本空间。
版本空间内每一个假设都可以判断上面数据集中的每一条数据,是好瓜还是不是好瓜,但是用不同的假设判断一条新数据可能会得出不一样的结果,这属于“归纳偏好”问题。
更多推荐



所有评论(0)