数据挖掘作业二
(一)假定下面的表从面向属性的归纳导出
(a)t-权交叉表:使用t_weight表示主概化关系中每个元组的典型性,
class\birth_place |
canada |
others |
both_birth_place |
||||||
|
count |
t-weight |
d-weight |
count |
t-weight |
d-weight |
count |
t-weight |
d-weight |
programmer |
180 |
60% |
90% |
120 |
40% |
60% |
300 |
100% |
75% |
DBA |
20 |
20% |
10% |
80 |
80% |
40% |
100 |
100% |
25% |
all class |
200 |
50% |
100% |
200 |
50% |
100% |
400 |
100% |
100% |
(b)
(二)假定分析数据包含属性age.数据元组的age值(以递增次序)
(a)average=(13+15+16*2+19+20*2+21+22*2+25*4+30+33*2+35*4+36+40+45+46+52+70)/27=29.962962962962962,中位数是第14个数,是25
(b)模(mode):表示数据集中出现频率最高的值,此数据中25,和35分别出现4次,是做多的,所以该数据的模是25,35,该数据有两个出现次数最多的值,所以是双模态
(c) 中列数:最大值和最小值的平均值,columns=(max+min)/2=(13+70)/2=41.5
(d)数据大致可以分成这几组,所以Q1=20,Q3=35
(e)五数概括:
最小Mininum=13
四分位Q1=20
中位数Q2=25
四分位Q2=35
最大Maxnum=70
(f)可以使用python或者Excel画图,这里使用python,代码如下
(g)
分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之,对落点表示在在该线以下的点则低。
分位图:显示给定属性的所有数据,而且绘制了分位数信息,如下图
分位数-分位数图:对着另一个单变量的分位数,绘制一个单变量分布的分位数,允许用户观察是不是有从一个分布到另外一个分布的迁移
区别:分位图显示的是一组数据的分布,分位数-分位数图显示的是两组数据的分布的对比。