商务智能计算题总结
1.Apriori算法
若项目集X的支持度大于或等于用户指定的最小支持度(minsupport),则项目集X称为频繁项目集(或大项目集),否则项目集X为非频繁项目集(或小项目集)。
若关联规则X->Y的支持度和置信度分别大于或等于用户指定的最小支持率minsupport和最小置信度minconfidence,则称关联规则X->Y为强关联规则,否则称关联规则X->Y为弱关联规则。
频繁项集的任何子集也一定是频繁的。
例:minsup = 2/4
生成关联规则
为每个频繁项集l, 生成非空子集s; 若满足:
则输出规则:(l-s) →s
e.g: l=ABCD, s = D , (l-s)= ABC
confidence(ABC →D)=support(ABCD)/support(ABC)
2.贝叶斯
3.信息熵entropy(D)
4.余弦相似度
5.k均值方法 (k-means)
根据所给的数据通过对其实施k-means (设n=8,k=2),,其主要执行执行步骤:
第一次迭代:假定随机选择的两个对象,如序号1和序号3当作初始点,分别找到离两点最近的对象,并产生两个簇{1,2}和{3,4,5,6,7,8}。对于产生的簇分别计算平均值,得到平均值点。对于{1,2},平均值点为(1.5,1);对于{3,4,5,6,7,8},均值点为(3.5,3)。
第二次迭代:通过平均值调整对象的所在的簇,重新聚类,即将所有点按离平均值点(1.5,1)、(3.5,1)最近的原则重新分配。得到两个新的簇:{1,2,3,4}和{5,6,7,8}。重新计算簇平均值点,得到新的平均值点为(1.5,1.5)和(4.5,3.5)。
第三次迭代:将所有点按离平均值点(1.5,1.5)和(4.5,3.5)最近的原则重新分配,调整对象,簇仍然为{1,2,3,4}和{5,6,7,8},发现没有出现重新分配,而且准则函数收敛,程序结束。