《商务与经济统计》(一)
第一章:数据与统计资料
1、数据是指搜集和分析的事实和数字。
b)、分类型数据既可以是非数值型的也可以是数值型的,既可以用名义尺度度量也可以用顺序尺度度量;只有当数据是数量型的,算术运算才有意义。
2、
3、统计软件的数据来源一般为Excel 表格和数据库,还有就是公司内部记录、专门从事搜集和保存数据的第三方、行业协会、互联网和政府机构。另外就是自己做实验或问卷调查取得数据。在数据采集过程中是会产生误差的,因此对数据要有敬畏之心。
4、描述统计:用表格、图形和数值方法来汇总数据。
统计推断:利用样本数据估计总体特征并进行假设检验的过程。
5、评估数据的可靠性:分成训练数据集+检验数据集,前者预测后者。
6、数据挖掘贯穿于统计的始终,通过计算机将海量数据分类汇总,建立模型,自动预测。
第二章:描述统计学中的表格法和图形法
1、
复合条形图:
结构条形图:
交叉分组表:汇总两个变量数据的一种方法。
2、数量型数据频数分布:a、确定互不重叠的组数,b、确定每组宽度,c、确定组限。(注:组中值指上组限和下组限的中间值)。
打点图:(可参考Mr.慢游的统计学 学习笔记 (四)—— 掌握数据的整体状态 直方图 )
累积分布:表示≤每一组上组限的数据项个数,而不是表示每一组的频数。
3、辛普森悖论:
当我们合并或综合两个或以上的交叉分组表中的数据时,合并的前后会得出完全相反的结论,出现这种悖论的原因是合并基数和百分数时可能出现的误区,由于这种可能性,我们在做出判断之前应考虑是根据未综合还是综合交叉分组表得出的结论。
第三章:描述统计学—数值方法
2、变异程度可以让你在相同平均数的情况下了解到谁更稳定,常用的度量方式有极差,四分位数间距,方差,标准差,极差容易受异常值的影响,为了克服异常值,我们使用四分位数间距,求出中间50%数据的极差。方差是比较两个或以上变异程度的有用工具,注意:样本方差和总体方差的求法不同。方差为什么要转化成标准差?标准差和原数据的单位度量相同,更容易进行比较。标准差系数也是反映数据的变异程度,标准差系数越小数据越稳定。
a)、极差=max-min;
b)、四分分间距interquartile range (IQR)=Q3-Q1
c)、方差variance:注意总体方差σ2与样本方差s2的异同;标准差;
标准差系数:(标准差*100/平均数)%
3、频数分布直方图是向左偏还是右偏取决于偏度为正还是负,偏度由计算机计算,负为左偏,正为右偏,利用平均数和中位数的大小也可以判断偏度为左还是右,右偏时平均数大于中位数,左偏是,中位数大于平均数。标准分数用于求数值的相对位置,当标准分数大于0表示高于平均数,反之;切比雪夫定理与经验法则的不同之处在于前者适用于任何分布,后者适用于正态分布。
z-分数(标准分数):Zi=(Xi-)/s(样本标准差) 例:Z1=1.2,表示x1比样本平均数大1.2个标准差。
切比雪夫定理:与平均数的距离在z个标准差之内的数据所占比例至少为(1-1/z2),其中z是大于1的任意实数。
经验法则(3-sigma法则/68-95-99.7法则):68%的数据将分布在的第一个标准偏差之内,95%和99.7%将落在均值的前三个标准偏差之内(只针对正态分布)。
异常值的检测方法有两种:
1° 使用z-分数,如果数据分布符合正态分布,几乎所有的数据都在三个标准差之内,之外的视为异常值。
2° 使用分位数确定上限和下限。max=Q3+1.5*IQR min=Q1-1.5*IQR
4、箱形图是五数概括法(min/Q1/Q2/Q3/max)的数据图形汇总。
5、两变量间关系的度量(协方差&相关系数)
协方差
用于计算两变量间的线性关系,大的正值表示强的正线性相关关系,大的负值表示强的负线性相关关系。
但是,由于计量单位的变化会出现协方差变大,但是相关关系并无变化。为避免这种情况,我们使用相关系数代替协方差。
相关系数在-1和+1之间,值得我们注意的是,相关系数提供的是线性关系而不是因果关系。
第四章:概率
加法公式:P(A U B) = P(A) + P(B) - P(AB)
P(A|B)=P(AB)/P(B) 为事件B发生条件下,事件A发生的条件概率。
乘法公式:P(AB) = P(A)P(B|A)
更一般地:P(A1 A2 ... An) = P(A1)P(A2 / A1)P(A3 / A1 A2) ... P(An / A1 A2 ... An-1)
第五章:离散概率分布
离散型随机变量、离散型随机变量的分布律/列(形式、性质)、随机变量的两个关键参数——期望与方差/标准差、分布函数:F(x)=P(X≤x);几种常见的离散型随机变量概率分布——二项分布、泊松分布、超几何分布等;
二元随机变量/二元随机变量的分布函数:联合概率分布(律/函数)、边际分布(律/函数)、条件分布(律/函数);
协方差+相关系数
离散型随机变量的独立性:
第六章:连续型概率分布
联合概率密度函数、边缘概率密度函数、条件概率密度函数、
(二元)均匀分布+(二元)正太分布+指数分布
连续型随机变量的独立性: