什么是统计学
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预
测对象未来的一门综合性科学。
为什么要学习统计学
统计思维
用相对简单的特征来尽量准确地刻画复杂的真实情况,并且允许对不确定性进行量化
应用范围广泛
统计学在几乎所有领域里都发挥着重要作用,比如:经济学、医学、商业、心理学、计算机
数据
定性数据(对事物的性质进行描述)
性别:男、女
颜色:红、黄、蓝
教育程度:小学,初中,高中,本科,硕士,博士 评价:好评,中评,差评
定量数据(取值为数值的数据)
年份:2050、2040、2030
摄氏温度: 35、36、37
身高:1.60 1.85 1.72 1.68
体重:58,40,60,75,83
变量
一个变量(variable)应该包含至少2个不同的取值(否则就是常量)
变量测量尺度与类别:
数据的有效性和可靠性
既然描述统计首先需要进行数据的收集,那么数据的有效性(valid)和可靠性(reliable)就非常重要了
多次测量得到的数据是否一致
实际测量的对象=希望测量的对象
分类变量(定性变量)
性别:男(1)、女(2)
颜色:红(1)、黄(2)、蓝(3)
数值变量(定量变量)
无序分类变量
等距数值变量
例如:
如何取得反映客观现象的数据(数据的收集)
通过图表形式对数据进行加工处理和可视化
通过概括与分析得出反映客观现象的规律性数量特征
分类变量的描述
无序分类变量的描述
以性别为例:
现在有12个新生儿,他们的性别是:女,男,女,女,男,男,男,男,女,男,男,女
频率表
条形图
集中趋势描述
众数:一组观测值中出现次数最多的数
例如:
颜色数据:赤1,橙1,黄1,绿1,青1,蓝1,紫1 不存在众数
颜色数据:赤2,橙6,黄1,绿10,青3,蓝10,紫4 存在多个众数
注意:
一组观测值中,可能存在一个或多个众数,也可能不存在众数
有序分类变量的描述
以教育程度为例:
小学(1),初中(2),高中(3),本科(4),研究生(5)
观测19个人的教育程度(n=19)
3,3,4,1,5,4,2,1,5,4,4,4,5,3,2,1,4,5,5
频率表
条形图
集中趋势
众数 ====》本科
中位数:对于有限的数集,把所有观测值按大小排序后,位于正中间的观测值即为中位数
等距数值变量的描述
以一组摄氏温度数据(等距数值变量)为例:
19,22,21,17,13,19,18,17,17,21,21,21,19,20 (n=14)
频率表
可以对数值变量进行小区间的分割,从而制作频率表
频率直方图
数值变量的频率直方图的纵坐标为"频率/间距",横轴为"间距",这样每个长方形的面积就是频率,所有长方形的面积和为1
集中趋势
中位数:是将全体数据按大小顺序排列,在整个数列中处于中间位置的那个值
均值:在一组数据中,所有数据之和再除以这组数据的个数,所得即为这组数据的均值
X¯=∑i=1nXin
离散趋势:观测值偏离其中心的趋势
极差(全距): 最大值减去最小值,可以简单描述数据的范围大小;
分位数(分位点):把数据n等分的分割点
四分位数:
箱线图
等比数值变量的描述
方差
每一个观测值与均值之间的差异的平方和的平均数
S2=1n∑i=1n(xi−x¯)2
标准差
标准差是方差开根号的结果,标准差与原观测值具有相同的单位
S=1n∑i=1n(xi−x¯)2