文章
主题列表

最新资讯
MA1 轻轻松松学统计分析(上)

 小李刚中学毕业,希望去工厂找工作。
问:工厂员工薪水是多少?
人事部经理面带笑容地跟他说:我们工厂员工平均月收入大概3300。
小李进了工厂后,才发现绝大部分的工人月薪是2000;有多年经验的工人可以拿到2400。但他们有少数的管理层,他们的平均月薪是25,000。


所以人事部经理没有“骗”小李,工厂员工平均收入是每月3309。

其实我们天天在媒体/广告都看到利用统计分析来误导的例子,所以Darrell HUFF 先生在1954年写了《How to Lie with Statistics》,专门描述如何利用统计撒谎。

如果你觉得统计学很高深,避而远之,你可以看看这上下两篇如何教小孩统计分析的故事。

估计当你再看到下面这类统计结果,你会有新的想法:

我们读者年龄的中位数是34岁,平均的家庭年收入是7270美元。——“时代杂志” 主编


从考试成绩到贸易逆差

孩子问:爸爸,你是做什么工作的?我明天要在班上介绍自己父母的工作。
我说:帮客户做统计分析。
孩子问:统计分析?
我心里想你这初中孩子,要如何给你解释统计分析呢?
我尝试用一个他可以想象的场景来介绍——假如下面是你班里同学的数学成绩,你会用什么方式把这些成绩表达出来?
孩子有点迷茫。

20名学生在数学考试中的分数(满分为100分,按大小排序)


30, 35, 37, 40, 40, 49, 51, 54, 54, 55
57, 58, 60, 60, 62, 62, 65, 67, 74, 89

我接着说:任何样本数据,都可以用图加平均值、范围等来表达。
举例:我们可以用茎叶图(Stem and leaf plot)[详见附件A1]表达这些学生成绩:



把20组数,从最低排到最高。排在第十位学生和第十一位学生的平均数 56,叫中位数(Median)。排第五名和第六名成绩的平均值 44.5,就是 Q1 四分之一。排十五名和十六名的平均值 62,就是 Q3 四分之三。

这个茎叶图,再加上Q1 ,中位数(Q2),Q3 ,[44.5 , 56 , 62] 便可以总括表达这二十个学生的成绩分布。也可以用下面的柱状图(Histogram)来表达:


 

除了中位数,也常用平均值(Mean)来表示一堆数据的中间趋势,平均值就是把所有数据加起来,然后把总数除以数量,比如上面20学生数学成绩的平均值是......
我的话还未说完,孩子便充满自信打断说:这个平均值简单,我懂。
我说:好啊,你这么懂平均值,我问你一个小问题?


问题:5 , 10 , 350 , 355的平均数是多少?


孩子拿了计算器算出:180。
我说:你知道那些数是代表什么吗?
孩子说:不知道。
如果这些数是代表角的度数,它的平均值应该是零,而不是 180。这是统计分析很重要的概念 —— 你必须知道那些数的背景,否则你的分析没意义。如果你把那四个数字当成是距离来算均值是 180,与四个角度数求均值的结果就完全不一样了。
从以上例子,你就知道了解问题背景(Context)很重要。

孩子问:这些统计分析有什么用?
答:例如,有了这成绩的分析,你就可以知道自己的成绩在整个班是处于什么位置?也可以帮你比较不同科目的成绩。

比较三种教学方法

比较不同算术教学方法的实验中,45名学生被随机分成5个大小相同的组。两组(A,B)采用目前使用的方法(控制组),另外三组(C,D,E)采用三种新方法。实验结束时,所有学生参加了一次标准测试,结果(满分30分)见表B.1。关于教学方法的差异,可以得出什么结论?

B.1: Test results for 45 students
Group A(control) 17 14 24 20 24 23 16 15 24
Group B(control) 21 23 13 19 13 19 20 21 16
Group C(praised) 28 30 29 24 27 30 28 28 23
Group D(reproved) 19 28 26 26 19 24 24 23 22
Group E(ignored) 21 14 13 19 15 15 10 18 20

C (praised) = 赞赏, D(reproved)=责骂惩罚, E(ignored)=不理睬

我说:你可以用刚学过的东西汇总每一组数据,然后看看有没有差异。这样你便可以比较五个班的成绩。
他过了十五分钟就画了出来那个五个班的箱线图[详见附件A2]:




我就问他:从这些图有看到显著区分嘛?
孩子答:看得出是C班最好,D班也比较好,E班就比较差。
我说:是的,但如果我们只是比较5个班成绩的平均值,没有考虑每一班成绩范围,便不能全面比较 -- 例如:上面数学考试成绩的Q1 Q2 Q3是 (44.5 , 56 , 62) 如果C班的数学成绩是(32 , 57.5 , 63) 你会认为C班比你们好吗?虽然中位数比你们班高,但Q1 比你们低很多,所以不能单看中位数(或平均值)比较。

看到他对这些挺有兴趣,我便问他如何表达以下数据:

20人一年内阅读月刊的数量


0, 1, 11, 0, 0, 0, 2, 12, 0, 0
12, 1, 0, 0, 0, 0, 12, 0, 11, 0

我看他开始使用同样方法, 我便说这些统计数据跟前面学生成绩的分布不一样,它一头一尾最高,这表示大部分人要么就是不看杂志,要么就是每个月都看,这种分布就不合适用刚才那些方法去表达,只能说它有两个高峰,或者叫众数(mode),再配上一个柱状图。如果我们用中位数或者这些数的平均值,或三分位数来表达的话,反而是误导读者,不能正确的表达那些数据的分布。


当总体(population)很大时,就只能抽样,用抽样来估计population分布。但是要注意,如果样本不是随机抽样(random sample),可能会导致出来的参数偏离、有误差。
我看孩子一头雾水,但我记得他很喜欢研究二战的战斗机,我就用下面这个例子说明,这样抽样出来的结论是没有意义。

样本偏差 Survivor's Bias

错误的抽样会导致错误结论。


二战时会对那些没有被击落的战斗机,研究哪个部分被德军的攻击最多,针对这些部位去加强防护,希望增高飞机的存活率。你同意吗?我们只是抽样了未被击落的飞机,被击落的都未被抽样。一个比较正确的抽样是所有两类都抽样才比较合理。
其实被击落的飞机哪个部分被击中更重要,但是我们无法得到那些抽样,只可以从没有被击落的飞机去看,这是抽样的错误。所以分析得出的结论没有意义。

孩子好像对统计越来越感兴趣。 

我说:现在你开始知道什么叫统计了吗?明天可以跟老师讲故事了吗?

孩子追着问:可不可以再给我一个练习题?我觉得这统计学也没什么困难,我还可以把你给我的那些题目拿给我同桌小李试试,看他懂不懂。(男孩总是要当英雄,出风头)
我说:好啊。下面的身高统计数据,请你用刚才的方式来汇总一下,看看你学会没有?

20名妇女参加某种疾病研究,她们的身高(以米计)


1.52, 1.60, 1.57, 1.52, 1.60, 1.75, 1.73, 1.63, 1.55, 1.63
1.65, 1.55, 1.65, 1.60, 1.68, 2.50, 1.52, 1.65, 1.60, 1.65

他便拿着纸,用刚才学过的方式计算中位数、三分系数等。蛮有自信地画出图,交卷。
我就问他:你认识二点五米高的女性吗?
他说:真的好像没有。
所以里面那个2.5肯定是不对的。你为什么没有疑问,直接去做?统计分析必须要判断数据是否正确、靠谱。
统计学常常有一个说法叫“垃圾进,垃圾出 Garbage in, garbage out”,如果数据本身不可靠,那么怎么分析都没用。

我接着说:也有很多人利用图表统计数据,误导读者。所以我们看一些统计专家的统计数据分析时也要小心。


美国中西部房价趋势图

 上图是06年到09年每个季度,美国中西部的房价。如果我们看右面那个柱状图,你会认为房价波动很大。但是如果同样这组数据看左面柱状图的话,你就会觉得没有太多变化。所以我们要注意人家用柱状图来表示的时候,要看左面坐标有没有标明数字。不应该仅仅看图。
虽然数据都一样,但如图形不一样,传达的信息便完全不同。

孩子说:你说这个我都懂啊,很简单嘛。
我看他这么有信心,我就问他:“你看这个来自报纸的统计图,你觉得有什么问题吗?”

贸易逆差趋势图

美国总贸易逆差从六个月之前四月份的115亿美元,上升了39%,十月份到达历史新高,160亿美元

报社也用以上数据,画成以下趋势图,“比较”英国同期的贸易逆差。


孩子你觉得用这图表达是否合适?

我看他没有什么头绪,我问:为什么选四月、十月这2个时间点,然后中间画条直线?


只挑选合"味道"的来作比较 (Picking cherries)


  • 从上面八零年代到现在全球海洋冰量的统计很明显看到地球在不断地暖软化。但你还可以抽两个时间,例如:2012年四月份的冰量比1988年六月份多,来说明“全球变冷”!

贸易逆差趋势图也只抽四月、十月这2个时间点“比较说明”贸易逆差在快速增加。但如果我们看整整两年24个月的趋势会发现每月总贸易逆差,其实是逐渐减小,而不是上升。

  • 有没有发现图左右面的数字都不是从零开始,所以它用这种方式来误导读者,希望表达出在这段时间美国贸易逆差远远超过英国。

孩子说:你说的很有道理,如果按正常就不应该画出这个图,确实误导我们。

(Note: 在下一篇MA2里,我们会详细介绍如何分析趋势图。)

总结


统计分析主要是希望利用数据分析、统计方式帮我们解决问题(Problem Solving)。所以题目叫MA(Measurement and Analysis)度量与分析,度量本身的重点是如何分析,帮助解决问题。
度量与分析的重点其实与做问卷调查一样:
按目标策划收集那些数据?如何收集?如何分析?

数据分析员也应按以上思路, 才能更好地利用数据解决问题。

步骤 上面实例
了解背景,提问,明确目标 比较5个班的成绩是否有显著差异

这些数字代表什么?什么单位?(角度、还是距离)
策划收集数据 怎样取样?避免取样偏差
确保数据质量 2.5米高女性?异常数据?(18)
初步数据分析 利用统计数(平均值,三分数(Q1 Q2 Q3))或图形(柱状图)描述数据分布

附件

A1: 如何画茎叶图(Stem and leaf plot)

以文中20名学生在数学考试分数为例:

  1. 把分数从小到大排序

  2. 从上而下画一直线

  3. 第一个数 30 , 左边写 3 , 右面写 0 (叶)

  4. 排第二是 35 , 因5大于 0 - 4, 新一行,左边写 3 , 右面写 5 (叶)

  5. 37, 因7 属于 5 - 9 , 所以同一行 , 在 5 右面写 7 (叶)

  6. 最终便可以简单利用数目字形成一个横放的直方图

A2: 箱线图 (Box and Whisker Plot)


箱线图包括5个数:

  • Minimum 最少 (Q0 )

  • 1st Quartile (Q1 , 25 percentile) 箱子的左面边线

  • Medium 中位数 (Q2 , 50 percentile) 箱子中间的线

  • 3rd Quartile (Q3 , 75 percentile) 箱子的右面边线

  • Maximum 最大 (Q4 , 100 percentile)

有些箱线图直接把两头指到最大与最少,不展示离散点 (outliers)。

Interquartile range (IQR) = Q3 - Q1

References

1. GUTTAG, John V.: "Introduction to computation and programming using Python" MIT Press 2021
2. CHATFIELD, Chris : "Problem Solving: a statistician's guide 2/e" Chapman & Hall 1995
3. BLUMAN: Elementary Statistics 10/e