问:工厂员工薪水是多少?
人事部经理面带笑容地跟他说:我们工厂员工平均月收入大概3300。
小李进了工厂后,才发现绝大部分的工人月薪是2000;有多年经验的工人可以拿到2400。但他们有少数的管理层,他们的平均月薪是25,000。
所以人事部经理没有“骗”小李,工厂员工平均收入是每月3309。
其实我们天天在媒体/广告都看到利用统计分析来误导的例子,所以Darrell HUFF 先生在1954年写了《How to Lie with Statistics》,专门描述如何利用统计撒谎。
如果你觉得统计学很高深,避而远之,你可以看看这上下两篇如何教小孩统计分析的故事。
估计当你再看到下面这类统计结果,你会有新的想法:
我们读者年龄的中位数是34岁,平均的家庭年收入是7270美元。——“时代杂志” 主编
从考试成绩到贸易逆差
孩子问:爸爸,你是做什么工作的?我明天要在班上介绍自己父母的工作。
我说:帮客户做统计分析。
孩子问:统计分析?
我心里想你这初中孩子,要如何给你解释统计分析呢?
我尝试用一个他可以想象的场景来介绍——假如下面是你班里同学的数学成绩,你会用什么方式把这些成绩表达出来?
孩子有点迷茫。
20名学生在数学考试中的分数(满分为100分,按大小排序)
30, 35, 37, 40, 40, 49, 51, 54, 54, 55
57, 58, 60, 60, 62, 62, 65, 67, 74, 89
我接着说:任何样本数据,都可以用图加平均值、范围等来表达。
举例:我们可以用茎叶图(Stem and leaf plot)[详见附件A1]表达这些学生成绩:
把20组数,从最低排到最高。排在第十位学生和第十一位学生的平均数 56,叫中位数(Median)。排第五名和第六名成绩的平均值 44.5,就是 Q1 四分之一。排十五名和十六名的平均值 62,就是 Q3 四分之三。
这个茎叶图,再加上Q1 ,中位数(Q2),Q3 ,[44.5 , 56 , 62] 便可以总括表达这二十个学生的成绩分布。也可以用下面的柱状图(Histogram)来表达:
我的话还未说完,孩子便充满自信打断说:这个平均值简单,我懂。
我说:好啊,你这么懂平均值,我问你一个小问题?
问题:5 , 10 , 350 , 355的平均数是多少? |
孩子拿了计算器算出:180。
我说:你知道那些数是代表什么吗?
孩子说:不知道。
如果这些数是代表角的度数,它的平均值应该是零,而不是 180。这是统计分析很重要的概念 —— 你必须知道那些数的背景,否则你的分析没意义。如果你把那四个数字当成是距离来算均值是 180,与四个角度数求均值的结果就完全不一样了。
从以上例子,你就知道了解问题背景(Context)很重要。
孩子问:这些统计分析有什么用?
答:例如,有了这成绩的分析,你就可以知道自己的成绩在整个班是处于什么位置?也可以帮你比较不同科目的成绩。
比较三种教学方法
比较不同算术教学方法的实验中,45名学生被随机分成5个大小相同的组。两组(A,B)采用目前使用的方法(控制组),另外三组(C,D,E)采用三种新方法。实验结束时,所有学生参加了一次标准测试,结果(满分30分)见表B.1。关于教学方法的差异,可以得出什么结论?
B.1: Test results for 45 students | |||||||||
---|---|---|---|---|---|---|---|---|---|
Group A(control) | 17 | 14 | 24 | 20 | 24 | 23 | 16 | 15 | 24 |
Group B(control) | 21 | 23 | 13 | 19 | 13 | 19 | 20 | 21 | 16 |
Group C(praised) | 28 | 30 | 29 | 24 | 27 | 30 | 28 | 28 | 23 |
Group D(reproved) | 19 | 28 | 26 | 26 | 19 | 24 | 24 | 23 | 22 |
Group E(ignored) | 21 | 14 | 13 | 19 | 15 | 15 | 10 | 18 | 20 |
C (praised) = 赞赏, D(reproved)=责骂惩罚, E(ignored)=不理睬
我说:你可以用刚学过的东西汇总每一组数据,然后看看有没有差异。这样你便可以比较五个班的成绩。
他过了十五分钟就画了出来那个五个班的箱线图[详见附件A2]:
我就问他:从这些图有看到显著区分嘛?
孩子答:看得出是C班最好,D班也比较好,E班就比较差。
我说:是的,但如果我们只是比较5个班成绩的平均值,没有考虑每一班成绩范围,便不能全面比较 -- 例如:上面数学考试成绩的Q1 Q2 Q3是 (44.5 , 56 , 62) 如果C班的数学成绩是(32 , 57.5 , 63) 你会认为C班比你们好吗?虽然中位数比你们班高,但Q1 比你们低很多,所以不能单看中位数(或平均值)比较。
看到他对这些挺有兴趣,我便问他如何表达以下数据:
20人一年内阅读月刊的数量
0, 1, 11, 0, 0, 0, 2, 12, 0, 0
12, 1, 0, 0, 0, 0, 12, 0, 11, 0
我看他开始使用同样方法, 我便说这些统计数据跟前面学生成绩的分布不一样,它一头一尾最高,这表示大部分人要么就是不看杂志,要么就是每个月都看,这种分布就不合适用刚才那些方法去表达,只能说它有两个高峰,或者叫众数(mode),再配上一个柱状图。如果我们用中位数或者这些数的平均值,或三分位数来表达的话,反而是误导读者,不能正确的表达那些数据的分布。
当总体(population)很大时,就只能抽样,用抽样来估计population分布。但是要注意,如果样本不是随机抽样(random sample),可能会导致出来的参数偏离、有误差。
我看孩子一头雾水,但我记得他很喜欢研究二战的战斗机,我就用下面这个例子说明,这样抽样出来的结论是没有意义。
样本偏差 Survivor's Bias
错误的抽样会导致错误结论。
二战时会对那些没有被击落的战斗机,研究哪个部分被德军的攻击最多,针对这些部位去加强防护,希望增高飞机的存活率。你同意吗?我们只是抽样了未被击落的飞机,被击落的都未被抽样。一个比较正确的抽样是所有两类都抽样才比较合理。 |
孩子好像对统计越来越感兴趣。
我说:现在你开始知道什么叫统计了吗?明天可以跟老师讲故事了吗?
孩子追着问:可不可以再给我一个练习题?我觉得这统计学也没什么困难,我还可以把你给我的那些题目拿给我同桌小李试试,看他懂不懂。(男孩总是要当英雄,出风头)
我说:好啊。下面的身高统计数据,请你用刚才的方式来汇总一下,看看你学会没有?
20名妇女参加某种疾病研究,她们的身高(以米计)
1.52, 1.60, 1.57, 1.52, 1.60, 1.75, 1.73, 1.63, 1.55, 1.63
1.65, 1.55, 1.65, 1.60, 1.68, 2.50, 1.52, 1.65, 1.60, 1.65
他便拿着纸,用刚才学过的方式计算中位数、三分系数等。蛮有自信地画出图,交卷。
我就问他:你认识二点五米高的女性吗?
他说:真的好像没有。
所以里面那个2.5肯定是不对的。你为什么没有疑问,直接去做?统计分析必须要判断数据是否正确、靠谱。
统计学常常有一个说法叫“垃圾进,垃圾出 Garbage in, garbage out”,如果数据本身不可靠,那么怎么分析都没用。
我接着说:也有很多人利用图表统计数据,误导读者。所以我们看一些统计专家的统计数据分析时也要小心。
美国中西部房价趋势图
上图是06年到09年每个季度,美国中西部的房价。如果我们看右面那个柱状图,你会认为房价波动很大。但是如果同样这组数据看左面柱状图的话,你就会觉得没有太多变化。所以我们要注意人家用柱状图来表示的时候,要看左面坐标有没有标明数字。不应该仅仅看图。
虽然数据都一样,但如图形不一样,传达的信息便完全不同。
孩子说:你说这个我都懂啊,很简单嘛。
我看他这么有信心,我就问他:“你看这个来自报纸的统计图,你觉得有什么问题吗?”
贸易逆差趋势图
美国总贸易逆差从六个月之前四月份的115亿美元,上升了39%,十月份到达历史新高,160亿美元
报社也用以上数据,画成以下趋势图,“比较”英国同期的贸易逆差。
孩子你觉得用这图表达是否合适?
我看他没有什么头绪,我问:为什么选四月、十月这2个时间点,然后中间画条直线?
只挑选合"味道"的来作比较 (Picking cherries)
|
贸易逆差趋势图也只抽四月、十月这2个时间点“比较说明”贸易逆差在快速增加。但如果我们看整整两年24个月的趋势会发现每月总贸易逆差,其实是逐渐减小,而不是上升。
有没有发现图左右面的数字都不是从零开始,所以它用这种方式来误导读者,希望表达出在这段时间美国贸易逆差远远超过英国。
孩子说:你说的很有道理,如果按正常就不应该画出这个图,确实误导我们。
(Note: 在下一篇MA2里,我们会详细介绍如何分析趋势图。)
总结
统计分析主要是希望利用数据分析、统计方式帮我们解决问题(Problem Solving)。所以题目叫MA(Measurement and Analysis)度量与分析,度量本身的重点是如何分析,帮助解决问题。
度量与分析的重点其实与做问卷调查一样:
按目标策划收集那些数据?如何收集?如何分析?
数据分析员也应按以上思路, 才能更好地利用数据解决问题。
步骤 | 上面实例 |
---|---|
了解背景,提问,明确目标 | 比较5个班的成绩是否有显著差异 |
这些数字代表什么?什么单位?(角度、还是距离) | |
策划收集数据 | 怎样取样?避免取样偏差 |
确保数据质量 | 2.5米高女性?异常数据?(18) |
初步数据分析 | 利用统计数(平均值,三分数(Q1 Q2 Q3))或图形(柱状图)描述数据分布 |
附件
A1: 如何画茎叶图(Stem and leaf plot)
以文中20名学生在数学考试分数为例:
把分数从小到大排序
从上而下画一直线
第一个数 30 , 左边写 3 , 右面写 0 (叶)
排第二是 35 , 因5大于 0 - 4, 新一行,左边写 3 , 右面写 5 (叶)
37, 因7 属于 5 - 9 , 所以同一行 , 在 5 右面写 7 (叶)
最终便可以简单利用数目字形成一个横放的直方图
A2: 箱线图 (Box and Whisker Plot)
箱线图包括5个数:
Minimum 最少 (Q0 )
1st Quartile (Q1 , 25 percentile) 箱子的左面边线
Medium 中位数 (Q2 , 50 percentile) 箱子中间的线
3rd Quartile (Q3 , 75 percentile) 箱子的右面边线
Maximum 最大 (Q4 , 100 percentile)
有些箱线图直接把两头指到最大与最少,不展示离散点 (outliers)。
Interquartile range (IQR) = Q3 - Q1
References
1. GUTTAG, John V.: "Introduction to computation and programming using Python" MIT Press 2021
2. CHATFIELD, Chris : "Problem Solving: a statistician's guide 2/e" Chapman & Hall 1995
3. BLUMAN: Elementary Statistics 10/e