上个月,我举办了一次关于 全球土壤调查 (GSS)。土壤测试产生大量数字。 GSS是来自许多站点的土壤测试的集合,数量很多。总而言之,为了快速理解,代表这些数字的一种好方法是什么?

将数字显示为 直方图 是做到这一点的一种方法。维基百科将直方图描述为“数字数据分布的精确图形表示”。我记得当我开始读研究生时,我的一个班上显示了很多直方图,起初我并不熟悉它们。在关于GSS的研讨会上,我想确保每个人都了解直方图所代表的含义,因此我以高尔夫球成绩为例,解释了为什么我以这种方式显示数据。

假设我打了十次高尔夫球,并且想总结一下得分。我可以写下分数。这很容易理解,最低的一轮是81岁,最高的是92岁,而这些成绩中的大多数似乎都在80年代中期。

 10分

为了在图表上显示这些数字,我可以为每个分数加一个点。这是一个 点图 .

10点图

我也可以将这些数字显示为直方图。分数放入 垃圾桶 ,在这种情况下,箱宽度为1,然后显示每个箱中的得分数计数。这清楚地表明,我射击了81次,没有射击82次,没有射击86次,等等。

10直方图binwidth 1

对于直方图,面元宽度通常比度量单位宽。这样可以更清楚地总结数字的分布。在这种情况下,我将垃圾箱宽度设置为3。直方图显示,在80到82的范围内有一个得分,在83到85的范围内有两个得分,在86到88的范围内有五个得分,等等。

10直方图binwidth 3

当只有十个数字需要查看时,所有图表都很容易理解。实际上,对我来说,写下分数就像点图和直方图一样清晰。

但是,当有很多数字时,直方图会很好地缩放。写下数字不是。当我获得100分时,将所有数字写下来并不能让我快速掌握数字的分布方式。

100分

点图上有100个数字,我可以更清楚地看到分布。

100分的点图

柱状图宽度为1的直方图上相同的100个分数显示了分数的细节,但是柱状图宽度也显示了更多的噪点。这些是随机数,因此分别在81和87处的得分峰值是随机的,如果我生成1,000或100,000个随机得分,这些峰值将消失。

100分直方图binwidth 1

仓宽度为3时,100个分数的分布很清晰。现在不再有显示随机噪声的峰。我拍摄的分数很少低于80,得分很多,介于80到88之间,最常见的分数是86到88。

100分直方图binwidth 3

由于具有适当bin宽度的直方图可以很好地缩放很多数字的表示形式,因此我经常使用直方图显示土壤测试数据。

这些是幻灯片 对于GSS演示,首先要通过直方图说明进行随机高尔夫评分,然后在“全球土壤调查”中显示土壤的关键结果。