ESC 比赛规则变动十分频繁,我还没有很好的主意怎样对基于不同比赛规则的数据进行 normalize 的处理。 所以其实下面的比较,有些的确是偏离了同一标准。 大家知道就好。
首先,展示一下这篇网志里用到的数据:
Country | 06 | 07 | 08 | 09 | 10 | 11 | 12 | 13 | 14 | 15 | |
---|---|---|---|---|---|---|---|---|---|---|---|
1 | Albania | 55 | 48 | 62 | 146 | 34 | |||||
2 | Armenia | 129 | 138 | 199 | 92 | 141 | 41 | 174 | 34 | ||
3 | Australia | 196 | |||||||||
4 | Austria | 64 | 290 | 0 | |||||||
5 | Azerbaijan | 132 | 207 | 145 | 221 | 150 | 234 | 33 | 49 | ||
6 | Belarus | 145 | 18 | 48 | 43 | ||||||
7 | Belgium | 143 | 71 | 217 | |||||||
8 | Bosnia and Herzegovina | 229 | 106 | 110 | 106 | 51 | 125 | 55 | |||
9 | Bulgaria | 157 | |||||||||
10 | Croatia | 56 | 44 | 45 | |||||||
11 | Cyprus | 27 | 65 | 11 | |||||||
12 | Denmark | 26 | 60 | 74 | 149 | 134 | 21 | 281 | 74 | ||
13 | Estonia | 129 | 44 | 120 | 19 | 106 | |||||
14 | Finland | 292 | 53 | 35 | 22 | 57 | 13 | 72 | |||
15 | France | 5 | 19 | 47 | 107 | 82 | 82 | 21 | 14 | 2 | 4 |
16 | Georgia | 97 | 83 | 136 | 110 | 50 | 51 | ||||
17 | Germany | 36 | 49 | 14 | 35 | 246 | 107 | 110 | 18 | 39 | 0 |
18 | Greece | 128 | 139 | 218 | 120 | 140 | 120 | 64 | 152 | 35 | 23 |
19 | Hungary | 128 | 53 | 19 | 84 | 143 | 19 | ||||
20 | Iceland | 64 | 218 | 41 | 61 | 46 | 47 | 58 | |||
21 | Ireland | 93 | 5 | 25 | 119 | 46 | 5 | ||||
22 | Israel | 4 | 124 | 53 | 71 | 97 | |||||
23 | Italy | 189 | 101 | 126 | 33 | 292 | |||||
24 | Latvia | 30 | 54 | 83 | 186 | ||||||
25 | Lithuania | 162 | 28 | 23 | 63 | 70 | 17 | 30 | |||
26 | Macedonia | 56 | 73 | 71 | |||||||
27 | Malta | 1 | 31 | 41 | 120 | 32 | |||||
28 | Moldova | 22 | 109 | 69 | 27 | 97 | 81 | 71 | |||
29 | Montenegro | 37 | 44 | ||||||||
30 | Netherlands | 114 | 238 | ||||||||
31 | Norway | 36 | 182 | 387 | 35 | 7 | 191 | 88 | 102 | ||
32 | Poland | 14 | 62 | 10 | |||||||
33 | Portugal | 69 | 57 | 43 | |||||||
34 | Romania | 172 | 84 | 45 | 40 | 162 | 77 | 71 | 65 | 72 | 35 |
35 | Russia | 248 | 207 | 272 | 91 | 90 | 77 | 259 | 174 | 89 | 303 |
36 | San Marino | 14 | |||||||||
37 | Serbia | 268 | 160 | 72 | 85 | 214 | 53 | ||||
38 | Slovenia | 66 | 96 | 9 | 39 | ||||||
39 | Spain | 18 | 43 | 55 | 23 | 68 | 50 | 97 | 8 | 74 | 15 |
40 | Sweden | 170 | 51 | 47 | 33 | 185 | 372 | 62 | 218 | 365 | |
41 | Switzerland | 30 | 19 | 64 | |||||||
42 | Turkey | 91 | 163 | 138 | 177 | 170 | 112 | ||||
43 | Ukraine | 145 | 235 | 230 | 76 | 108 | 159 | 65 | 214 | 113 | |
44 | United Kingdom | 25 | 19 | 14 | 173 | 10 | 100 | 12 | 23 | 40 | 5 |
从上面表格中可以看到,除了每年都保送进决赛的五大国之外,只有这三个国家在过去十年中每年都有进决赛:希腊, 罗马尼亚和俄罗斯。
计算一下最基本的统计数据。
Min. | X1st.Qu. | Median | Mean | X3rd.Qu. | Max. | sd | |
---|---|---|---|---|---|---|---|
2006 | 1 | 25.75 | 56.0 | 91.83 | 149.20 | 292 | 84.78 |
2007 | 5 | 50.50 | 90.5 | 101.50 | 140.50 | 268 | 70.10 |
2008 | 14 | 47.00 | 69.0 | 99.76 | 138.00 | 272 | 73.70 |
2009 | 22 | 40.00 | 74.0 | 97.44 | 120.00 | 387 | 83.50 |
2010 | 10 | 41.00 | 72.0 | 90.48 | 141.00 | 246 | 60.45 |
2011 | 19 | 63.00 | 96.0 | 99.76 | 120.00 | 221 | 49.17 |
2012 | 7 | 46.00 | 70.5 | 93.69 | 111.50 | 372 | 82.45 |
2013 | 5 | 20.00 | 63.5 | 87.00 | 124.50 | 281 | 77.90 |
2014 | 2 | 35.50 | 63.0 | 82.54 | 88.75 | 290 | 73.20 |
2015 | 0 | 17.00 | 39.0 | 85.93 | 104.00 | 365 | 103.62 |
从中位数看, 2011 年各国得分普遍比较多, 而 2015 年则有许多国家得到很少分。 从标准差来看, 也是 2011 年各国得分比较 “整齐”, 分差不是很大。 而 2015 年各国得分就相差比较大一些。 干巴巴的数值比较无趣,用一些图表更可感。
下面是各年的 Box-and-Whisker Plot:
然后, 把各年数据的直方图和 kernel density estimation (KDE) plot 叠加在一起。为什么用 KDE 这个非参数 smoothing 方法呢? 因为我感觉 ESC 分数的分布不是很正态, 用正态分布去 fit 就会跟实际情况差得比较远一些。
图线中可以看出, 2011 年的分数分布最接近 “正态”, 也就是说, 跟平均分相差不远的分数比较多。 而 2015 年的分数分布严重右偏,密度峰值出现在低分处, 也就是说得低分的国家很多,可怜的德国奥地利…… 2010 年的图形比较奇特……
一定要用正态分布来模拟每年分数分布的 density 也不是不可以啦, 下面是十年数据正态 smoothing 的图线, 叠在一起了。大家可以随意感受一下, 各年不同的偏度和峰度……基本上还是跟 kernel density 处理出来的结果比较一致, 用在这里没有 KDE 精确而已。 每年决赛国家 30 个都不到, 样本太少了, 正态模型不是最合适……尽管这样, 2011 年 (淡黄色) 和 2015 年 (绿色 ) 各自的偏度还是很显眼。 2015 年分数集中在前几名了 (绿色图线的尾巴严重右偏)。
最后,贴一组饼图。 白色部分是每年前三名得分的总和, 蓝色部分是所有剩下国家的得分总和。
比较每年的大饼, 大家可以清楚看到, 2011 年前几名占去的分数比较少, 这样剩下的国家还有得分, 所以上面那组 density 曲线中最接近钟形正态。 而 2015 年前三名占去很多分, 剩下的大饼,每人只能分到很小块, 德国和奥地利甚至没有分到……
上面所有角度的数据 visualization 全部彰显 2011 年和 2015 年这两个极端年。我觉得用不同的形式来表现数据的意义是件很好玩的事。
上面全部图表由 R 生成,这次顺便复习 R 编程……
还想到诸如 “假如打分时, 每国给第一名第二名的不是 12 分 10 分而是 10 分 9 分, 会对历史上的比赛结果和分数分布产生怎样的影响”, 或者计算一下每年评委给分和观众给分的 correlation, 等等玩法, 今天太累了, 这比赛还要再举办的, 明年再玩吧。
No comments:
Post a Comment