2015-06-23

Statistic 101 à la Eurovision Song Contest

本文试图用几个十分简单的统计模型揭示一些近十年来欧洲歌唱大赛 (Eurovision Song Contest, 缩写 ESC) 中的现象。至于说透过现象看本质,由于这个比赛牵涉到的维度实在是非常多,比如音乐形态, 歌手表现甚至生平, 地缘政治,大众流行心理, 等等等等, 不是一篇小文可以分析得完。听说德国有个教授专门研究这个比赛,带这个研究方向的博士生。

ESC 比赛规则变动十分频繁,我还没有很好的主意怎样对基于不同比赛规则的数据进行 normalize 的处理。 所以其实下面的比较,有些的确是偏离了同一标准。 大家知道就好。

首先,展示一下这篇网志里用到的数据:

欧洲歌唱大赛 Eurovision Song Contest 2006 - 2015 决赛分数表
Country 06 07 08 09 10 11 12 13 14 15
1 Albania 55 48 62 146 34
2 Armenia 129 138 199 92 141 41 174 34
3 Australia 196
4 Austria 64 290 0
5 Azerbaijan 132 207 145 221 150 234 33 49
6 Belarus 145 18 48 43
7 Belgium 143 71 217
8 Bosnia and Herzegovina 229 106 110 106 51 125 55
9 Bulgaria 157
10 Croatia 56 44 45
11 Cyprus 27 65 11
12 Denmark 26 60 74 149 134 21 281 74
13 Estonia 129 44 120 19 106
14 Finland 292 53 35 22 57 13 72
15 France 5 19 47 107 82 82 21 14 2 4
16 Georgia 97 83 136 110 50 51
17 Germany 36 49 14 35 246 107 110 18 39 0
18 Greece 128 139 218 120 140 120 64 152 35 23
19 Hungary 128 53 19 84 143 19
20 Iceland 64 218 41 61 46 47 58
21 Ireland 93 5 25 119 46 5
22 Israel 4 124 53 71 97
23 Italy 189 101 126 33 292
24 Latvia 30 54 83 186
25 Lithuania 162 28 23 63 70 17 30
26 Macedonia 56 73 71
27 Malta 1 31 41 120 32
28 Moldova 22 109 69 27 97 81 71
29 Montenegro 37 44
30 Netherlands 114 238
31 Norway 36 182 387 35 7 191 88 102
32 Poland 14 62 10
33 Portugal 69 57 43
34 Romania 172 84 45 40 162 77 71 65 72 35
35 Russia 248 207 272 91 90 77 259 174 89 303
36 San Marino 14
37 Serbia 268 160 72 85 214 53
38 Slovenia 66 96 9 39
39 Spain 18 43 55 23 68 50 97 8 74 15
40 Sweden 170 51 47 33 185 372 62 218 365
41 Switzerland 30 19 64
42 Turkey 91 163 138 177 170 112
43 Ukraine 145 235 230 76 108 159 65 214 113
44 United Kingdom 25 19 14 173 10 100 12 23 40 5


从上面表格中可以看到,除了每年都保送进决赛的五大国之外,只有这三个国家在过去十年中每年都有进决赛:希腊, 罗马尼亚和俄罗斯。

计算一下最基本的统计数据。

ESC 2006 - 2015 基本统计数据
Min. X1st.Qu. Median Mean X3rd.Qu. Max. sd
2006 1 25.75 56.0 91.83 149.20 292 84.78
2007 5 50.50 90.5 101.50 140.50 268 70.10
2008 14 47.00 69.0 99.76 138.00 272 73.70
2009 22 40.00 74.0 97.44 120.00 387 83.50
2010 10 41.00 72.0 90.48 141.00 246 60.45
2011 19 63.00 96.0 99.76 120.00 221 49.17
2012 7 46.00 70.5 93.69 111.50 372 82.45
2013 5 20.00 63.5 87.00 124.50 281 77.90
2014 2 35.50 63.0 82.54 88.75 290 73.20
2015 0 17.00 39.0 85.93 104.00 365 103.62


从中位数看, 2011 年各国得分普遍比较多, 而 2015 年则有许多国家得到很少分。 从标准差来看, 也是 2011 年各国得分比较 “整齐”, 分差不是很大。 而 2015 年各国得分就相差比较大一些。 干巴巴的数值比较无趣,用一些图表更可感。


下面是各年的 Box-and-Whisker Plot:
 上面这个图表的解读方法见这里。图中可以看到,几乎所有年份里都是上部的胡须比较长。 上部胡须是除去异常高的得分值之外的最高分到 25 百分位得分之间的距离。 上部胡须长说明,每年的得分比较集中在排在前几位的歌曲上,也就是说,大家倾向于把分数投给少数几首相同的歌。当然前几名 10 分, 12 分的分值更加放大了这种倾向,但是总体来说,欧洲人民的音乐品味还是比较相近。

然后, 把各年数据的直方图和 kernel density estimation (KDE) plot 叠加在一起。为什么用 KDE 这个非参数 smoothing 方法呢? 因为我感觉 ESC 分数的分布不是很正态, 用正态分布去 fit 就会跟实际情况差得比较远一些。


图线中可以看出, 2011 年的分数分布最接近 “正态”, 也就是说, 跟平均分相差不远的分数比较多。 而 2015 年的分数分布严重右偏,密度峰值出现在低分处, 也就是说得低分的国家很多,可怜的德国奥地利…… 2010 年的图形比较奇特……

一定要用正态分布来模拟每年分数分布的 density 也不是不可以啦, 下面是十年数据正态 smoothing 的图线, 叠在一起了。大家可以随意感受一下, 各年不同的偏度和峰度……基本上还是跟 kernel density 处理出来的结果比较一致, 用在这里没有 KDE 精确而已。 每年决赛国家 30 个都不到, 样本太少了, 正态模型不是最合适……尽管这样, 2011 年 (淡黄色) 和 2015 年 (绿色 )  各自的偏度还是很显眼。 2015 年分数集中在前几名了 (绿色图线的尾巴严重右偏)。

最后,贴一组饼图。 白色部分是每年前三名得分的总和, 蓝色部分是所有剩下国家的得分总和。
比较每年的大饼, 大家可以清楚看到, 2011 年前几名占去的分数比较少, 这样剩下的国家还有得分, 所以上面那组 density 曲线中最接近钟形正态。 而 2015 年前三名占去很多分, 剩下的大饼,每人只能分到很小块, 德国和奥地利甚至没有分到……

上面所有角度的数据 visualization 全部彰显 2011 年和 2015 年这两个极端年。我觉得用不同的形式来表现数据的意义是件很好玩的事。

上面全部图表由 R 生成,这次顺便复习 R 编程……

还想到诸如 “假如打分时, 每国给第一名第二名的不是 12 分 10 分而是 10 分 9 分, 会对历史上的比赛结果和分数分布产生怎样的影响”, 或者计算一下每年评委给分和观众给分的 correlation, 等等玩法, 今天太累了, 这比赛还要再举办的, 明年再玩吧。



No comments:

Post a Comment