我们分别采用了线性模型和非线性的神经网络模型,得到以下结果,表中深蓝色部分代表当年的MVP,浅蓝色代表MVP得票前五,旁边的是预测的MVP评分。要注意因为模型不可能完美符合现实的情况,所以我们一般不会直接按照上面的规则来把分数换算成得票率,而是通过相对的排序来分析得到的结果。
我们可以看出,神经网络的预测结果要明显好于线性模型的预测结果,且神经网络的预测结果和现实的贴近程度很高,除了2011年的MVP在模型看来应当是詹姆斯以外(这一年的评选可能是过去十年争议最大的),其他全部命中,前五的预测也大体正确。
我们对比预测结果的具体排名和现实投票的结果还能进一步进行分析,来评估我们模型所存在的缺陷,例如:
1.我们还不能处理当两名高产出球星在同一支球队时,对他们的MVP得票产生的影响,也就是所谓的“分票”现象。比如2017年的库里和杜兰特,在预测结果中得票率高于现实。事实上,这也是一个几乎难以真正解决的问题,因为在过去,几乎很难看到同一支球队有两名MVP级的球员正处于运动生涯的巅峰时期,因此我们很难用过去的数据来训练模型懂得如何面对如今这种情况。
2.我们选用的数据对防守的描述较少,尽管MVP投票中防守端的表现几乎会被忽略,过去几年的MVP像哈登,威少也从来不是优秀的防守球员。但在个别年份,会有一些球员的防守作用在舆论中被特别强调,从而影响投票结果。比如,2014年的诺阿,2016年的伦纳德都因此在现实中获得了比预测结果更多的投票。
3.我们无法处理“故事性”所带来的影响(包括球场外的影响),比如2011年,两连MVP后的詹姆斯因为决定1.0而在记者投票中受到了负面影响,前面第一点中的两名MVP竞争者同处于一队时会严重影响得票的现象也是基于这方面的原因,比起那些孤胆英雄,记者们往往不太愿意认可队友非常优秀的球员所达到的赛场成就。
不过,我们的模型也会与时俱进,在之后不断训练修正,尽可能的接近真实结果。
撰文&图表:篮圈即是原点