世界杯要来了,AI预测冠军哪家强?
AI与大数据预测2018世界杯:德国还是巴西?
多家机构运用机器学习、统计模型预测冠军,结果却大相径庭
编译 | Debra 编辑 | Natalie
自2002年以来,世界杯冠军在巴西、意大利、西班牙和德国之间轮换,形成了一定周期规律。随着2018年世界杯临近,数据科学家、投行及AI研究机构纷纷借助机器学习与大数据技术进行赛事预测,试图超越“章鱼保罗”式的偶然猜测,提升预测准确性[k]。
目前预测焦点集中于德国与巴西两支强队谁将最终夺冠[k]。
俄罗斯彼尔姆国立研究大学一名大四学生利用神经网络模型预测,德国队将赢得2018年世界杯冠军,前三名分别为德国、巴西和阿根廷,其模型宣称准确率超过80%[k]。
瑞银集团通过计量经济学方法,对世界杯历史数据、球队实力及过往表现等因素建模,并完成10000次计算机模拟。其2018年5月17日发布的报告指出,德国夺冠概率最高,为24%,巴西以19.8%位居第二,西班牙16.1%,英格兰8.5%排名第四。法国、比利时和阿根廷被视为潜在黑马[k]。
值得注意的是,尽管数据分析显示英国队排名靠后,瑞银全球财富管理首席投资官Mark Haefele仍对英格兰队抱有信心。类似情况曾出现在2014年,因团队中有英国球迷坚持主观判断,导致预测结果偏差[k]。
与此相反,肯尼亚Genghis Capital分析师Gerald Muriuki在Medium平台发布基于机器学习的预测结果,认为巴西将最终夺冠[k]。
Muriuki采用逻辑回归方法,结合Kaggle平台两个历史数据集(涵盖1930年以来国际赛事结果),使用jupyter notebook、pandas、scikit-learn等工具构建预测模型[k]。
经过数据加载、特征工程、参赛队伍筛选及模型训练等流程,该模型输出了小组赛、16强、四分之一决赛、半决赛直至决赛的完整预测路径[k]。
小组赛预测结果
16强预测结果
四分之一决赛预测
半决赛预测
决赛预测:巴西将战胜德国夺冠
Muriuki表示该模型仍有优化空间,例如通过球员个体数据提升模型精度,或引入混淆矩阵评估预测性能,也可尝试集成多个模型以提高稳定性[k]。
另有分析者借鉴FiveThirtyEight预测2014年世界杯的方法,综合FIFA排名、Elo评分、TransferMarkt球队估值及博彩赔率等四项指标,通过统计学方法得出与Muriuki相反的结论:德国将击败巴西夺冠[k]。
FIFA世界排名基于国际正式比赛成绩,覆盖211支国家队,虽非完美但具参考价值[k]。
Elo评分源自国际象棋体系,考虑比赛类型与分差,包含友谊赛数据,具备动态调整特性[k]。
TransferMarkt提供的球队总估值约为106.4亿欧元,反映球员市场价值[k]。
博彩赔率取自OddsChecker平台最大值,体现市场预期[k]。
四项指标综合分析结果
KDnuggets统计预测结果
该统计模型预测最终排名为:德国第一、巴西第二、西班牙第三[k]。
英国《电讯报》调查显示,多数公众看好德国队夺冠[k]。
Sporting Life未直接预测冠军,但推断英格兰将在四分之一决赛被淘汰[k]。
尽管各类预测模型日益复杂,其准确性仍受质疑。回顾2014年世界杯,高盛采用Elo动态系统与泊松模型进行回归分析,预测巴西夺冠,但实际八强中预测错误三支队伍(哥斯达黎加、比利时、哥伦比亚),四强错判西班牙,小组赛胜负准确率仅37.5%[k]。
彭博社模拟1万次比赛,预测西班牙将点球击败阿根廷进入决赛并负于巴西,但西班牙小组赛即遭淘汰[k]。
德银模型结合FIFA排名、历史战绩、球员构成与赔率,却引入“历史夺冠轮回”理论,得出英格兰夺冠的错误结论[k]。
相比之下,百度当年的预测表现突出。其团队整合五年内3.7万场全球赛事、乐彩网与Spdex博彩数据,构建包含1.12亿条记录、199972名球员的模型,坚持预测德国胜出。最终德国击败阿根廷夺冠,巴西则在半决赛惨败[k]。
综上所述,尽管2018年各类预测方法多借鉴过往经验,但足球赛事受球员状态、伤病、场地、天气等多种不可控因素影响,任何模型均难以完全准确[k]。
世界杯的魅力正在于其不可预知性,正是这种悬念令球迷为之着迷[k]。
参考链接:
https://www.kdnuggets.com/2018/06/football-world-cup-predictions.html
https://medium.com/@itsmuriuki/predicting-fifa-world-cup-2018-using-machine-learning-dc07ad8dd576
AI前线 紧跟前沿的AI技术社群