AI預測的2018年世界杯為什么不靠譜?


AI預測的2018年世界杯為什么不靠譜?



以下是我們從人工智能未能預測2018年俄羅斯世界杯結果中學到的東西 。
2018年俄羅斯世界杯于7月15日星期日結束 , 法國成為世界冠軍 , 緊隨其后的是克羅地亞和比利時 。 就像之前的2014年世界杯一樣 , 許多研究人員都試圖提前預測俄羅斯賽場上的比賽結果 。 今年 , 國際足聯2018年世界杯也不例外 , 研究人員和科學家們試圖利用人工智能(AI)和統計數據來預測世界杯64場比賽的結果 , 可它有多可靠呢?
在這篇文章中 , 我將談及人工智能在預測2018年世界杯結果的表現 。 無論你是否是人工智能領域的專家 , 我會盡可能讓這篇文章讀起來簡單易懂 。
預測世界杯結果的方法有很多種 , 一種方法是從團隊的能力和獲勝的幾率上來成對模擬比較所有單場比賽 。 Zeileis , Leitner和Hornik(2018)使用了同樣的技術 , 他們預測巴西將以16.6%的概率贏得2018年世界杯 , 緊隨其后的是德國(15.8%)和西班牙(12.5%) 。
瑞銀集團(UBS)也預測了三支球隊的排名 , 但順序不同 。 他們預測德國(24.0%)是冠軍 , 其次是巴西(19.80%)和西班牙(16.1%) 。 該模型的產生基于四項因素:一是Elo評級系統的評分;二是球隊在世界杯前的表現;三是球隊在之前的世界杯比賽中取得的成績;四是主場優勢 。
該模型通過10000次蒙特卡羅模擬(Monte Carlo simulations)校準來確定球隊的獲勝概率和最后五場比賽的結果 。
2018年6月8日 , 多特蒙德技術大學(德國)、根特大學(比利時)和慕尼黑工業大學(德國)的四名研究人員(A. Groll et al.等)在arXiv上發布了一篇關于2018年世界杯結果預測的研究論文 。 他們使用是著名的人工智能算法:隨機森林(Random Forest)和泊松排名算法(Poisson ranking algorithm) 。 6月14日 , 在俄羅斯與沙特阿拉伯舉行的世界杯揭幕戰之前 , 這篇文章被發表在網上 。 他們使用了一個數據集 , 該數據集能夠涵蓋過去四屆世界杯(2002-2014)的所有比賽 。 他們預測西班牙將成為冠軍 , 緊隨其后的是德國和巴西 。 以上三項研究都提及了西班牙、德國和巴西三個頂級團隊 , 只是順序不同 。 他們使用了三種不同的方法、數據和數據特性 , 但預測結果幾乎是一樣的 。 現在 , 世界杯已經結束了 , 我們可以看到 , 所有這些模型都未能正確預測世界杯的結果 , 也沒有任何預測真正發生 。
在這些研究中 , A. Groll et al等人的研究方法是我在這一領域的最愛 。 首先 , 他們使用了一個好的數據源;其次 , 他們考慮了許多訓練的特點和參數 。 第三 , 他們采用了隨機森林的算法 。 在本文的其余部分中 , 我將討論其數據特性、錯誤以及在該領域失敗的原因 。
數據特性
A.Groll et al.等人考慮了與團隊本身相關的各種特征 , 例如:經濟因素(人均GDP、人口);體育因素(ODDSET概率 , 國際足聯排名);主場優勢(東道主、洲、聯盟);球隊的結構因素(每支球隊成員的最大數量、平均年齡、冠軍聯賽球員的數量);球隊的教練因素(年齡、任期、國籍) 。 總的來說 , 他們為每個隊和每屆世界杯總結了16個數據特性作為考慮因素 。
分類模型
正如我前面提到的 , 他們使用了“隨機森林(Random Forest)”的方法 , 這是人工智能和數據挖掘中眾所周知的算法之一 。 該算法以“決策樹(Decision Tree)”為基礎 , 在許多案例中 , 決策樹在數據分類中表現出較高的性能 。 他們還使用泊松模型(Poisson models) , 根據球隊當前的能力對團隊進行排名 。
預測
在完成了10萬次比賽的模擬后 , 預計西班牙將以28.9%的幾率成為冠軍 , 緊隨其后的是德國(26.3%)和巴西(21.9%) 。

推薦閱讀