2017年6月8日星期四

民調準確度 年輕人定勝負

英國今天舉行國會大選,這一屆選舉出現一個奇怪現象:各大民調之間的預測,差異很大。上面是我根據維基百科收集的幾個主要民調機構/政治學者所預測的保守黨議席數目(可點擊放大),最高及最低者相差近70席,其中最有名的是YouGov一反主要民調預測/政治觀察家,預計保守黨議席數目較目前330席減少,而且不會過半(少於326席,圖中深黑線)。



如果計算保守黨全國得票率領先工黨的預測數字,分別也很大,由1%至12%不等:
Survation 1
SurveyMonkey 4
Opinium 7
ComRes 10
ICM 12

整體而言,大家都認為,保守黨領先的優勢較4月中公佈大選提前時明顯收窄了,但收窄後,保守黨與工黨之間的差距有多窄,就是分歧所在。

在下面未節譯Politico有關這個分歧理由的文章前,想先貼下面這個來自fivethirtyeight.com的圖片(可點擊放大),是民調預測與兩大黨最終全國得票率之間的差距:

大家平常會聽到,民調會表示自己大概有+/—X%的誤差。一般誤差應為3%至4%,如果以4%為標準,二戰後19次大選中,有接近一半(9次)是估錯;若把這個標準放寬至5%,都還有7次錯誤,包括一些大家不為意原來「錯了」的大選,例如1983年明顯錯了,1997年其實也有很大差距,但大家不會發覺是「錯了」,是因為大方向沒有錯,勝者即使得票率優勢少了,但議席數目仍遠較過半多很多。

Politico在數天前有一篇文章Why the pollsters can’t agree on UK election,解釋了為何本屆大選的各個民調之間有這麼大的差距。簡單來說,就是大家對年輕人投票率的假設。

先撇除在英國的制度下,要把全國支持度預測變成議席數目預測的困難,單是全國得票率的預測,已經可以因假設不同了而有分別。上述文章指出,對工黨表現預測較佳的,例如YouGov和Survation,一般是較依賴受訪者表示自己會否投票來把結果調整的,相反,ComRes和ICM這類,較根據受訪者年齡、財富等背景來調整結果的,對保守黨的預測會較佳。

當中,最主要的分別,就在於年輕人的投票率。Politico文章提及,2015年國會大選,18—24歲投票率為43%,遠低迟65歲以上的78%;到2016年脫歐公投,兩者投票率分別為64%及90%。各大民調機構就要估計,究竟今次大選,年輕人投票率會跟歷史平均值、或近數屆情況相若,還是會突然大增?如果你的假設是前者,你把原始數據調整後,就會得出保守黨大勝的結果;否則,你會得出保守黨只能險勝的結論。

有人認為,今年年輕人踴躍登記做選民,而且受了去年他們之間較多人支持留歐、但因為年長人士較支持脫歐而令英國脫歐的教訓,年輕人這次會踴躍投票。Politico文章所引述的專家則多持相反意見,指出2010年及2015年大選,自民黨黨魁及工黨黨魁都各自很吸引年輕人,但最終都只是「網上」風潮,他們的魁力未能帶到投票站的現實世界。

Politico沒提及,但我在另一處看到(已經忘了文章來源)的是,過去兩次全國投票都失準後,民調機構已著手大規模調整選舉民調方法,但原本是預計2020年才會使用,而現在卻突然提前,因此他們來不及準備,不能再深入討論便要把初步調整好的方法使用,導致這些民調各自因應過去兩年失誤而作出很不同的調整。

Politico文章還提及YouGov那個保守黨議席不過半的民調。嚴格來說,那個不是傳統上的民調,而是projection,他們使用了所調multi-level regression and post-stratification的模式,簡單來說,就是訪問了一堆選民,然後根據他們的背景,來跟全部650個選區的選民人口特質,逐個配對,計算各議席的結果,然後得出整體議席預測。

1 則留言:

  1. 昨天是中国2017高考第一天,语文已经考完。上海卷的作文题目是: “预测,是指预先推测。生活充满变数,有的人乐于接受对生活的预测,有的人则不以为然。请写一篇文章谈谈你的思考。” 网主这篇文拿到昨天的上海高考语文试场去应试,应该可以交差的。XD

    本桑以为,此题特别适合写成一篇有关机器学习的科普文章,讲讲各种prediction 和 extrapolation 算法的特性,及其不同的适用场景。这个文章我很想写一下的。

    回覆刪除