資料會說話:不好讀,但能啟發你去思考的《精準預測》



做個預測:你看這本書肯定會有點吃力,但閱畢會收獲許多。


很久以前就買了《精準預測》這本書,但是第一次看的時候僅僅是略讀,
這幾天總算把它認認真真的看了一遍,才發現這並不是一本非常好讀的好書:

它是一本好書,好的地方在於作者用簡單的方式,解釋「預測」這門學問,
它是一本難讀的書,在於當你有越多的統計以及和產業相關的知識,
會花更多的時間去仔細檢視作者的論述,和自己原先的認知有沒有落差。


作者 Nate Silver 自己畢業於芝加哥大學、因為統計專長的關係,
曾在 KPMG 擔任顧問,也在過去顧問工作的閒暇時間,
開發出一套創新的棒球賽事預測軟體 PECOTA
並且之後將這套軟體賣給了棒球界知名的 Baseball Prospectus;
根據書中的內容,他也曾經用同樣的專長,打了一陣子不賴的德州撲克,
而目前他則是透過 FiveThirtyEight Blog 專門在做美國選舉的預測,
作為網站經營者、記者、評論員的身份,掛在 ESPN 下工作。

《精準預測》這本書的核心,如同其英文書名《The Signal and the Noise》
談的是預測,以及預測過程中的訊號(Signal)雜訊(Noise)
作者列舉出許多的個案,從和他生涯發展相關的棒球預測、德州撲克,
到人文社會科學的美國政治選舉、金融危機,以及自然科學的颶風、地震等等,
蒐集了非常大量的統計資料,以及專訪過相關的專家以及部門,目的是要告訴讀者:

即使有更好的科技與資訊,人們在預測上還是有一定的盲點存在:
我們容易在預測中過度自信,傾向閃避不確定性,且不願意依據訊息而更新預測,
這些都會造成我們在預測上,容易將誤將「雜訊」視為「訊號」
“Garbage In, Garbage Out”,自然不會有好的預測結果,造成資源浪費甚至災難。

。預測前的質化處理,比你想像的重要


我自己讀這本書的過程中,總是想起這半年學習計量經濟學的過程,
至今回想起來,整學期的計量課所學到的不是如何去算、如何去跑 SAS,
課程中 CCLu 帶我們認識的一些計量方法,其實是指導我們怎麼去「調整預測模型」

調整計量模型的方法有很多種,
也有很多根據理論的檢定統計量來判斷模型好壞,
Durbin - Watson, Goldfrey - Quandt ......,但這些指標都是在數據跑下去之後,
可以非常輕易偵測出來的結果,許多預測上真正的問題,其實在於跑數據前的質化處理
包括「把相關當作因果」「缺乏理論常識,用錯誤的方法解釋結果」......等,
這些統計軟體、高科技的預測技術無法辨識處理的問題,往往是阻擋好預測的障礙。
對照本書與計量課的經驗,就不難理解為什麼作者會強調了解理論對預測的重要性;
別對於自己&過去統計數據有過高的自信心......等。

。Big Data 不是萬靈丹


這本書對我的另一大衝擊,
在於作者對 Big Data(海量資料、大數據)的看法。
過去這一年,我陸續透過各種方法涉獵 Big Data 的知識,
基本上都是它將怎麼改變世界,不過《精準預測》卻促使我停下腳步、
停止對於 Big Data 不切實際的想像,因為從書中我體悟到:

即使未來因為科技,我們將可能進入一個「母體=樣本; 參數=統計量」的時代,
固然我們有機會接觸更多的訊號,但同時干擾我們做預測的雜訊也會多很多
Big Data 的確正在改變世界,但可能不如我先前所想像的,人類將進入全知全能的領域,
而有了這種「人類主宰一切」的心態,過度自信地錯把所有的資訊當作是訊號,
(好比在回歸分析中,無限制的加入變項,可以使模型解釋能力提高一樣...)
像是「衛生紙用量與恐怖攻擊次數」、「迴紋針與肥胖」這種看似荒誕詭異的預測,
這些才是在 Big Data 時代中,我們最應該提防、小心謹慎的一個點。

。學會用機率來思考


而如何才能有效地避免上面這些把雜訊當訊號的問題?
我認為作者大致上覺得「慢下來,用邏輯思考」是比較好的思考習慣,
他在書中的做法是教導讀者「用機率來思考」,介紹了機率論上的貝式定理。
以前學統計學的時候,只把它當作是考試愛考的題目,但真的嘗試用機率來思考一件事,
才發現自己日常生活中所犯的一些錯誤,假如用這種方式想一遍,的確是可以有效避免的。
Pan-Sci 泛科學網站,有節錄本書關於貝式定理的內容,大家可以點進去看看想想。

總結而言,這本書讓我學到最多的,不是在預測技術上的提升,而是一種觀念的轉變。
我們每天都要做大大小小的預測,也在演化過程&生活經驗中得到許多預測模式,
更因為擁有智慧,以科技的力量幫助我們處理更多更複雜的資訊。
但在當前政治經濟環境如此變化快速的年代,其實我們並沒有自己想像般的聰明、
即便有工具、有知識,但卻不一定有更好的方法去做更好的預測。

所以,在做預測、決策的第一步,
其實是先逼迫自己客觀、冷靜的觀察事件的脈絡
即使統計數據跑出來了、有所謂的專家背書了,
也要記住「數據不會說話,是人在為他說話」這個基礎。
而這個好習慣,遠比開發出加速我們接收雜訊的科技,還要來得更加重要。

。推薦給對預測有興趣的朋友


其實,對這本書有一點「相見恨晚」的感覺,假如說早一點能理解這本書的內涵,
我的計量課應該會更有收獲吧?不過從另一個角度來看,若沒有先經過一些複雜統計、
計量經濟學的理論洗禮,看這本書恐怕也無法如現在有一種「醍醐灌頂」的感覺。
當你從學習過程中“Try and Error”地摸索出一條路,在適當的時機點被點醒,
似乎也如同「人類的預測歷史」中,逐漸撥去雜訊、看到訊號,做出好預測。

總之,非常推薦對 Big Data、統計預測、資訊處理,
以及商業、自然科學等領域,有一點基礎了解的朋友細讀,
雖然越是有這些背景,你會看得越慢,但也會從中咀嚼出更多韻味來。