資料會說話:背景知識是資料迷霧中的指南針(3/5 Revised)

前一篇「邏輯思考的練習系列」的文章中,我在最後一段曾經提到這一段話:

「......只要我們擁有和資料相關的知識背景、保持敏銳謹慎的態度,
就相對於其他自以為是的人,更容易發現資料背後的真理......」

在文章中我想強調的道理,是:

「資料(Data)進一步處理,才能變成有用的資訊(Information)。」

下面這張圖是今天(3/5)旁聽 Data Mining 課程時,老師 ppt 上的一張圖片,
這是 Fayyad 在 1996 年提出的資料處理流程,從這張圖我們可以很清楚地看到,
資料(Data)如何經過一連串的轉換過程,最終變成有用的知識(Knowledge):

不過今天我 Review 之前寫的文章時,上面藍色那句話,帶給我不同的思考。
我所思考的是:對,資料經過轉換可以變成知識,但往往這個轉換過程比講的還要難,
因為很多時候我們不知道「可以用什麼方式處理?」,甚至「需不需要處理」也不甚清楚。


其結果是:不知所措(例如上次書店排行榜的例子),或是往錯誤的方向解讀,
而在很多急迫的情況下,「不知所措」會被「錯誤解讀」取代,
輕則作業被扣分,重則誤導了投資人的財務決策,錯失良機或是付出損失代價。

下面這張圖,是我上學期和 MBA 朋友軒愷&妍伶一起選修計量經濟學時,
在學期最後一次作業中的統計結果報表。我們這次作業想要關心的主題,
是研究「企業破產機率 v. 企業財務比率」的關聯性,簡單的來說,
就是看看下圖左邊這幾個變數,是否能&哪些能有效預測企業的破產機率。


有統計學習經驗的人,可以直接從「參數估計值」「Pr > |t|」等幾個統計指標中,
獲取一些訊息,例如我們從上表中可以直接知道,當 ROA & CFAT 越高,
破產機率越能顯著降低; DR & Sigma 越高,則企業越可能破產。
然後你就想辦法跟老闆說:我會應該試著提高 ROA&CFAT,降低 DR&Sigma......,
噢,但這個答案只會掉入套套邏輯(Tautology)的陷阱,沒有任何價值。

有些統計人員根本就不知道 ROA, CFAT, DR, Sigma 這幾個變數的意義,
他們只知道怎麼去解讀報表、看檢定統計量,卻不知道這些變數背後的財務意義;
而純粹就統計的結果去解釋、缺乏對於這些變數背後財報意義的敏銳理解,
很容易忽視「對變數&統計結果抱持懷疑」的建設性研究態度,
如果是好的統計解讀人員,會在大腦作出結論前,根據財務理論整理以下表格:


若能先正確地對這些變數提出財務上的解釋,
就能清楚了解:如果要解決破產機率的問題,
絕對不是「提高 ROA&CFAT,降低 DR&Sigma」這麼單純而已,
因為這幾個變數之間可能互有關聯性(如 CR & DR)、
有些變數則不是公司自己能直接控制的(如 Sigma 和 ExcessRet),
理解這些變數的理論本質,可以幫助我們做出更好的判斷,而不是無知或誤入歧途。

財報狗網站的這篇「低負債比不代表公司財務穩健」文章非常推薦大家閱讀,
因為這同樣是一個不了解會計理論、進而錯誤解讀財報數字的好例子,
這可就不只是作業被扣分的問題了,而是錯失投資大好機會 or 挑錯股票的嚴重問題。

我一直深信「統計數字本身不會說話,是決策者的認知在為數字說話」
假如決策者對於變數背後的理論缺乏足夠的認知,那這種錯誤的認知,
必然會導致錯誤的決策、偏差的預測結果。擁有好的理論基礎,
並不代表能做出完美的預測,但可以在面對統計結果時不至於犯下愚蠢的錯誤。