2012年1月30日 星期一

《深入淺出 資料分析》筆記


一. 資料分析簡介

1.定義問題 -> 分解問題 -> 評估片段 -> 產生決策

2.評估片段的關鍵在於「比較」

3.在製作最後的報告時,務必陳述你的推論與觀點,好讓客戶知道你的結論從何而來。提供給客戶的報告必須聚焦於讓客戶瞭解你的想法,並且有助於根據你的資料做出明確的決策

4.良好的資料分析全然關乎你想要從資料中得到什麼




二. 實驗

1.假如統計數字看起來很有用,你就必須將它跟其他數據做比較,以便向客戶解釋清楚

2.分析愈具有「比較性」愈好

3.如果你想要從「跟你的資料有重疊卻又不完全被包含的資料」裡得出結論,就必須產生這項連結的「理論」。而要釐清何種理論最好,你必須依據這些理論進行實驗

4.好的實驗總是有控制組(一個代表現狀的群組,沒有加諸任何新的處理措施),能讓分析師將想要測試的對象與現況做比較




三. 最佳化

1.為了解決最佳化的問題,你必須將決策變量、限制條件、以及最佳化的對象結合成一個目標函數

2.「目標」是你想要讓它最大化或最小化的事情




四. 資料視覺化

1.「隱藏在視覺化背後的資料是什麼?」是檢視新視覺化成果時必須問的第一個問題

2.建立良好資料視覺化的首要工作,就是能促使你的客戶進行嚴謹的思考並且產生良好的決策

3.好的圖表包含:
(1)清楚顯露資料
(2)進行聰明比較
(3)顯示多個變量

4.散佈圖(scatterplot)能用來進行「探索性資料分析」。x 軸描述「獨立變量」(自變量,視為原因),y 軸描述「相依變量」(因變量,視為結果)
你不必證明獨立變量的值為何會造成相依變量的值,只需要找出真正會影享結果的原因即可

5.資料視覺化所比較的變量因盡可能多些,才能產生好的比較結果

6.你可以透過安裝「R」軟體工具來建立圖表

7.在描述資料視覺化時,你必須處理、解釋其他的原因模式,讓客戶知道你有針對所提出之理論的盲點用心思考過

8.視覺化的基本原則:
(1)將比較、差異、與對比顯示出來
(2)將因果關係、機制、解釋、與系統架構顯示出來
(3)顯示多變量資料,亦即兩個以上的變量
(4)將文字、數字、圖片、與圖解做完整的結合
(5)徹底把證據說清楚



五. 假設檢定

1.檢視資料變量時,最好看清楚不同變量之間是否「正相關」(同方向發展),或者「負相關」(反方向發展)

2.在假設檢定中使用「證明為假」(falsification,只消除有問題的假設,而非挑選正確的假設),才能讓你避免落入認知陷阱




六. 主觀機率

1.標準差(standard deviation)可量度資料點距離均值有多遠




七. 回歸分析

1.在散佈圖上畫上一條通過平均數圖形的直線,即為回歸線。如果你的資料是線性相關,那麼這條直線就很有用




八. 誤差

1.使用回歸方程式預測資料範圍「外」的值被稱為「外推」(extrapolation);預測資料範圍「內」的值稱為「內插」(interpolation)。內插是好的,務必要小心外推,如果你打算這麼做,則必須「指定額外的假設」,明確地指出你忽略了資料範圍以外可能發生的狀況

2.當你在檢視其他人的模型時,總是得思考他們的假設合不合理,以及他們是否有可能忘記提到任何假設




九. 本書遺珠

1.樞紐分析表(Pivot table)適合用來進行「探索性資料分析」,以及針對從「關聯式資料庫」擷取出來的資料進行總結

沒有留言:

張貼留言