一、海量資料新世界
1.海量資料的 3i 新世界:
(1)感知化:指資料來源的變化。
(2)物聯化:指資料傳送方式的變化。
(3)智能化:指資料使用方式的變化。
二、不只是大而已
1.巨量性(Volume):存放中的資料(Data at Rest)數TB~EB之已存在、待處理的資料。
2.即時性(Velocity):流動中的資料(Data in Motion)串流資料,反應時間僅有短短幾秒~百萬分之一秒。
3.多樣性(Variety):種類繁雜的資料(Data in Many Forms)結構、非結構、純文字、多媒體資料等。
4.不確定性(Veracity):不確定的資料(Data in Doubt)因資料不完整、不一致、時間差、意義不明、蓄意欺騙而導致之不確定性。
三、破壞式的全新競爭力
1.過去進行資料分析時,IT人員是以程式為核心,把散落在外面的資料,放到儲存系統的結構裡,然後拿進記憶體,交由電腦程式運算,所以資料得經由提取、處理、分析,最後等上一段時間才能得到結果。
而海量分析的概念則是以資料當作核心,外面放了許多的程式和硬體,依據不同的需要對應不同的處理程式,產出個人化、以毫秒為單位,並可隨著時間推移的即時分析結果。
四、零售:更好、更快、更便宜
1.內容分析軟體的基礎架構:
(1)層面分析(Facet analysis):列出包括經過頻率、相關性和名稱等條件挑選的關鍵字。
(2)時間序列分析(Time-series analysis):獲取特定資料在指定時間內發生率的變化。
(3)趨勢分析(Trend analysis):自動偵測關鍵字在一個時間序列內頻率的顯著增加或減少。
(4)偏差分析(Deviation analysis):比較和自動檢測關鍵字在同一層面、同一時間範圍內,頻率的顯著增加或減少。
(5)雙層分析(Facet pair analysis):自動偵測兩個任意的層面關鍵字之間的關聯性。
(6)連接分析(Connection analysis):將同一網路上、兩個不同層面的關聯性視覺化。
(7)企業儀錶板(Dashboard):顯示多個分析圖表在同一個螢幕上。
五、海量分析的技術要件
1.海量分析平台六要件:
(1)資料倉儲技術(處理Volume:「大」)
(2)Hadoop(處理Variety:「雜」)
(3)江河運算(處理Velocity:「快」)
(4)資料治理(處理Veracity:「疑」)
(5)文本分析
(6)視覺化和搜尋介面
沒有留言:
張貼留言