今天看到hortonworks的Bloger 有一篇教學很有趣,怎麼利用HDP Sandbox 來分析Sensor 資料,我對這個影片感到有興趣的原因關於是這個情境,先不論是不是真的要面對非常多的資料量,對於可能不會寫程式或開發系統的資料分析人員來說,這已經算是一套很方便的Solution。
首先,以傳統的作法必須先寫一個Sensor Log 的收集系統,然後把資料處理(Parser& Clean)過後存到與先設計好的RDB ,這時候資料分析人員才可以開始做分析。
但 是如果有了Flume ,我們只需安裝Agent 和做簡單的設定,就可以輕鬆的把資料收集到HDFS裡面存放,然後我們也不用預先設計Schema,等到真的需要分析的時候,再透過Pig 或 Hive 動態去處理資料,產生我們所需要的資料表 (這種概念類似於RDB 的 View),一直到這裡資料分析人員幾乎都不用寫道什麼程式!
(當然我也相信許多昂貴的傳統BI工具也可以做到,但是價錢....嗯你知道的~:P)
整個影片的情境如下:
- 透過Flume收集Sensor 回傳的Log,並且存到HDFS,資料內容包含:
- Hvac
- 日期
- 時間
- 預期溫度
- 實際溫度
- 冷暖氣系統ID
- 冷暖氣系統年紀
- Building ID
- Building
- Building ID
- Building Mgr
- Building Age
- Hvac Product Model
- Country
- 透過Sqoop匯入原本存在RDB 的 HVAC Schema 和 Data,產生HCatalog View 方便之後 Hive and Pig的操作 (其實這邊就算不透過Sqoop 匯入,也是可以手動建立)
- 分析情境:
- 想要減少電費開支
- 想要控制室內溫度的恆定性
- 找出哪一個品牌的Hvac 可靠性較高
- 透過ODBC Driver 把分析好的資料匯入Excel 做視覺化呈現
有興趣的朋友也可以去下載來玩玩看~
沒有留言:
張貼留言