2013年10月17日 星期四

Hadoop Tutorial: Analyzing Sensor Data



今天看到hortonworks的Bloger 有一篇教學很有趣,怎麼利用HDP Sandbox 來分析Sensor 資料,我對這個影片感到有興趣的原因關於是這個情境,先不論是不是真的要面對非常多的資料量,對於可能不會寫程式或開發系統的資料分析人員來說,這已經算是一套很方便的Solution。

首先,以傳統的作法必須先寫一個Sensor Log 的收集系統,然後把資料處理(Parser& Clean)過後存到與先設計好的RDB ,這時候資料分析人員才可以開始做分析。

但 是如果有了Flume ,我們只需安裝Agent 和做簡單的設定,就可以輕鬆的把資料收集到HDFS裡面存放,然後我們也不用預先設計Schema,等到真的需要分析的時候,再透過Pig 或 Hive 動態去處理資料,產生我們所需要的資料表 (這種概念類似於RDB 的 View),一直到這裡資料分析人員幾乎都不用寫道什麼程式!

(當然我也相信許多昂貴的傳統BI工具也可以做到,但是價錢....嗯你知道的~:P)


整個影片的情境如下:

  1. 透過Flume收集Sensor 回傳的Log,並且存到HDFS,資料內容包含:
    1. Hvac
      1. 日期
      2. 時間
      3. 預期溫度
      4. 實際溫度
      5. 冷暖氣系統ID
      6. 冷暖氣系統年紀
      7. Building ID 
    2. Building
      1. Building ID
      2. Building Mgr
      3. Building Age
      4. Hvac Product Model
      5. Country
  2. 透過Sqoop匯入原本存在RDB 的 HVAC Schema 和 Data,產生HCatalog View 方便之後 Hive and Pig的操作  (其實這邊就算不透過Sqoop 匯入,也是可以手動建立)
  3. 分析情境:
    1. 想要減少電費開支
    2. 想要控制室內溫度的恆定性
    3. 找出哪一個品牌的Hvac 可靠性較高
  4. 透過ODBC Driver 把分析好的資料匯入Excel 做視覺化呈現






有興趣的朋友也可以去下載來玩玩看~




張貼留言