2013年10月22日 星期二

Hadoop Performance Tunning Tools - startfish


大家都知道 Hadoop Cluster tuning 不是一件簡單的事情,而且為了確保每一次調教的參數真的是有幫助的,一般來說都會建議要跑過Benchmark,尤其是針對你預期會改善的部份做測試,市面上有非常多的Benchmark 專案可以讓我們來測試,例如:

  • Pi
  • TeraSort
  • TestDFSIO & Co
  • Gridmix3  (Emulating Production Workload for Apache Hadoop)
  • NNBench (It is meant as a stress-test and benchmark for namenode)
  • MRBench (A Benchmark for MapReduce Framework)
  • Hadoop Benchmark Suite (HiBench)

不過參數那麼多,就算知道調每個參數對於系統會有怎樣的影響,但是排列組合下來也是很驚人的,到底要怎麼調才是正確的呢?總不能一直瞎調吧~(不過很多時候的確是...Orz..),


最近在Survey 資料的時候無意間看到這個專案,覺得還蠻有趣的,就是Duke 大學的一個專案叫做startfish,進入專案首頁馬上就吸引我的就是他把調教組合與效能視覺化,如下圖所示:


 Source: Starfish

他主要的作法就是是收集我們Hadoop Cluster 的參數和Log ,並且加以分析,並且給出建議修改的參數值,有興趣的可以看一下他的教學影片:



Reference:

[1] Benchmarking and Stress Testing an Hadoop Cluster With TeraSort, TestDFSIO & Co.
張貼留言