大家都知道 Hadoop Cluster tuning 不是一件簡單的事情,而且為了確保每一次調教的參數真的是有幫助的,一般來說都會建議要跑過Benchmark,尤其是針對你預期會改善的部份做測試,市面上有非常多的Benchmark 專案可以讓我們來測試,例如:
- Pi
- TeraSort
- TestDFSIO & Co
- Gridmix3 (Emulating Production Workload for Apache Hadoop)
- NNBench (It is meant as a stress-test and benchmark for namenode)
- MRBench (A Benchmark for MapReduce Framework)
- Hadoop Benchmark Suite (HiBench)
不過參數那麼多,就算知道調每個參數對於系統會有怎樣的影響,但是排列組合下來也是很驚人的,到底要怎麼調才是正確的呢?總不能一直瞎調吧~(不過很多時候的確是...Orz..),
最近在Survey 資料的時候無意間看到這個專案,覺得還蠻有趣的,就是Duke 大學的一個專案叫做startfish,進入專案首頁馬上就吸引我的就是他把調教組合與效能視覺化,如下圖所示:
Source: Starfish
他主要的作法就是是收集我們Hadoop Cluster 的參數和Log ,並且加以分析,並且給出建議修改的參數值,有興趣的可以看一下他的教學影片:
Reference:
[1] Benchmarking and Stress Testing an Hadoop Cluster With TeraSort, TestDFSIO & Co.
沒有留言 :
張貼留言