對於長時間營運的Hadoop Cluster 來說,適時的壓縮是非常有幫助的,但是到底什麼情境適合使用壓縮,又該使用哪種演算法呢?參考下面這個 Yahoo 這個投影片相信是一個很好的開始:
其中下面這一頁介紹各種目前Hadoop 支援的各種Codec 以及每個Codec的特色
延伸閱讀:
[1] Making gzip splittable for Hadoop
[2] 壓縮對Hadoop 性能影響研究
[3] Intel - Fast, Low-Overhead Encryption for Apache Hadoop*
[4] Berkeley - To Compress or not to compress compute vs. IO Tradeoffs for MapReduce energy Efficiency
沒有留言:
張貼留言