MapR 初體驗

2013年5月22日星期三

MapR 初體驗

MapR 在此之前對我來說就只是另一個Hadoop Distribution，直到前幾天 MapR 的原廠來介紹MapR才讓我對他才有更進一步的了解，MapR 說實在是批著大象皮的另一種生物，因為骨子裡幾乎完全不一樣了，此外MapR還特別介紹了他們的客戶，光是搬出Google和Amzaon這兩個客戶就夠具代表性了，那到底MapR到底有啥特色讓這兩個雲端大廠都會是他的客戶呢？可以由他號稱的三個特色切入了解，分別為： EASY、DEPENDABLE、FAST

FAST

使用C/C++重寫 Hadoop / HDFS (M5) / Hbase (M7)的Kernel，雖然對外的API 跟一般的Hadoop 一模一樣，但是內部的架構幾乎都不一樣，因此可以達到：

Higher MapReduce and HBase throughput (2X – 5X)
Optimized shuffle
Higher random I/O (5X to 100X)
Lockless architecture scales linearly with number of cores and nodes

DEPENDABLE

也因為內部架構都重寫過了，所以可以達到：

File System High Availability
MapReduce High Availability (沒有Name node 所以沒有name node HA問題)

改用 Container Location Database (CLDB) 取代

Data Protection (提供User level Snapshot 功能)
Disaster Recovery (提供Cluster to Cluster mirror 的功能)

EASY

提供NFS Interface - Mount Hadoop with Direct Access NFS (當然也是重寫過)

對於客戶來說HDFS跟一般傳統檔案系統無異，只要掛載起來就可以直接使用

提供ODBC Driver For Hive Query

Design, Scale and Performance of MapR's Distribution for Hadoop from mcsrivas

我也有直接問MapR都改寫那麼多也沒Open Source 出來不就是Close source？他們也承認的確是這樣，不過對於Hadoop的EcoSystem他們還是有貢獻，尤其是Apache Drill就是由他們主導，他們覺得對於客戶來說，與其使用Open Source 的Hadoop 遭遇一堆困難和痛苦，客戶還是會願意花錢買他們的東西(No Open Source)和服務，重點是API 是通用的，所以不會有Vender Locking的問題。

我隱約的覺得，以後市場區隔就是高端客戶使用MapR，至於一般中小企業可能還是會選擇Cloudera和Horntornwork的solution，是不是這樣？就讓我們繼續看下去~

有興趣的可以再進一步看下面文章的介紹，有機會可以灌起來玩玩看是不是真的那麼神~:P

延伸閱讀：

[1] Hadoop in the Cloud with Amazon, Google and MapR
[2] MapR淺析
[3] MapR架構初探