MapR 在此之前對我來說就只是另一個Hadoop Distribution,直到前幾天 MapR 的原廠來介紹MapR才讓我對他才有更進一步的了解,MapR 說實在是批著大象皮的另一種生物,因為骨子裡幾乎完全不一樣了,此外MapR還特別介紹了他們的客戶,光是搬出Google和Amzaon這兩個客戶就夠具代表性了,那到底MapR到底有啥特色讓這兩個雲端大廠都會是他的客戶呢?可以由他號稱的三個特色切入了解,分別為: EASY、DEPENDABLE、FAST
FAST
使用C/C++重寫 Hadoop / HDFS (M5) / Hbase (M7)的Kernel,雖然對外的API 跟一般的Hadoop 一模一樣,但是內部的架構幾乎都不一樣,因此可以達到:
- Higher MapReduce and HBase throughput (2X – 5X)
- Optimized shuffle
- Higher random I/O (5X to 100X)
- Lockless architecture scales linearly with number of cores and nodes
DEPENDABLE
也因為內部架構都重寫過了,所以可以達到:
- File System High Availability
- MapReduce High Availability (沒有Name node 所以沒有name node HA問題)
- Data Protection (提供User level Snapshot 功能)
- Disaster Recovery (提供Cluster to Cluster mirror 的功能)
- 提供NFS Interface - Mount Hadoop with Direct Access NFS (當然也是重寫過)
- 對於客戶來說HDFS跟一般傳統檔案系統無異,只要掛載起來就可以直接使用
- 提供ODBC Driver For Hive Query
我也有直接問MapR都改寫那麼多也沒Open Source 出來不就是Close source?他們也承認的確是這樣,不過對於Hadoop的EcoSystem他們還是有貢獻,尤其是Apache Drill就是由他們主導,他們覺得對於客戶來說,與其使用Open Source 的Hadoop 遭遇一堆困難和痛苦,客戶還是會願意花錢買他們的東西(No Open Source)和服務,重點是API 是通用的,所以不會有Vender Locking的問題。
我隱約的覺得,以後市場區隔就是高端客戶使用MapR,至於一般中小企業可能還是會選擇Cloudera和Horntornwork的solution,是不是這樣?就讓我們繼續看下去~
有興趣的可以再進一步看下面文章的介紹,有機會可以灌起來玩玩看是不是真的那麼神~:P
延伸閱讀:
[1] Hadoop in the Cloud with Amazon, Google and MapR
[2] MapR淺析
[3] MapR架構初探
沒有留言:
張貼留言