[筆記]Create Hadoop Cluster on Google Cloud Platform

2014年2月7日星期五

[筆記]Create Hadoop Cluster on Google Cloud Platform

接續How to login and manage instance這篇文章，能Login後再來就是要研究如何在GCP上啟動Hadoop Cluster，還記得之前參加Google Cloud Platform Workshop，看到演講者 Live Demo 利用Script 就啟動了一組Hadoop Cluster 來做實驗，讓我非常印象深刻。

回到官網參考 Hadoop on Google Cloud Platform 這篇文章 (不得不說Google 的文件都蠻詳盡的)，只有下面幾點是必須要注意的：

5. 修改ghadoop_env.sh參數

######### REQUIRED ENVIRONMENT VARIABLES (no defaults) ##################

  # A GCS bucket used for sharing generated SSH keys and GHFS configuration.
  CONFIGBUCKET="bucket_for_hadoop"

  # The Google Cloud Platform project name which owns the GCE resources.
  PROJECT="howie-hadoop-cluster"

###############################################################################

Ps. 如果把ghadoop_env.sh 改成 GCE_IMAGE='centos-6' 再跑deploy會在某個地方出現錯誤，所以我再猜這個install script 是專門針對debian 寫的，目前還沒深入去造成的原因。

執行 ./ghadoop deploy 成功後，最後會顯示以下資訊

登入進去VM研究了一下，覺得Goolge 啟動的方式跟EMR差不多，安裝好的Hadoop 版本是1.2.1 ，也都是把Hadoop 安裝在客製化的目錄，Google 放在 /home/hadoop 下面，環境設定跟一般我們熟悉的位置都不太一樣，所以如果只是要快速啟動一組Hadoop 來做Map Reduce 運算可能還堪用，但是如果是要長期維運使用的話可能就不太方便，更何況如果還要安裝其他Eco system的話更是麻煩，所以想想還是研究如何在GCP 安裝Kerberos 和 Ambari 比較有用....有空再來研究修改google 所提供的script。

More Reference: