接續How to login and manage instance這篇文章,能Login後再來就是要研究如何在GCP上啟動Hadoop Cluster,還記得之前參加Google Cloud Platform Workshop,看到演講者 Live Demo 利用Script 就啟動了一組Hadoop Cluster 來做實驗,讓我非常印象深刻。
回到官網參考 Hadoop on Google Cloud Platform 這篇文章 (不得不說Google 的文件都蠻詳盡的),只有下面幾點是必須要注意的:
5. 修改ghadoop_env.sh參數
######### REQUIRED ENVIRONMENT VARIABLES (no defaults) ################## # A GCS bucket used for sharing generated SSH keys and GHFS configuration. CONFIGBUCKET="bucket_for_hadoop" # The Google Cloud Platform project name which owns the GCE resources. PROJECT="howie-hadoop-cluster" ###############################################################################
Ps. 如果把ghadoop_env.sh 改成 GCE_IMAGE='centos-6' 再跑deploy會在某個地方出現錯誤,所以我再猜這個install script 是專門針對debian 寫的,目前還沒深入去造成的原因。
執行 ./ghadoop deploy 成功後,最後會顯示以下資訊
登入進去VM研究了一下,覺得Goolge 啟動的方式跟EMR差不多,安裝好的Hadoop 版本是1.2.1 ,也都是把Hadoop 安裝在客製化的目錄,Google 放在 /home/hadoop 下面,環境設定跟一般我們熟悉的位置都不太一樣,所以如果只是要快速啟動一組Hadoop 來做Map Reduce 運算可能還堪用,但是如果是要長期維運使用的話可能就不太方便,更何況如果還要安裝其他Eco system的話更是麻煩,所以想想還是研究如何在GCP 安裝Kerberos 和 Ambari 比較有用....有空再來研究修改google 所提供的script。
More Reference:
沒有留言:
張貼留言