熱騰騰的 Spark+AI Summit 2019 的影片陸續出爐了,讓我們先來看看 Keynote 的重點內容 - Reynold Xin (Databricks), Brooke Wenig (Databricks)
第一個重點就是針對Unify Data 處理和AI Databricks 做了什麼努力,去年他們提出 Hydrogen 為了讓Spark 能更方便跟各種 ML lib 串接。
而今年的 Spark 3.0 放了更多重點在於讓 jvm base 的底層可以支援更多向量矩陣運算和GPU支援。
再來就是因應Kubernetes 的崛起,Spark 勢必得更加密切的與Kubernetes整合。
再來就是 Spark 3.x 想要解決 Data scientist 的痛,因為 Data scientist 通常用 python + panda 在他們的個人電腦上建模型和測試,但是一旦要scale 就得重寫code porting 到 spark,此外雖然看起來都是dataframe 但是實際上理念卻是差很多,所以stackoverflow 上常常都是這些型態轉換的問題。
於是Databricks推出 Koalas: Panda DataFrame API on Spark,最神奇的就是只要把panda的任function 換個名稱koalas 就無痛轉移了....XD
相信Data scientist 和 Data engineer 一定很期待,也可以少很多工~