Chapter 2 和 Chapter 3 的內容主要都是在複習Lean Startup,所以不用特別記錄。
第四章的重點是LinkedIn Data Scientist 所提到創業家在處理Data 時容易遇到的十大 pitfalls (陷阱):
1. Assuming the data is clean
這邊舉的例子是用Zip Code 來分析客戶的來源,但是卻沒注意到很多客戶都是來自某個Zip Code其實是因為系統Default 預設,用這樣的資料來分析就會造成很大的錯誤...
2. Not normalizing
分析資料要用比例來分析,不能用絕對數字來分析,這邊舉例統計某個觀光景點是不是熱門結婚地區,不能單就來結婚的旅客數計算,應該要除以全部的旅客數這個數字才有意義。
3. Excluding outliers
對於異常值,有時候不能隨便排除,舉例來說,網站有某幾個人瘋狂的愛用或愛看你的網頁,這時他不是你的超級粉絲就可能是Bot,這時就應該要拉近來分析。
4. Including outliers
位於異常值,該排除的時候也必須要排除,舉例來說你要建立一般化的模型(General Model),這時就必須要把異常值排除,才有利建議Model
5. Ignoring seanality
很多現象是季節性的,也必須要排除,比如說每年畢業季Intern的職業就會異常增多,這不代表是Intern 的個職位/職業便熱門。
6. Ignoring size when reporting growth
當在統計成長率時,必須要考慮總數,舉例來說,你網站成立第二天你爸上來註冊,此時你只有兩個使用者,但是卻有100%的增長。
7. Dta Vomit (嘔吐)
就算你有很絢麗花俏的Dashboard 顯示分析資料,如果不知道該怎麼看也是沒用的,只是徒增煩惱。
(就像Google Analytic 一樣...:P)
8. Metric that cry wolf
狼來了....當你要監控某個數值,要小心不要把alert 調的太敏感,免得監控系統一直發出警訊,看久了就麻痺了...
9. The Not Collected Here syndrome (綜合徵)
不要只著眼於收集到的數據表象,有時候也要把數據組合起來分析,也會有意不到的結果,比如說你的最好的客戶的住址都來自於壽司店很集中的區域?
10. Focusing on noise
太專注於研究這些數據和虛榮指標,有時候必須要退一步看一下Big picture(這句話也太玄了吧...)
感想...Data Scientist or Product Marketing 就是要整天亂搞這些數據找出產品方向~:P
沒有留言:
張貼留言