大數據的小故事
- 主講人:車品覺 / 阿里巴巴集團副總裁 (香港人)
- 實驗
- 利用LinkedIn 來撈取資料,找出潛在Data Scientist
- 利用阿里巴巴面試官的評語還找出不稱職的面試官
- About Data
- Not every problem is data problem
- Not every data problem is a big data problem
From define question
預料中-正 | 預料中-負 |
---|---|
預料外-正 | 預料外-負 |
舉例:餐廳收集熱門點餐(預料中-正),吃不完的餐點(預料中-負)
- 收集資料的方法(可以包含負面原因)
- 現在很多管理都不是用Science 的方法
- Decision Science vs Data Science
(http://www.decisionsciences.org/)
- 以假設數據都能獲取的前提去思考問題,包含衍生及回路。
- 目前Data 處理兩大流派:
- 用大量的資料,簡單的方法來處理
- 利用很好的Algorithm (Deep Learning) 來處理資料
ps. Cell Phone Detector 用來掃現場手機
- 讓數據去幫忙描述,診斷,預測,行動建議(老闆想要知道他)
- Weekly 作的決定,哪些是對的,哪些是錯的
- Monthly 跟競爭對手的消長,公司營收狀況...等
由決策框架來決定資料Dimesion
- 企業引擎
- 知道了
- 知道了,能行動嗎
- 行動了,能得到回饋嗎
- 得到回饋了,能改變我下次決策嗎?
愛好 vs. 興趣 ?
一個只是喜歡看,一個是真的會去用/買
- Data Map/ tag
- In maket timing (信用還款時間:決定下次你和實有可能會買東西)
- Brand Affinity
- Media Usage Propensity
- Spending Index
對於分析的決策
- 這個事情緊急嗎?
- 這個事情重要嗎?
- 這個事情有經驗嗎?
處理數據的分類
- 快+準的數據:意料中 - 從已知規律中產生價值 (Spark)
- 廣+亂的數據:意料外 - (Hadoop)
對於數據的問題
- 有沒有
- 快不快
- 准不準
- 對不對
數據的循環
- 整合 (Data Enginger)
- 佈點/收集
- 儲存/刷新
- 辨識/關連
- 規律 (Data Scienets)
- 挖掘/決策
- 行動/反喟
數據技術評估
加速和累積(數據,分析,服務)的能力
Q:企業內部跨數據方法
阿里巴巴有一個數據委員會
- 第一階段:兩個部門,有強烈意願要去解決問題,去打通和交換資料的方法
- 第二階段:有很多人有意願(N-N 資料分享)協同公共數據存放, Google 說的 pob
- 第二階段:數據資產化,進一步可以計算數據被使用了多少,貢獻了多少
沒有留言:
張貼留言