2015年8月22日 星期六

[筆記] 資料者愛好年會主議程 - 大數據的小故事


大數據的小故事 

  • 主講人:車品覺 / 阿里巴巴集團副總裁 (香港人)
  • 實驗
    • 利用LinkedIn 來撈取資料,找出潛在Data Scientist
    • 利用阿里巴巴面試官的評語還找出不稱職的面試官
  • About Data
    • Not every problem is data problem
    • Not every data problem is a big data problem

 

 From define question 

預料中-正預料中-負
預料外-正預料外-負
舉例:餐廳收集熱門點餐(預料中-正),吃不完的餐點(預料中-負)
  • 收集資料的方法(可以包含負面原因)
    • 現在很多管理都不是用Science 的方法
    • Decision Science vs Data Science 
(http://www.decisionsciences.org/)
  • 以假設數據都能獲取的前提去思考問題,包含衍生及回路。
  • 目前Data 處理兩大流派:
    • 用大量的資料,簡單的方法來處理
    • 利用很好的Algorithm (Deep Learning) 來處理資料
ps. Cell Phone Detector 用來掃現場手機
  • 讓數據去幫忙描述,診斷,預測,行動建議(老闆想要知道他)
    • Weekly 作的決定,哪些是對的,哪些是錯的
    • Monthly 跟競爭對手的消長,公司營收狀況...等

由決策框架來決定資料Dimesion

  • 企業引擎 
    • 知道了 
    • 知道了,能行動嗎 
    • 行動了,能得到回饋嗎 
    • 得到回饋了,能改變我下次決策嗎?

愛好 vs. 興趣 ?

一個只是喜歡看,一個是真的會去用/買
  • Data Map/ tag
    • In maket timing (信用還款時間:決定下次你和實有可能會買東西)
    • Brand Affinity
    • Media Usage Propensity
    • Spending Index

對於分析的決策

  • 這個事情緊急嗎?
  • 這個事情重要嗎?
  • 這個事情有經驗嗎?

處理數據的分類

  • 快+準的數據:意料中 - 從已知規律中產生價值 (Spark)
  • 廣+亂的數據:意料外 - (Hadoop)

對於數據的問題

  • 有沒有
  • 快不快
  • 准不準
  • 對不對

數據的循環

  • 整合 (Data Enginger)
    • 佈點/收集
    • 儲存/刷新
    • 辨識/關連
  • 規律 (Data Scienets)
    • 挖掘/決策
    • 行動/反喟

數據技術評估

加速和累積(數據,分析,服務)的能力
Q:企業內部跨數據方法
阿里巴巴有一個數據委員會
  • 第一階段:兩個部門,有強烈意願要去解決問題,去打通和交換資料的方法
  • 第二階段:有很多人有意願(N-N 資料分享)協同公共數據存放, Google 說的 pob
  • 第二階段:數據資產化,進一步可以計算數據被使用了多少,貢獻了多少
張貼留言