這與是不是技術人員無關,只要你做的事情需要透過數據驅動成果,那你就需要了解這個流程!
Step1. 定義商業問題 (Define Business Use Case)
這步驟絕對是做任何題目最關鍵的,必須要確認你現在在做的題目是「真的有需求、真的有商業痛點」,並要能聯想,如果你完成這個這題,能帶來多少貢獻?
假設你正在執行客戶分群分析 (可以是用條件式區分(rule based)、也可以是演算法),那你要思考:
- 什麼部門會想要用這個分析結果?會想用的原因是什麼?
- 用了可以帶來什麼成效?是減省未來行銷預算嗎?還是更容易提升客戶的 retention rate?
假設你正在執行註冊轉換率預測,那你要思考:
- 什麼部門會想要用這個分析結果?會想用的原因是什麼?
- 用了可以帶來什麼成效?是提升會員訂閱數嗎?會為網站/產品多帶來多少營收?
Step2.數據準備 (Data Preparation)
針對已定義好的商業題目,開始搜集數據,你需要確認數據的時間、商業範圍。
以客戶分群分析為例
例如你想為銀行信用卡部門解決問題,那可以搜集:
- 歷史的客戶信用卡帳單紀錄
- 歷史的客戶於特約商店的刷卡紀錄
- 網站上信用卡頁面的瀏覽數據
如果是不講求即時性的題目,可以先搜集 1 年或更長的數據。
以註冊轉換率預測為例
例如你想為電商會員經營部門解決問題,那可以搜集:
- 歷史有註冊的會員,在註冊前的站上瀏覽數據。
- 還不是會員,但有搜集的近期站上瀏覽數據
這種題目可能會講求即時性,訓練資料可能會先抓近 3 個月內。
Step3.數據清理 (Data Cleaning)
拿到數據以後,必須花一些時間了解你手上的數據,這時需要有一些批判式的思維在洞察的過程上,這過程包含:清理、轉換、產生新的數據。
舉例來說:
- 有些數據欄位是空的,那它是合理的嗎?當初是人工 key 錯了嗎?那我們需不需要排除它呢?
- 這張會員購買紀錄好像都有按照原始國家幣別來紀錄,那直接使用合理嗎?是不是要先統一轉換成同一種幣別?
- 這個數據現有的欄位已經適合拿來做數據分析嗎?是不是再增加什麼組合欄位會更合理?例如地理位置這件事情,如果只有經度或只有緯度,那其實沒有太大的意義,如果我們加入經度 x 緯度變成新的欄位,那就能真正表現出地理位置。
Step4.數據分析 (Data Analysis)
如果你是資料技術人員,你可能會想用各種資料科學演算法執行數據分析; 如果你是行銷人員,你可能會想用一些商業視覺化工具輔助,幫你透過不同的維度,執行數據分析。
以客戶分群的例子來說:
- 如果我們要使用演算法,可能就會用到 SkLearn、pyspark、tensorflow 、 Bigquery ML 等工具來完成群集分析。
- 如果我們使用商業視覺化工具 (Data Studio/Tableau/PowerBI 等),那我們可以按照我們想要的商業切角,做成各種 Dashboard ,例如:第一頁看整體會員績效指標總覽、第二頁看到不同產品的會員經營狀況、第三頁以分隔算法來延伸 (例如:一週內來站上 N 次以上,我們就把這會員分到活躍度高的會員的群組)
- 也有可能結合演算法的結果再加上商業視角做成報表,這種通常是資料科學家的角色喔,或是一個數據專案團隊中不同職能的人一起合作完成。
Step5.結果呈現 (Data Visualization)
最後,切記做完的所有努力都要好好的整理「商業價值」在哪裡,必須要能回扣到第 1 個步驟 – 定義商業問題。通常我就會做一個簡報把上面的所有過程都帶過一次,最後強調商業效益並分享給 Stakeholder 。
簡報的脈絡我喜歡這樣做:
- Why – 先強調為何要聽我們的數據作品?
- 商業痛點 (簡述題目背景、需求在哪裡)
- 預期成效 (通常我會用情境的方式舉例)
- How – 強調我們的做法,剛剛學的就很重要啦!
- 把剛剛提到的 Step 1 ~ Step 5 都展示過一遍,讓對方知道我們是很有邏輯地完成題目。
- What – 強調成品與效果
- 成果與成效 (通常會先拿歷史數據來驗證方法可行)
- 可以展示視覺化報表與模型的系統成效數字
熟悉數據分析流程一定對你職涯有幫助
有助於工作更順暢或累積更多的數據作品集喔!歡迎收藏同篇 IG 貼文!
延伸閱讀推薦: