5 個你可以記住的執行數據分析專案的關鍵步驟

這與是不是技術人員無關,只要你做的事情需要透過數據驅動成果,那你就需要了解這個流程!

Step1. 定義商業問題 (Define Business Use Case)

這步驟絕對是做任何題目最關鍵的,必須要確認你現在在做的題目是「真的有需求、真的有商業痛點」,並要能聯想,如果你完成這個這題,能帶來多少貢獻?

假設你正在執行客戶分群分析 (可以是用條件式區分(rule based)、也可以是演算法),那你要思考:

  • 什麼部門會想要用這個分析結果?會想用的原因是什麼?
  • 用了可以帶來什麼成效?是減省未來行銷預算嗎?還是更容易提升客戶的 retention rate?

假設你正在執行註冊轉換率預測,那你要思考:

  • 什麼部門會想要用這個分析結果?會想用的原因是什麼?
  • 用了可以帶來什麼成效?是提升會員訂閱數嗎?會為網站/產品多帶來多少營收?

Step2.數據準備 (Data Preparation)

針對已定義好的商業題目,開始搜集數據,你需要確認數據的時間、商業範圍。

以客戶分群分析為例

例如你想為銀行信用卡部門解決問題,那可以搜集:

  • 歷史的客戶信用卡帳單紀錄
  • 歷史的客戶於特約商店的刷卡紀錄
  • 網站上信用卡頁面的瀏覽數據

如果是不講求即時性的題目,可以先搜集 1 年或更長的數據。

以註冊轉換率預測為例

例如你想為電商會員經營部門解決問題,那可以搜集:

  • 歷史有註冊的會員,在註冊前的站上瀏覽數據。
  • 還不是會員,但有搜集的近期站上瀏覽數據

這種題目可能會講求即時性,訓練資料可能會先抓近 3 個月內。

Step3.數據清理 (Data Cleaning)

拿到數據以後,必須花一些時間了解你手上的數據,這時需要有一些批判式的思維在洞察的過程上,這過程包含:清理、轉換、產生新的數據。

舉例來說:

  • 有些數據欄位是空的,那它是合理的嗎?當初是人工 key 錯了嗎?那我們需不需要排除它呢?
  • 這張會員購買紀錄好像都有按照原始國家幣別來紀錄,那直接使用合理嗎?是不是要先統一轉換成同一種幣別?
  • 這個數據現有的欄位已經適合拿來做數據分析嗎?是不是再增加什麼組合欄位會更合理?例如地理位置這件事情,如果只有經度或只有緯度,那其實沒有太大的意義,如果我們加入經度 x 緯度變成新的欄位,那就能真正表現出地理位置。

Step4.數據分析 (Data Analysis)

如果你是資料技術人員,你可能會想用各種資料科學演算法執行數據分析; 如果你是行銷人員,你可能會想用一些商業視覺化工具輔助,幫你透過不同的維度,執行數據分析。

以客戶分群的例子來說:

  • 如果我們要使用演算法,可能就會用到 SkLearn、pyspark、tensorflow 、 Bigquery ML 等工具來完成群集分析。
  • 如果我們使用商業視覺化工具 (Data Studio/Tableau/PowerBI 等),那我們可以按照我們想要的商業切角,做成各種 Dashboard ,例如:第一頁看整體會員績效指標總覽、第二頁看到不同產品的會員經營狀況、第三頁以分隔算法來延伸 (例如:一週內來站上 N 次以上,我們就把這會員分到活躍度高的會員的群組)
  • 也有可能結合演算法的結果再加上商業視角做成報表,這種通常是資料科學家的角色喔,或是一個數據專案團隊中不同職能的人一起合作完成。

Step5.結果呈現 (Data Visualization)

最後,切記做完的所有努力都要好好的整理「商業價值」在哪裡,必須要能回扣到第 1 個步驟 – 定義商業問題。通常我就會做一個簡報把上面的所有過程都帶過一次,最後強調商業效益並分享給 Stakeholder 。

簡報的脈絡我喜歡這樣做:

  • Why – 先強調為何要聽我們的數據作品?
    • 商業痛點 (簡述題目背景、需求在哪裡)
    • 預期成效 (通常我會用情境的方式舉例)
  • How – 強調我們的做法,剛剛學的就很重要啦!
    • 把剛剛提到的 Step 1 ~ Step 5 都展示過一遍,讓對方知道我們是很有邏輯地完成題目。
  • What – 強調成品與效果
    • 成果與成效 (通常會先拿歷史數據來驗證方法可行)
    • 可以展示視覺化報表與模型的系統成效數字

熟悉數據分析流程一定對你職涯有幫助

有助於工作更順暢或累積更多的數據作品集喔!歡迎收藏同篇 IG 貼文

延伸閱讀推薦:

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Scroll to Top