教學大綱

1142 機器學習與Python行銷數據分析(四合)

課程對象

  • 行銷系大學學生(無 Python 基礎可)
  • 需要自備筆記型電腦,此課程為混成型(實體+線上學習)

課程結構

  • 每週 3 小時:2 小時實體授課(觀念 + Code Demo)+ 1 小時線上自主練習。
  • 核心工具:Python (Pandas, Seaborn, Scikit-learn), Google Colab.

每週 1 小時線上學習任務

  • 任務:每週線上進行不同主題的練習,因此同學需要帶著筆電,通常會在第三堂課。
  • 形式:每週提供一個 Colab 練習本,學生須完成指定的「關鍵程式碼填空」。

學習主題

1. 數據分析與行決策

理解數據如何從被動紀錄轉變為引領品牌前進的戰略力量

🎯 學習重點與內容簡介:數據分析與行決策基本觀念

2. 開發環境 Google Colab 介紹

建立現代化的數據科學開發環境

🎯 學習重點與內容簡介:熟悉 Colab 開發環境、Vibe coding 方法論、AI 協作技巧以及線上自主練習。

3. Python 程式設計

建立數位轉型必備的程式思維基礎

🎯 學習重點與內容簡介: Python 基礎知識、程式基本邏輯能力、數據計算與簡單分析能力。建立數位轉型必備的程式思維基礎

4. 主題:社群數據的數位化

掌握從原始報表到結構化數據的第一步轉譯工程

🎯 學習重點與內容簡介:讀取CSV 資料、了解行銷原始數據的結構、panda套件、資料預處理(Preprocessing)

5. 主題:KPI重定義與成效判讀

超越表面數據,定義真正驅動成長的核心指標

🎯 學習重點與內容簡介:基礎指標建構、建立「深度互動」權重指標、數據洞察與策略篩選

6. 主題:文字探勘與文案影響分析

透過文本解析挖掘文案背後的互動密碼

🎯 學習重點與內容簡介:非結構化資料處理。使用 Regex 提取標籤,並透過視覺化文字雲分析頻率

7. 主題:分群分析與內容定位 🌐

運用科學分群為品牌內容精準定位座標

🎯 學習重點與內容簡介:透過非監督式學習分群演算法,將自動將數百篇貼文分類為「吸粉型」、「互動型」或「一般文」

8. 主題:視覺化與內容策略洞察

將枯燥數字轉化為直觀決策的敘事圖表

🎯 學習重點與內容簡介:利用圖表說故事。比較不同貼文類型的成效差異、不同帳號的互動率趨勢、分析最佳發佈時段、不同小組成效十字定位圖

9. 主題:預測科學與爆文機率

利用機器學習模型預見流量爆發的機率

🎯 學習重點與內容簡介:建立第一個機器學習迴歸預測模型。根據「瀏覽次數」、「貼文類型」、「時間」…等特徵預測「觸及人數」。

10. 主題:PCA與內容結構洞察

簡化變數維度,純化數據中的核心洞察結構

🎯學習重點與內容簡介:理解降維的核心概念、辨識資訊重複與結構關係、從數學轉譯為行銷語言、PCA 在內容分析中的應用情境

期末報告:「IG 內容分群與策略定位優化提案」

整合數據分析與實務建議,完成最具說服力的數據驅動行銷提案

🎯 學習重點與內容簡介:將 Python數據分析結果轉化為商業簡報。

顧客流失風險預警

數據驅動的顧客關係管理:以 Python 實作機器學習於顧客流失風險預警之策略解析

在當前高度競爭的商業環境中,顧客關係管理(Customer Relationship Management, CRM)已不再是企業可有可無的選項,而是其永續發展的核心戰略。特別是維繫現有顧客的忠誠度,其成本效益遠高於開發新客戶,這使得「顧客流失預警」成為企業行銷決策中至關重要的一環。

本文旨在提供一個學術與實務兼具的學習框架,透過解析一個顧客流失風險預警專案,探討如何運用 Python 及其機器學習生態系,從資料整理、模型建構、結果詮釋到行銷策略制定,培養資料導向的分析思維與批判性洞察力。

1. 顧客流失預警的重要性與分析範疇

顧客流失(Customer Churn)指的是客戶停止使用公司產品或服務的現象。傳統上,企業往往在顧客流失後才進行分析,試圖找出原因並亡羊補牢。然而,更具前瞻性的策略是「預防勝於治療」。透過預測模型,企業能夠在顧客尚未流失前,辨識出高風險客群,並主動介入,實施精準的挽留策略,從而將被動的客戶服務轉化為主動的顧客關係管理。

在不同的產業情境中,「流失」的定義會有所不同,例如訂閱制服務的取消訂閱、電信業的攜碼轉出、或零售業的長期未消費。選擇一個恰當且能反映商業目標的代理變數(proxy variable),是分析專案成功的關鍵第一步。在此例中,定期存款的申辦與否,可視為顧客對銀行產品或服務黏著度的一種體現,

因此,本案例中我們將「顧客是否申辦定期存款」作為目標變數 ,無申辦則暗示著客戶不活躍或有潛在流失信號。

  • Positive(正類) = 流失 (無申辦定期存款)
  • Negative(負類) = 不會流失(申辦定期存款)

2. Python 在行銷數據分析中的角色與實踐

Python 作為一種開源且功能強大的程式語言,已成為數據科學與機器學習領域的主流工具。其在行銷數據分析中的角色,不僅限於程式碼的編寫,更是一種賦予行銷人員進行深度分析、輔助決策的利器。

  1. 資料整理與獲取(Data Acquisition & Cleaning): Python 提供了 pandas 等函式庫,能高效處理各類型的資料(CSV, Excel, 資料庫等)。本專案透過 ucimlrepo 直接從 UCI 資料庫獲取數據,展現了其在資料來源整合上的便利性。資料清理與轉換(如將 ‘yes’/’no’ 轉換為 1/0 的數值型態),是確保模型品質的基礎工作。不過,真實世界的資料往往雜亂且不完整,資料預處理通常佔據專案時間的 60-80%,是培養耐心與細緻思維的重點。

  2. 探索性資料分析(Exploratory Data Analysis, EDA): 雖然本案例未詳述 EDA 步驟,但學生應培養在建模前對數據進行全面探索的習慣。透過 pandasdescribe(), info() 函式,或利用 matplotlib, seaborn 進行視覺化,可以幫助我們理解資料分佈、變數間的關係、以及潛在的異常值。例如,觀察 age, balance, duration 的分佈,有助於判斷是否需要進行變數轉換或特徵工程。

  3. 模型建構與輔助決策(Model Building & Decision Support): scikit-learn 函式庫是 Python 機器學習的核心。本專案採用的 RandomForestClassifier,是廣受歡迎的集成學習方法之一。Python 讓複雜的演算法得以被簡潔地實作,使行銷分析師能將更多精力放在模型選擇、參數調優以及結果的商業解讀上。

  4. 結果評估與視覺化(Evaluation & Visualization): Python 不僅提供模型評估指標(如 accuracy_score, confusion_matrix, precision, recall),更能配合 matplotlib, seaborn 等函式庫進行結果視覺化,將複雜的數據轉化為易於理解的圖表,有助於溝通分析成果。

總之,Python 不僅是一個工具,更是連結數據、分析與行銷決策的橋樑。它賦予行銷人直接操作數據、建構預測模型的能力,從而擺脫對技術人員的過度依賴,實現更敏捷、更具洞察力的行銷運營。

3. 機器學習模型建構與行銷分析邏輯

3.1 問題定義與目標變數的選取

本案例的核心目標是建立一個分類模型,用以預測顧客是否會申辦定期存款(目標變數y)。將「不申辦」視為潛在流失信號,這是一個關鍵的轉化。

進一步想想看:為何選擇這個變數?它是否能有效反映顧客的流失風險?在何種商業情境下,這種代理關係是成立的?這種思考是培養批判性思維的起點,避免將模型結果視為絕對真理。

3.2 數據探索與特徵工程

專案選取了 age, balance, duration, marital為預測特徵(X)。

  • age (年齡):反映客戶生命週期階段,可能與其理財需求和風險偏好相關。
  • balance (年度平均餘額):代表客戶的財力狀況與銀行往來深度,高餘額客戶通常被視為高價值客戶。
  • duration (上次聯繫的通話時長):這是一個重要的行為變數,暗示了客戶與銀行互動的深度與投入程度。
  • marital :婚姻狀態。

進一步想想看這些特徵的選取並非隨機,而是基於對銀行行銷業務的初步理解。在實際專案中,行銷分析師會與業務專家緊密合作,從大量的客戶數據中篩選、甚至創造(特徵工程)出最有預測能力的特徵。例如,除了這些,是否還有聯繫次數、上次聯繫日期、或產品持有數量等其他重要特徵?

3.3 隨機森林分類器的應用

本案例選用 RandomForestClassifier。隨機森林是一種基於決策樹的集成學習(Ensemble Learning)方法。它透過建立多棵決策樹,並綜合(例如,多數投票)其預測結果來做出最終判斷。其優點包括:

  • 高準確性與穩定性: 相較於單一決策樹,隨機森林能有效降低過擬合(overfitting)風險,提高模型的泛化能力。
  • 能處理非線性關係: 能夠捕捉特徵與目標變數之間複雜的非線性關係。
  • 特徵重要性分析: 能評估每個特徵對於預測結果的貢獻程度,提供重要的商業洞察。

進一步想想看 為何在眾多分類模型中選擇隨機森林?除了上述優點,它在解釋性上優於某些黑箱模型(如深度學習),且在處理混合型數據(數值型與類別型)時表現良好。在不同情境下,是否還有其他更適合的模型?例如,在需要模型輕量化部署時,邏輯迴歸可能更優。

3.4 模型訓練與評估

模型訓練階段透過 model.fit(X, y) 讓隨機森林學習數據中的模式。評估階段則利用 accuracy_scoreconfusion_matrix 來衡量模型的性能。

  • 準確率 (Accuracy): 模型正確預測的樣本比例。專案(以Linear SVM 模型為例)中達到 88%,看似還不錯。
  • 混淆矩陣 (Confusion Matrix): 更細緻地展示了模型的預測結果。
    • 真陰性 (TN, True Negative): 實際不會流失,模型也預測不流失。 (132)
    • 偽陽性 (FP, False Positive): 實際不會流失,但模型卻預測流失 (誤報)。 (959)
    • 偽陰性 (FN, False Negative): 實際會流失,模型卻預測不流失 (漏掉)。 (87)
    • 真陽性 (TP, True Positive): 實際會流失,模型也成功預測流失。 (7865)

進一步想想看 僅僅 88% 的準確率是否足夠?在行銷情境中,FP 和 FN 各代表什麼樣的成本或機會?

  • 偽陽性 (FP): 銀行向實際上不會流失的客戶進行了額外的行銷投入,這意味著浪費不必要的行銷成本。 (誤報)
  • 偽陰性 (FN): 銀行錯過了那些實際上會流失的潛力客戶,意味著少了挽留機會,這可能會是錯失商機。 (漏往之魚)

在顧客流失預警中,不能只看準確率,還需要同時關注召回率(Recall, TP / (TP+FN))與精確率(Precision, TP / (TP+FP))。(這是正類的召回率&精確率公式,所以分子都是TP)

  • 若銀行的目標是盡可能找出所有可能流失的客戶(即使有些誤報),避免漏掉高風險客戶,則應更重視召回率;
  • 若銀行希望每一次挽留行銷都能盡量投放在真正會流失的客戶身上,以降低不必要的行銷成本(避免資源浪費),則應更重視精確率。

理解這些指標的權衡,是將數據分析成果轉化為可行策略的關鍵。

 關於混淆矩陣更詳細的說明,請參考這篇文章

4. 分析結果的詮釋與行銷策略制定

模型結果不僅僅是數字,更是通往商業洞察的窗口。

4.1 混淆矩陣的決策意涵

從給定的混淆矩陣 (TN=132, FP=959, FN=87, TP=7865) 來看:(以Linear SVM 模型的範例值)

  • 模型成功預測了 132 位實際不會流失的客戶(TN=132),這表示模型能正確辨識部分不會流失的客戶,避免對這些客戶進行無效行銷。
  • 然而,有 87 位實際會流失客戶被模型誤判為不會(FN=87)。如果這些客戶是屬於潛在的「隱藏鑽石」,若沒有被模型辨識出來,行銷團隊可能會錯失轉換機會。
  • 另外,有 959 位實際不會流失的客戶被模型誤判為會申辦(FP=959)。若對這些客戶投入特殊行銷資源,可能造成預算與人力浪費。

行銷決策意涵: 企業需要根據其戰略目標,權衡 FP 和 FN 的成本。如果挽留成本高昂,可能需要一個低 FP 的模型;如果市場競爭激烈,不容錯過任何一個潛力客戶,可能需要一個高召回率(低 FN)的模型。

4.2 特徵重要性分析的洞察力

專案中提到「通話時長」是影響申辦與否的最關鍵因素。這是一個極具價值的商業洞察。
進一步想想看 為何通話時長如此重要?

  • 高參與度: 較長的通話時間可能意味著客戶對產品有更高的興趣,願意投入時間理解細節。
  • 資訊交換充分: 銷售人員有更多時間解釋產品特性、解答疑問,建立信任。
  • 問題解決: 長時間的溝通可能涉及解決客戶疑慮,這直接影響其決策。

這項洞察不再僅僅是數據表象,而是指向了具體的行銷溝通策略。

4.3 數據驅動的行銷策略範例

基於上述洞察,可以制定以下策略:

  1. 精準目標客群識別: 定期利用模型對所有客戶進行流失風險預測,生成一份「高風險流失客戶名單」和「高潛力轉換客戶名單」。行銷火力應集中於這些經過數據篩選的客群。
  2. 優化溝通策略: 針對「通話時長」的重要性,企業可以:
    • 培訓銷售人員: 強調在首次接觸中確保充分溝通的重要性,如何有效引導對話、深入了解客戶需求,並延長有意義的互動時間。
    • 設計更吸引人的對話腳本: 鼓勵客戶提問,提供詳細且個人化的資訊。
    • 多管道整合: 如果客戶在其他數位接觸點(如網站、App)的停留時間短,應思考如何透過其他方式補足資訊,例如提供線上預約專人諮詢、提供豐富的數位內容。
  3. 差異化挽留與促銷:
    • 對於模型預測為高風險流失、但歷史價值高的客戶,可指派資深銷售人員進行二次跟進,提供客製化關懷或獨家優惠。
    • 針對「通話時間短但餘額高」的客群,這類客戶可能潛力巨大但未被有效觸及,應主動設計「深度諮詢」服務,提供更多高價值的產品說明,轉化其申辦意願。

5. 資料導向思維與批判性思考的培養

本案例不僅是技術操作的示範,更是培養「資料導向思維」與「批判性思考」的練習。

  1. 從「怎麼寫程式」到「為什麼要這樣分析」: 學生不應止步於理解程式碼語法,而應追問每個步驟背後的邏輯與商業意義。例如,為何選擇隨機森林?為何將 ‘no’ 轉換為 0?這些決策都根植於問題定義和對數據的理解。

  2. 理解模型限制與假設: 任何模型都有其適用範圍與限制。本案例將「不申辦定期存款」類比為流失信號,這是一個基於特定情境的假設。學生應思考這個假設是否總是成立?資料集是否足夠代表母體?模型是否可能存在偏誤?

  3. 連結數據與真實世界: 將模型的量化結果(如特徵重要性)轉化為可行的行銷洞察,需要深刻理解業務情境。例如,「通話時長」的重要性,不僅是統計上的顯著性,更應思考它在實際銷售流程中扮演的角色。

  4. 倫理與永續性考量: 在進行顧客分析時,應考慮數據隱私、模型公平性等倫理議題。例如,模型是否會對特定客群產生歧視?數據使用是否符合法規?

  5. 迭代與持續學習: 數據分析是一個迭代的過程。模型建立後,並非一勞永逸。企業需要持續監控模型性能,根據市場變化、新數據的產生,定期更新或重新訓練模型。學生應具備「實驗、學習、修正」的心態。

結論

本案例透過一個具體的顧客流失風險預警案例,展示了 Python 在行銷數據分析中的強大能力。從問題定義、數據處理、模型建構、結果評估到商業洞察的提取,每一個環節都蘊含著深刻的行銷分析邏輯與決策意涵。

最終目標不僅是建立一個高準確率的模型,更在於將顧客關係管理從「事後反應」提升至「事前預防」的戰略層次。藉由 Python 與機器學習,企業能夠更精準地識別、理解並服務其客戶,將有限的行銷資源投入到最有價值的接觸點上,從而建立一個數據驅動、自動化的顧客價值維繫系統。

掌握這些方法與思維,不僅是學習工具,更是培養未來在數位時代中不可或缺的數據領導力與策略規劃能力。(本文資料來源為周老師的教學教材,由AI輔助生成內容)

參考資料

周進華 (2025). 《顧客流失風險預警》. 逢甲大學行銷學系. (本文章主要參考資料)

Email 主旨點擊預測

運用 Python 與機器學習於數位行銷:電子郵件主旨預測之數據驅動策略

在當代數位行銷的版圖中,電子郵件仍是維繫客戶關係、推動轉換的關鍵管道。然而,郵件的成效往往受開信率的高度影響,而開信率又與主旨文案的吸引力息息相關。本文章旨在透過一個具體的案例分析,闡述如何運用 Python 與機器學習技術,將傳統上較為主觀的文案創意,納入數據驅動的分析框架。我們將探討從問題定義、資料選取、特徵工程、模型建構與評估,到最終將數據洞察轉化為具體行銷策略的完整流程。透過分析邏輯與決策意涵的深入討論,引導學生培養資料導向思維與批判性思考能力,從而有效提升行銷活動的投資回報率。

1. 背景與問題陳述:電子郵件行銷的挑戰與機遇

電子郵件行銷因其成本效益、精準觸及與高度個人化潛力,一直是數位行銷組合中不可或缺的一環。然而,隨著資訊爆炸與使用者數位素養的提升,如何確保發出的電子郵件能有效觸及目標受眾並引起其興趣,已成為行銷人員面臨的一大挑戰。其中,開信率 (Open Rate) 作為衡量郵件活動成效的首要指標,其高低直接關係到後續點擊、轉換甚至品牌形象。

影響開信率的關鍵因素之一,便是郵件的主旨文案 (Subject Line)。一個引人入勝的主旨能夠在收件匣中脫穎而出,激發用戶點擊的慾望;反之,若主旨平淡無奇,甚至帶有垃圾郵件的嫌疑,則可能被忽略、刪除,甚至直接被郵件服務商(如 Gmail, Outlook)過濾至垃圾郵件箱,導致郵件內容根本無法觸及用戶。

傳統上,主旨文案的擬定多仰賴行銷人員的經驗、創意與市場直覺。這種方法雖然具有彈性,但也伴隨著不確定性與潛在的資源浪費。本案例的核心目標,即是引導學生思考:我們能否運用數據科學的方法,為主旨文案的優化提供客觀、量化的決策支持? 具體而言,我們希望建立一個預測模型,能夠在郵件發送前,評估不同主旨文案被用戶「接受」或「拒絕」的可能性,從而輔助行銷人員制定更有效的策略,提升整體行銷活動的投資回報率 (ROI)。

2. 數據驅動的行銷分析:Python 與機器學習的角色

在當前數據爆炸的時代,Python 已成為數據分析、資料科學與機器學習領域的首選工具。其豐富的函式庫生態系,使得複雜的資料處理、分析與模型建構變得高效且直觀。在行銷數據分析中,Python 的角色尤其關鍵:

  1. 資料整理與轉換 (Data Cleaning & Transformation):行銷數據往往來源多元且格式不一。Python 及其 pandas 函式庫能高效地進行資料讀取、合併、清洗、篩選與重塑,為後續分析奠定堅實基礎。
  2. 探索性資料分析 (Exploratory Data Analysis, EDA):透過 matplotlibseaborn 等視覺化工具,Python 能幫助我們快速理解資料的分佈、趨勢與變數間的關係,發現潛在的模式與洞察。
  3. 特徵工程 (Feature Engineering):這是將原始資料轉換為機器學習模型可理解且有意義的特徵的藝術。例如,從文本中提取長度、特定詞彙出現頻率等,這些都需要 Python 強大的字串處理能力。
  4. 模型建構與評估 (Model Building & Evaluation):scikit-learn 等函式庫提供了多種機器學習演算法,從簡單的線性模型到複雜的深度學習模型,使得預測模型能被快速實作與評估。
  5. 輔助決策與自動化 (Decision Support & Automation):一旦模型訓練完成並經過驗證,它便能作為一個智慧工具,為行銷決策提供量化依據,甚至整合到自動化行銷系統中。

本案例將透過 Python,實踐上述流程,不僅學習「怎麼寫程式」,更重要的是理解「為什麼要這樣分析」以及「這些分析對於行銷決策有何意義」。

3. 案例分析:電子郵件主旨預測模型建構

本節將循序漸進地展示如何建立一個基於文本特徵的郵件主旨預測模型。

3.1 資料來源與代理指標:從簡訊垃圾訊息到行銷郵件成效

鑑於真實電子郵件的開信或點擊數據,通常涉及用戶隱私且不易取得,本專案採用來自 UCI 資料庫的「SMS 垃圾訊息蒐集」資料集 (ID: 228) 作為代理資料集 (Proxy Dataset)。當目標數據難以直接獲取時,尋找具有相似結構或行為模式的公開資料集進行研究。

  • 資料集描述:此資料集包含大量已標記為 ham (非垃圾訊息) 與 spam (垃圾訊息) 的真實手機簡訊。
  • 代理指標的合理化
    • 我們將此二元分類問題類比為行銷郵件的成功與否:
      • ham (非垃圾訊息) 可視為「成功觸及並可能被點擊的行銷郵件」;
      • spam (垃圾訊息) 則代表「失敗的行銷郵件」,這可能是因為被郵件服務商過濾、被用戶直接刪除或被標記為垃圾郵件。
    • 不過,在真實世界中,數據往往不是現成的,我們需要有創意地尋找替代方案。同時,也要注意代理資料集的局限性:SMS 簡訊與 Email 在呈現形式、字數限制、用戶互動模式上仍有差異。因此,從此模型得出的結論需謹慎推論,並在實際 Email 行銷中進一步驗證。

3.2 特徵工程與選擇:將文本轉化為可量化資訊

機器學習模型無法直接處理原始文本,需要將其轉換為數值特徵。特徵工程正是此一轉換的關鍵步驟,它結合了領域知識與數據轉換技術,旨在從原始資料中提取出對模型預測有價值的資訊。

在本案例中,我們提取了兩個簡單而直觀的文本特徵:

  1. text_length:訊息的長度。
    • 分析邏輯:較長的主旨可能包含更多資訊,但也可能顯得冗長或被視為垃圾郵件的特徵;較短的主旨可能精煉,但也可能資訊不足。透過此特徵,模型能學習到訊息長度與其分類之間的關係。
  2. contains_free:訊息內容是否包含 free (免費) 字眼。
    • 分析邏輯free 是行銷文案中常用的高頻詞彙,但也常被垃圾郵件利用。郵件服務商的垃圾郵件過濾器可能特別關注此類詞彙。此特徵旨在捕捉這種「促銷敏感詞」對郵件分類的影響。
特徵工程是連接「領域知識」與「機器學習」的橋樑。好的特徵比複雜的模型更能有效提升預測性能。我們選擇了這些簡單的特徵,除了教學目的,也因為它們在直覺上與垃圾郵件判斷有很強的關聯性。

3.3 模型選擇與訓練:決策樹分類器

我們選用決策樹分類器 (Decision Tree Classifier) 來建立模型。決策樹是一種直觀且易於解釋的機器學習演算法,它透過一系列問題的判斷(類似於流程圖),將資料逐步劃分,最終得出分類結果。

  • 模型選擇理由:決策樹的優勢在於其可解釋性,它能清楚呈現模型做出決策的路徑,有助於我們理解哪些特徵組合導致了特定的預測結果,這對於將模型洞察轉化為行銷策略至為關鍵。
  • 模型參數max_depth=3 限制了決策樹的深度,旨在避免模型過度擬合 (overfitting),並保持其可解釋性。random_state=42 則確保實驗的可重複性。

3.4 模型評估與詮釋:理解預測的成效與誤差

模型訓練完成後,我們需要評估其性能,理解它在預測上的表現。

  • 準確率 (Accuracy Score):最直觀的指標,表示模型正確預測的樣本比例。
  • 混淆矩陣 (Confusion Matrix):這是評估分類模型更為詳盡的工具,它能清楚地顯示模型在各類別上的預測表現,特別是區分出不同類型的預測錯誤。

結果分析 (混淆矩陣)
模型的準確率為 89%,混淆矩陣如下:

實際 \ 預測預測:非垃圾訊息 (Ham, 0)預測:垃圾訊息 (Spam, 1)
實際:非垃圾訊息 (Ham, 0)951 (TN-真陰性)
正確預測到是非垃圾訊息
3 (FP-偽陽性)
預測到是垃圾訊息(實際不是)
實際:垃圾訊息 (Spam, 1)115 (FN偽陰性 )
預測到是非垃圾訊息(實際卻是)
46 (TP-真陽性)
正確預測到是垃圾訊息
  • 真陰性 (True Negative, TN):951 則實際為 ham (非垃圾訊息) 的郵件,模型也正確預測為 ham
    • 行銷意涵:這些是模型認為「安全、非垃圾」的潛在成功行銷郵件,且模型判斷正確。
  • 真陽性 (True Positive, TP):46 則實際為 spam (垃圾訊息) 的郵件,模型也正確預測為 spam
    • 行銷意涵:這些是模型正確識別出的「有風險」郵件,可以有效避免發送。
  • 偽陽性 (False Positive, FP):3 則實際為 ham (非垃圾訊息) 的郵件,模型卻錯誤預測為 spam (垃圾訊息)。
    • 行銷意涵:這是「被誤殺的好郵件」。若我們過度依賴此模型來過濾,這 3 封原本應成功的郵件可能會被錯誤地標記為「有風險」,導致錯失潛在的開信與轉換機會。對於行銷而言,這意味著可能過於保守,減少了潛在觸及。
  • 偽陰性 (False Negative, FN):115 則實際為 spam (垃圾訊息) 的郵件,模型卻錯誤預測為 ham (非垃圾訊息)。
    • 行銷意涵:這是「漏網之魚」。這些郵件實際上是垃圾訊息,但模型卻認為它們是安全的。若依賴模型建議,這 115 封有問題的郵件可能會被寄出,潛在風險包括:觸及率低落、用戶反感、被標記為垃圾郵件,甚至損害發送方的信譽。對於行銷而言,這意味著策略有漏洞,未能有效避免發送不良內容。

教學引導:混淆矩陣的深入分析是培養批判性思考的關鍵。學生需要理解,不同類型的錯誤預測在行銷決策中具有不同的成本與影響。在實際應用中,我們可能需要根據行銷目標(例如,寧可少發一封好郵件也不願發一封垃圾郵件,或是反之),來調整模型的閾值或選擇更適合的評估指標,如精確率 Precision 或召回率 Recall。

  1. 精確度 (Precision):(對於類別 1 (spam)
    • 計算方式:TP / (TP + FP) => 46 / (46+3) = 0.94
    • 解讀:對於類別 1 (spam),精確度為 0.94,表示當模型預測訊息是 ‘spam’ 時,有 94% 的情況是正確的
    • 策略意義:高精確度意味著當模型判斷一則訊息為垃圾郵件時,它確實是垃圾郵件的可能性很高。對於行銷決策而言,如果您的目標是確保您的合法行銷訊息不被錯誤地歸類為垃圾郵件(即避免誤判),那麼高精確度會更關鍵。
    • 想像一下,如果您的行銷訊息被模型誤判為垃圾郵件而無法送達客戶,這會導致您錯失潛在的銷售機會。因此,從發送者的角度來看,確保訊息能精準送達,精確度非常重要。
  2. 召回率 (Recall / Sensitivity / True Positive Rate):(對於類別 1 (spam))
    • 計算方式:TP / (TP + FN) => 46 / (46+115) = 0.29
    • 解讀:對於類別 1 (spam),召回率為 0.29,表示模型只捕獲了 29% 的實際 ‘spam’ 訊息。
    • 策略意義:高召回率意味著模型能夠識別出大多數的實際垃圾郵件。如果您的主要目標是盡可能地減少所有到達用戶的垃圾郵件數量,那麼召回率會很重要。然而,過度追求高召回率可能會導致一些合法的非垃圾郵件被錯誤地篩選掉。

行銷觀點:對發送方來說,這個模型「不容易誤殺好訊息」是優點(0.94),但「漏掉太多壞訊息」是目前最需要改善的地方(0.29)。

若你是行銷訊息的發送者,通常更在意的是不要把合法訊息誤判成垃圾郵件,因此重點不只是 Precision,而是整體上要降低誤殺合法訊息的機率;
若你是平台方,則會更重視 Recall,因為平台更希望盡可能攔住所有垃圾郵件。換句話說,哪個指標更重要,不是固定答案,而是取決於你比較怕哪一種錯誤。
總結:發送方通常更怕「誤殺合法訊息」,平台方通常更怕「漏掉垃圾訊息」。

關於混淆矩陣更詳細的說明,請參考這篇文章

4. 從數據到洞察:行銷策略的實踐與思辨

本案例的核心價值,不僅在於建立一個預測模型,更在於從模型結果中提取有意義的商業洞察,並將其轉化為具體的行銷決策意涵

4.1 核心商業洞察:揭示主旨文案的潛在風險與機會

儘管本專案使用簡訊垃圾訊息作為代理數據,但從中得出的洞察對於電子郵件行銷同樣具有啟發性:

  1. 「免費」策略需謹慎評估:模型可能顯示,包含 free 等「強促銷」字眼且篇幅較長的郵件,更容易被歸類為垃圾郵件。這提醒行銷人員,在使用類似詞彙時需極度謹慎。其風險在於:

    • 觸及率降低:可能被郵件服務商的垃圾郵件過濾器攔截。
    • 用戶觀感:過於強調「免費」可能讓用戶產生廉價或詐騙的聯想。
    • 洞察啟發:行銷人員不應盲目追求「免費」,而應思考如何透過價值溝通、權益告知等方式,更細膩地包裝優惠訊息,以提升吸引力而非觸發警報。
  2. 內容與結構的綜合影響:模型準確率並非百分之百,特別是在偽陰性(將垃圾郵件誤判為非垃圾郵件)的數量上相對較高。這強烈暗示,除了簡單的關鍵字和長度,郵件的整體內容、語氣、結構,甚至是發送者信譽,對於其是否被視為垃圾郵件具有更複雜且深遠的影響。

    • 洞察啟發:簡單的二元特徵有其極限,未來可能需要引入更進階的自然語言處理 (NLP) 技術,如情感分析、主題模型、詞向量 (Word Embeddings) 等,以捕捉文本更深層次的語義資訊。
  3. A/B 測試的策略性運用:本模型提供了一個初步的判斷基準。行銷團隊可以以此模型為基礎,設計多個不同主旨文案版本(例如,一個包含 free 但經過優化,一個則避免使用 free ),進行A/B 測試

    • 洞察啟發:模型篩選出高風險或高潛力選項,可以優化 A/B 測試的效率,避免測試明顯有問題的文案,從而節省時間與資源。A/B 測試的實際結果將進一步驗證模型的預測能力,並為未來的模型迭代提供寶貴的真實世界數據。

4.2 行銷決策意涵:從分析到行動

本案例的最終目的,是將數據科學的嚴謹分析與行銷策略的靈活應用結合。

  1. 建立「文案儀表板」(Copy Dashboard):行銷人員可以利用此模型,開發一個內部工具或儀表板。在撰寫完主旨文案後,只需輸入文案內容,模型即可給出「被視為垃圾郵件的風險評分」。
    • 決策價值:這使得文案創意不再僅憑主觀判斷,而是有了量化的參考依據。行銷人員可以在發送前快速評估多個主旨版本的潛在風險,篩選出高潛力選項。
  2. 提升 A/B 測試效率與資源利用:透過模型預篩選,可以減少在低效或高風險文案上進行 A/B 測試的資源投入。將精力集中於更有可能成功的文案組合,從而顯著提升測試效率與行銷資源的利用率。
  3. 累積「文案知識庫」與品牌溝通風格:隨著時間的推移,模型分析結果與實際 A/B 測試的數據會不斷累積。這些數據可以形成組織內部的「文案知識庫」,指導品牌建立更有效、更符合目標受眾偏好且能規避風險的溝通風格。這不僅提升了單次行銷活動的成效,更為品牌建立了寶貴的數位資產。

4.3 培養資料導向思維與批判性思考能力

本案例不應僅止於程式碼的實作,更應著重於背後的分析思維批判性思考

  • 資料導向思維

    • 從問題出發:理解業務痛點 (Email 開信率低) 如何轉化為數據分析問題 (預測主旨成效)。
    • 數據的局限性與創新性:學會面對真實數據獲取困難時,如何合理選擇代理數據,並清醒認識其局限性。
    • 特徵工程的藝術:理解如何將領域知識轉化為模型可用的數據特徵,這不僅是技術,更是對業務的深度理解。
    • 模型只是工具:模型提供的預測結果是決策的參考,而非絕對的答案,需結合業務情境進行綜合判斷。
  • 批判性思考能力

    • 質疑數據來源:代理數據的適用性如何?真實 Email 數據會有什麼差異?
    • 反思特徵選擇:除了長度和 free,還有哪些文本特徵可能影響郵件成效?(例如,情感、個人化程度、CTA 詞語等)
    • 評估模型局限:決策樹模型的優勢與劣勢是什麼?面對低準確率(如 FN 較高),應如何改進模型或調整策略?是否需要更複雜的模型(如 SVM, 隨機森林,甚至深度學習的文本模型)?
    • 策略的驗證與迭代:模型提出的洞察是否真的有效?需要通過 A/B 測試等實證方法進行驗證,並基於反饋不斷優化模型與策略。

結論

本案例透過一個具體的應用,展示 Python 與機器學習如何在數位行銷領域中發揮關鍵作用,將傳統上較為主觀的文案創意,轉化為可量化、可預測的數據驅動策略。從問題定義、代理資料的選取與其合理性探討,到特徵工程、模型建構與混淆矩陣的深入分析,不僅要理解了「怎麼寫程式」,更重要的是學習「為什麼要這樣分析」以及「這些分析對於行銷決策有何意義」。

透過本課程的學習應能認識到:

  • Python 是行銷數據分析的強大工具,能夠處理從資料整理到模型輔助決策的各個環節。
  • 分析結果(特別是混淆矩陣)能夠提供深層的行銷洞察,幫助我們理解模型在不同情境下的表現及潛在的風險與機會。
  • 將數據洞察轉化為具體的行銷策略(如優化文案、指導 A/B 測試、建立知識庫)是數據科學在商業上實現價值的最終環節。

最終,本教學案例旨在培養學生具備資料導向的思維模式,勇於提出問題,批判性地思考數據的局限與可能,並將分析結果與真實世界的行銷策略緊密結合,成為未來具備數據素養的行銷專業人才。(本文資料來源為周老師的教學教材,由AI輔助生成內容)

參考資料

周進華 (2025). 《Email 主旨點擊預測》. 逢甲大學行銷學系. (本文章主要參考資料)