洞察市場脈動:分層聚類、DBSCAN與輪廓係數在行銷數據分析的實踐與反思
前言:數據驅動時代下的消費者洞察
在當今數據爆炸的時代,企業面臨著海量的消費者行為數據、交易紀錄、社群互動等資訊。如何從這些看似雜亂無章的數據中,挖掘出有價值的洞察,進而制定精準有效的行銷策略,是所有行銷專業人士與數據科學家共同的挑戰。分群(Clustering)作為一種強大的非監督式機器學習技術,正是實現這一目標的關鍵工具。它能夠將相似的數據點歸類到同一群組,從而幫助我們理解數據內在的結構,識別出不同的消費者族群、市場區塊或產品特性。
本文旨在探討三種在數據分析領域中具有獨特價值的概念:分層聚類(Hierarchical Clustering)、基於密度的空間分群(DBSCAN),以及衡量分群品質的關鍵指標輪廓係數(Silhouette Score)。我們將結合理論基礎與行銷實務,深入分析它們的運作原理、優缺點、在行銷領域的應用潛力,並提出相關的行銷洞察與批判性思維,以期提升讀者對這些主題的理解與應用能力。
I. 分群演算法的核心價值:市場區隔與個性化行銷
在深入探討具體演算法之前,我們必須理解分群技術在行銷領域的根本應用價值:市場區隔(Market Segmentation)。市場區隔是行銷策略的基石,它將廣大的異質市場劃分為數個具有相似需求、特徵或行為模式的同質子市場。透過有效的市場區隔,企業可以:
- 更精準地鎖定目標客群 (Targeting): 將行銷資源集中在最有價值的顧客群體上。
- 制定個性化的行銷組合 (Personalized Marketing Mix): 根據不同客群的需求,量身定制產品、價格、通路與推廣策略。
- 提升顧客滿意度與忠誠度: 提供更符合個人偏好的產品與服務,建立更深厚的客戶關係。
- 發掘新的市場機會: 透過數據分析,發現過去未曾察覺的利基市場或消費者需求。
分群演算法正是實現「數據驅動的市場區隔」的利器。它讓行銷人員得以擺脫主觀判斷,透過客觀的數據模式來劃分客群,使策略更具科學性與說服力。
II. 深入探索分群演算法:超越K-Means的選擇
A. 分層聚類 (Hierarchical Clustering)
分層聚類是一種建立數據點層次結構的演算法。它不需要預先指定分群的數量(K值),而是透過迭代地合併或拆分群組來構建一個樹狀結構,稱為樹狀圖(Dendrogram)。
1. 理論基礎與運作原理
- 凝聚式分層聚類 (Agglomerative Hierarchical Clustering): 最常見的形式。它以「由下而上」的方式進行。
- 將每個數據點視為一個獨立的群組。
- 計算所有群組之間的相似度(或距離)。
- 將距離最近的兩個群組合併成一個新群組。
- 重複步驟2和3,直到所有數據點都合併成一個大群組。
- 鏈接準則 (Linkage Criteria): 決定群組之間距離的計算方式,對分群結果影響深遠:
- 單一鏈接 (Single Linkage): 取兩個群組中最接近的數據點距離。容易形成「鏈狀」群組。
- 完全鏈接 (Complete Linkage): 取兩個群組中最遠的數據點距離。傾向於形成緊密的球狀群組。
- 平均鏈接 (Average Linkage): 取兩個群組間所有點對點距離的平均值。
- 沃德鏈接 (Ward’s Linkage): 旨在最小化群組內平方和的增量。傾向於形成大小相近的群組。
2. 優勢與限制
- 優勢:
- 無需預設K值: 樹狀圖提供靈活性,可根據業務需求在不同層次上「切割」出不同數量的群組。
- 視覺化解釋性強: 樹狀圖清晰地展示了群組的形成過程及其層次關係,便於理解。
- 揭示層次結構: 能夠發現數據中存在的自然層次結構。
- 限制:
- 計算成本高: 對於大型數據集,計算所有點之間的距離矩陣以及重複合併操作,計算複雜度為 O(N³),或約為 O(N² × log N),效率較低。
- 不可逆性: 一旦點被合併,就不能分開,早期的錯誤合併可能影響後續結果。
- 對噪音和異常值敏感: 特別是單一鏈接。
3. 行銷應用洞察
分層聚類在行銷中的應用價值主要體現在其能夠揭示數據的「樹狀結構」。
- 消費者金字塔分析: 識別從大眾消費者到高價值忠誠客戶的層次,針對不同層次制定會員等級、專屬服務或升級策略。
- 產品品類樹構建: 根據產品屬性或購買行為,構建產品之間的層次關係,有助於商品陳列、推薦系統優化或新品開發。
- 市場結構分析: 了解品牌或產品在市場中的相互競爭與替代關係,例如,哪些品牌屬於同一「家族」,哪些是獨立的。
- 行銷活動成效分析: 分析不同行銷管道觸及的顧客群體在行為上的層次差異,優化資源分配。
教授觀點: 在行銷實務中,樹狀圖的視覺化功能極其寶貴。它不僅能幫助數據科學家理解數據,更能成為向非技術背景的行銷團隊解釋分群邏輯的有效工具。透過樹狀圖,行銷人員可以直觀地看到「這兩個客戶群為什麼被分在一起」,從而對分群結果產生更高的信任度與執行意願。
B. 基於密度的空間分群 (DBSCAN – Density-Based Spatial Clustering of Applications with Noise)
DBSCAN是一種基於密度的分群演算法,它能夠發現任意形狀的群組,並將噪音點(異常值)區分出來。這與K-Means只能識別球狀群組,且對異常值敏感的特性形成鮮明對比。
1. 理論基礎與運作原理
DBSCAN的核心概念圍繞著「密度」:
- 核心點 (Core Point): 在其半徑 ε (epsilon) 範圍內,至少有
MinPts個數據點。 - 邊界點 (Border Point): 在其半徑 ε 範圍內,點的數量少於
MinPts,但它位於一個核心點的 ε 範圍內。 - 噪音點 (Noise Point): 既不是核心點也不是邊界點,被視為異常值。
演算法流程:
- 隨機選擇一個未被訪問的數據點P。
- 檢查P是否為核心點。
- 如果是,則建立一個新群組,並將P及其密度可達的所有點(包括其他核心點和邊界點)都加入到該群組中。
- 如果不是,則將P標記為噪音點(或暫時標記為已訪問,後續可能被其他核心點的 ε 範圍覆蓋而成為邊界點)。
- 重複步驟1和2,直到所有數據點都被訪問過。
2. 優勢與限制
- 優勢:
- 識別任意形狀的群組: 不像K-Means限制於凸形或球形。
- 自動處理噪音點: 能夠將異常值標記出來,避免它們干擾群組形成。
- 無需預設K值: 群組的數量由數據本身的密度結構決定。
- 限制:
- 參數選擇敏感: 對於
epsilon和MinPts這兩個參數的選擇非常敏感。不同的參數組合可能導致截然不同的分群結果。 - 難以處理密度差異大的數據: 如果數據集中不同區域的密度差異很大,單一組參數難以有效地分群。
- 不適用於高維數據: 在高維空間中,「距離」的概念變得模糊(維度災難),DBSCAN效果會變差。
- 參數選擇敏感: 對於
3. 行銷應用洞察
DBSCAN特別適用於那些數據點分佈不均勻、存在自然邊界或需要識別異常值的行銷場景。
- 地理空間行銷: 識別特定地理區域內的客戶群體,例如,在城市地圖上找出零售店周圍的潛在客戶「熱點」,或是分析競爭對手的地理分佈。
- 社群網路分析: 找出社群媒體上的意見領袖群體或特定興趣社團,因為他們可能形成密集的連接網路。
- 異常行為檢測: 在交易數據中,DBSCAN可以幫助識別出詐騙行為(表現為與正常模式不符的噪音點)或極端的高價值客戶行為。
- 利基市場識別: 當市場中存在一些小型但高度集中的消費者群體時,DBSCAN能有效地將這些「利基市場」從廣大市場中分離出來。
教授觀點: DBSCAN的「噪音點」概念在行銷中具有特別的戰略意義。這些被DBSCAN歸類為噪音的點,可能不是真正的「雜訊」,而是極端高價值客戶(如超高消費客戶)、潛在的創新者(早期採用者),甚至是潛在的欺詐者。對這些「噪音點」的進一步分析,往往能帶來意想不到的行銷洞察。例如,識別出與眾不同的消費行為,可能是創新產品的潛在客戶,也可能是需要特殊關懷的VIP。
C. 衡量分群品質:輪廓係數 (Silhouette Score)
無論使用哪種分群演算法,如何客觀評估分群結果的好壞至關重要。輪廓係數(Silhouette Score)就是一個廣泛使用的內部評估指標。
1. 理論基礎與運作原理
輪廓係數衡量一個數據點與其自身群組的相似程度,以及與最近的其他群組的相異程度。對於數據集中的每個數據點 $i$,其輪廓係數 s(i) 計算如下:

其中:
- a(i):數據點 $i$ 與其自身群組中所有其他點的平均距離。此值越小,表示 i 與其所屬群組越緊密。
- b(i):數據點 $i$ 與最近的其他群組中所有點的平均距離。此值越大,表示 i 與其他群組越分離。
輪廓係數的取值範圍介於 -1 到 +1 之間:
- 接近 +1: 表示該數據點與其自身群組非常相似,與其他群組非常不相似,分群結果良好。
- 接近 0: 表示該數據點位於兩個群組的邊界上,分群不明顯。
- 接近 -1: 表示該數據點可能被分到錯誤的群組中。
整個數據集的輪廓係數是所有數據點輪廓係數的平均值。
2. 重要性與行銷應用
- 選擇最佳參數: 輪廓係數常用於比較不同分群數量(例如K-Means中的不同K值)或不同演算法參數(例如DBSCAN中的
epsilon和MinPts)下的分群結果。通常選擇能使輪廓係數最大化的參數組合。 - 評估分群品質: 提供一個客觀的數值來評估分群的「凝聚度」和「分離度」,幫助數據科學家和行銷團隊判斷分群結果的可靠性。
- 決策支持: 在向管理層或非技術背景的同事匯報分群結果時,一個高且具有說服力的輪廓係數,能增加分群模型的可信度,進而支持基於該分群的行銷策略決策。
- 監測分群變化: 定期計算輪廓係數,可以監測市場或客戶行為是否發生重大變化,導致原有分群結構不再有效,需要重新進行分群。
教授觀點: 儘管輪廓係數是一個非常有用的指標,但它並非完美。高輪廓係數不一定意味著商業上最有意義的分群。在行銷應用中,我們必須始終將數據洞察與業務知識相結合。一個輪廓係數可能略低但其群組特徵極具行銷價值的分群方案,可能比輪廓係數更高但缺乏實踐意義的方案更有價值。因此,輪廓係數應作為參考而非唯一標準。
III. 綜合應用與行銷洞察:從技術到策略
A. 應用情境與案例發想
- 電商平台:
- 分層聚類: 分析用戶在瀏覽、購物車、購買、評價等環節的行為序列,構建用戶行為的層次金字塔,從而識別出「潛在訪客」、「新晉買家」、「活躍客戶」及「高價值忠誠客戶」。針對不同層次設計差異化的APP通知、郵件行銷或優惠券策略。
- DBSCAN: 透過地理位置數據,識別出特定城市區域內「高密度」的潛在顧客群體,針對這些區域進行線下快閃店活動或投放地理圍欄廣告,提升線下轉化。同時,DBSCAN也能發現那些在偏遠地區但活躍度極高的「孤立群體」,他們可能是利基市場的代表,值得特別關注。
- 金融服務業:
- DBSCAN: 在信用卡交易數據中,DBSCAN可以有效識別出異常的交易模式(如短時間內多筆小額交易後緊接大額交易),這些可能是欺詐行為的噪音點,及時預警。
- 分層聚類: 根據客戶的存款、投資、貸款、壽險等金融產品組合,對客戶進行分層,制定差異化的理財產品推薦與客戶經理服務等級。
- 媒體與娛樂產業:
- 分層聚類: 分析用戶的觀影歷史、點擊偏好、評分數據,構建用戶對內容偏好的層次結構,實現更精準的個性化內容推薦,例如「喜歡科幻片大類中的超級英雄系列,尤其偏愛漫威宇宙」的用戶群。
- DBSCAN: 識別社交媒體上關於特定電影或遊戲話題的「社群熱點」,找出意見領袖,進行口碑行銷或精準社群互動。
B. 行銷洞察與策略建議
將分群演算法應用於行銷,絕不僅僅是技術層面的操作,更重要的是從分群結果中提煉出可操作的行銷洞察。
- 描繪清晰的顧客畫像 (Customer Persona): 對每個分群,深入分析其關鍵特徵(人口統計、行為模式、偏好等),形成具體的顧客畫像。例如:「追求性價比的家庭主婦」、「科技前沿的單身青年」、「注重體驗的銀髮族」。
- 制定差異化的價值主張: 針對不同群體的需求和痛點,設計獨特的產品或服務價值主張。
- 優化行銷通路與溝通訊息: 選擇最適合各客群的行銷通路(社群媒體、電子郵件、實體店面、短影音),並調整溝通語氣與內容,使其更具吸引力。
- 動態調整策略: 市場和消費者行為是動態變化的,分群結果也應定期更新與驗證。利用輪廓係數等指標監測分群的穩定性,一旦發現效果下降,及時重新分群。
- 跨部門協作: 數據科學家與行銷、產品、銷售團隊緊密合作,將數據洞察轉化為實際的業務行動。
C. 數據倫理與偏見考量
在進行消費者分群時,我們也必須正視數據倫理與潛在偏見問題。如果訓練數據本身存在偏見(例如,歷史數據只包含了某類群體,或數據採集過程有失公允),那麼分群演算法可能會複製甚至放大這些偏見,導致某些群體被邊緣化,或面臨不公平的行銷待遇。例如,基於歷史數據的分群可能導致「紅線區劃」(Redlining)式的行銷歧視。因此,數據的選擇、清洗與解讀過程,都應保持高度的批判性與倫理意識。
IV. 挑戰與批判性思維
- 沒有「放之四海而皆準」的演算法: K-Means、分層聚類、DBSCAN各有其適用情境。選擇哪種演算法,取決於數據的特性、業務問題的本質以及對分群結果的解釋需求。批判性思維要求我們不能盲目追求流行,而應根據實際問題做出明智選擇。
- 參數選擇的藝術與科學: 許多分群演算法的表現對參數高度敏感(如DBSCAN的 $\epsilon$ 和
MinPts)。參數選擇往往需要結合領域知識、反覆實驗和評估指標(如輪廓係數)來共同決定。這是一個從科學到藝術的過程,沒有絕對的標準答案。 - 分群的解釋性與可操作性: 數據科學家可能獲得一個在統計學上完美的分群結果,但如果這些群組在行銷上難以解釋、無法區分或無從行動,那麼其商業價值將大打折扣。成功的關鍵在於將統計學意義與行銷意義有效結合。
- 靜態與動態分群: 大多數分群模型都是基於某一時點的數據進行分析的,但消費者行為是動態變化的。因此,如何設計動態的、可適應的分群策略,甚至結合時間序列分析,是未來行銷數據分析的重要方向。
V. 結論
分層聚類、DBSCAN以及輪廓係數,作為數據分析工具箱中的重要組成部分,為行銷專業人士提供了強大的消費者洞察能力:
- 分層聚類以其揭示數據內在層次關係的特點,適用於構建市場結構與顧客金字塔;
- DBSCAN則以其發現任意形狀群組和識別異常值的獨特能力,在地理行銷和異常檢測中大放異彩;
- 輪廓係數則提供了客觀評估分群品質的標準,幫助我們做出更科學的決策。
然而,掌握這些技術僅是第一步。真正的挑戰在於如何將這些技術洞察轉化為具體的行銷策略,如何在數據的客觀性與行銷的藝術性之間找到平衡,並始終保有批判性思維與數據倫理意識,才能創造出真正的價值。(本文由周老師選讀與規劃,並由AI輔助生成內容)
原始文章:
Angadi, S. (2025) AI : Hierarchical Clustering, DBSCAN Clustering, and Silhouette Score/Clustering?. Medium. https://medium.com/@angadi.saa/ai-hierarchical-clustering-dbscan-clustering-and-silhouette-score-clustering-part-41-cb2d97a90557