原創|行業資訊|編輯:陳俊吉|2017-02-13 13:09:05.000|閱讀 466 次
概述:本期我們有幸采訪到的嘉賓名叫蘭錦池,2012年碩士畢業,概率論與數理統計專業,崇尚概率論和統計學解決問題的思想,喜愛折騰各種實際數據,愿意跟數據挖掘模型死磕。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
本期我們有幸采訪到的嘉賓名叫蘭錦池,2012年碩士畢業,概率論與數理統計專業,崇尚概率論和統計學解決問題的思想,喜愛折騰各種實際數據,愿意跟數據挖掘模型死磕。
現在他是一名資深工程師,主要負責用戶行為分析和精準營銷相關工作;曾做過某電信省公司的手機用戶行為價值分群、手機終端升級概率預測模型、用戶流失預警模型等。
在蘭錦池看來,工作中最困難的還是數據源的采集和結構化數據的獲取,比如曾經做用戶的手機上網行為畫像,需要采集手機上網日志數據,并轉化為興趣點數據。需要獅提出數據需求、采集規則、計算口徑等非常詳細的方案,期間還得與業務和數據采集部門深入合作。簡而言之,就是,數據分析獅不僅僅是呆板的技術人員,而且能溝通協調、整合資源的多面手。
本期,他帶來了一個電信用戶分群案例,與大家分享。
1、業務問題背景
某省電信運營商e8套餐(寬帶+固話)升級e9(寬帶+固話+手機)的主要業務目標為針對e8客戶加裝電信C網號碼并購買手機,升級為e9融合套餐或e9自主套餐用戶。即,通過電信的自身的寬帶客戶資源,進行精準電話營銷,促使用戶購買手機,從而提升電信在手機市場的占有率。
2、數據理解:e8升e9的數據理解
3、確定分析對象
本環節關鍵點:
縮小分析基礎客戶群范圍,從表中238萬寬帶客戶中篩選出24萬符合業務目標的e8客戶,作為數據挖掘的基礎客戶群
具體步驟:
常用的數據挖掘基礎客戶群篩選維度如下:
分析對象篩選流程:
以e8升e9為例,根據前期業務和數據理解,本次挖掘的基本目標客戶為e8用戶,且在同賬戶下無C網手機。
具體數據樣本選取路徑如下:
注,具體操作方法:
4、變量篩選
以e8升e9案例中變量處理為例,具體篩選流程如下:
5、決策樹模型的建立
(1)選擇模型輸入變量
根據數據準備階段字段篩選結果選擇了9個字段作為模型輸入變量。CHAID節點對應的目標變量和預測變量設置,見下截圖。
(2)模型輸出結果
運行CHAID決策樹節點后,Modeler會根據樣本數據和輸入變量訓練決策樹模型。雖然輸入了9個變量但是CHAID決策樹節點訓練的模型最終生成決策樹所選擇的變量只有5個,分別是寬帶在網時長(PD_PROM_FEE)、固話通話時長(VO_MOU_FIX_AVG)、固話ARPU(MB_FIX_ARPU_AVG)、寬帶在網時長(PD_BB_TENURE)、寬帶流量(VO_BB_VOL)。可以看出,這5個變量在都是具有重要業務含義的字段,基本符合建模目標。
(3)決策樹輸出的初步結果
下圖,是決策樹模型輸出的結果,樹狀結構末端的每個“葉子”,代表一個細分用戶群體。這個決策樹結果共有17個“葉子”節點。
6、模型調優
e8升級e9模型中,決策樹模型驗證調優流程如下:
初步結果判定:
決策樹結果共有17個“葉子”節點,用戶細分群體偏多,部分群體的規模小,占比不足5%,因此需要根據各葉子節點的特征,對決策樹的“葉子”進行修剪合并。
比如,上圖中的節點1(套餐檔位<=68元的用戶),這個節點中的類別“1”用戶占比僅0.56%,較全樣本的整體類別“1”占比0.786%較低,說明套餐檔位<=68元的用戶都是質量較差的部分,加裝3G手機的可能性較低。從選取營銷目標用戶的角度,對這類用戶不需要進行深入分析,因此可以把該節點下面的三層節點都剪裁合并。
模型的調整和優化—子模型的建立
如果認為決策樹的某個子節點對應的決策樹規則不符合業務邏輯,則可選擇該決策樹節點下的樣本再建立一個子模型,從新選擇新的變量。
比如,對上述決策樹模型的結果,在套餐檔位為80~98元且寬帶在網時長13個月以上的樣本分了四個子節點,但是這四個節點的類別“1”占比并沒有遞增或者遞減的規律,這在業務邏輯上很難解釋。因此可針對該條件(套餐檔位為80~98元且寬帶在網時長13個月以上)的樣本數據,再單獨建立一個決策樹模型。
決策樹子模型的建立可參見如下截圖。首先,利用Modeler的樣本選擇節點,選擇套餐檔位為80~98元且寬帶在網時長13個月以上的樣本數據;然后,在決策樹模型的節點選擇輸入變量時,不要選擇寬帶在網時長的字段,即調整輸入變量;這樣Modeler會根據新選擇的樣本和輸入變量建立一個新的決策樹模型(見下圖)。這就建立了一個更具有業務解釋性的決策樹子模型。
7、模型結果解釋
具體分群的數據結果如下:
根據三個主要判斷分群有效的原則,選擇提升倍數在1.3以上、客戶群規模占比5%以上的群體作為主要目標客戶,一共4個客戶群。上述的群劃分規則即建模變量。
通過決策樹模型篩選出目標用戶群后,需要進一步根據不同細分目標群體的消費行為特征來推測客戶的主要業務需求。此時需要根據e8升e9的業務目標,選擇主要的字段來刻畫客戶特征。通常對客戶群各變量的均值來進行描述,具體如下:
因此,具體客戶特征總結描述如下:
轉自:CDA數據分析師
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn