原創|行業資訊|編輯:陳俊吉|2016-08-01 11:33:30.000|閱讀 3859 次
概述:本文主要通過運用 IBM SPSS Modeler 中 C5.0 節點所具有的特殊算法對電信客戶的屬性特征進行分析,得出流失客戶的基本特征,以幫助企業管理者對該類客戶的行為特性進行預警分析,采取針對性的措施改善客戶關系,避免客戶流失或者挽留客戶,達到亡羊補牢的效果。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
目前電信運營商面臨著激烈的市場競爭。對電信運營商來說,客戶即生命,如何保持現有客戶是企業客戶管理的重中之重。因此,電信運營商擁有的客戶越多,作為主要成本的前期投資就會越大,企業的利潤也就越大。客戶資源對于電信運營商來說其意義不言而喻,電信運營商之間的競爭實際上就是對客戶資源的競爭??梢哉f,未來的電信行業,得客戶者得天下。
數據挖掘在電信領域有著廣泛的應用:計費分析、客戶細分、電話欺詐、客戶流失預警分析等等。客戶流失預警分析是通過數據挖掘,發現和分析出客戶的許多屬性特性和行為特征,從而找到流失客戶的特征,為企業挽留這類客戶提供決策參考。
本文主要通過運用中 C5.0 節點所具有的特殊算法對電信客戶的屬性特征進行分析,得出流失客戶的基本特征,以幫助企業管理者對該類客戶的行為特性進行預警分析,采取針對性的措施改善客戶關系,避免客戶流失或者挽留客戶,達到亡羊補牢的效果。
讀入電信客戶數據,數據有多達 42 個字段,其中包含一些客戶個人信息,例如年齡、婚姻狀況、地址、收入、教育程度、行業、退休、性別、居住地和客戶類別, 還包含一些客戶使用電信服務信息,例如使用電信服務時間,是否開通無線服務,是否開通語音信箱服務,是否開通親情號服務,以及上月基本話費,上月長話費,上月上網費,累計基本話費,累計長話費,累計上網費等等。將流失字段 churn 角色設置為目標。將所有其他字段的角色設置為輸入。
由于數據包括多達 42 個字段,我們將先進行數據準備階段。數據準備是數據挖掘最重要的階段之一,通常需要花費大量的時間。據估計,實際的數據準備工作通常占 50-70% 的工程時間和工作量。在前期的業務理解和數據理解階段投入足夠的精力可以將對這一階段的投入降至最低,但您仍需花費大量的精力在建模前做數據準備工作。
首先通過使用“特征選擇”節點,刪去不能為預測變量 / 目標之間的關系添加任何有用信息的預測變量或數據。將數據源節點鏈接到“特征選擇”節點,雙擊打開“特征選擇”節點。
可以看到用戶可以選擇定義缺失值最大百分比,單個類別中記錄的最大百分比,作為記錄百分比的最大類別數,最小變異系數,最小標準差,來進行數據選擇。這里保持默認設置,運行流。打開生成的模型塊如下 ;
3個字段分別由于單個類別過大,缺失值過多以及變異系數低于閾值而不會被選定作為輸入字段。讓我們進一步解釋一下。單個類別中的記錄最大百分比篩選相對于記錄總數而言,同個類別中具有過多記錄的字段。例如,如果數據庫中 95% 的客戶開同一類型的車,則此信息無助于區分客戶。任何超過指定最大值的字段都將被篩選掉。我們通過圖形看一下 retire 字段。選擇“分布”節點連接到讀入數據的數據源節點,選擇 retire 字段,運行流。可以看到 retire 字段中,確實有 95.3% 的人都是未退休的人。此信息無助于區分客戶。
字段 logwire 由于缺失值的最大百分比超過“特征選擇”節點中定義的 70% 而被篩選出。顯而易見,具有過多缺失值的字段,幾乎不提供任何預測信息。我們先直觀的用“表”節點來觀察一下這個字段,可以看到字段中確實有許多值是缺失的 $null$ 值。
那么到底缺失比率到底是多少呢,我們用“數據審核”節點來看一下具體的統計分析值。將“數據審核”節點連接到讀入數據的數據源節點,選擇 logwire 字段,運行流??梢钥吹?logwire 的有效數據是 296 條,相對于總的 1000 條數據,它的缺失比率為 70.4%, 高于“特征節點”定義的 70%。
而 logequi 字段由于變異系數低于“特征選擇”節點中定義的最小變異系數 0.1 而被篩選掉。此度量值是輸入字段標準偏差與輸入字段均值之間的比值。如果此值接近 0,則變量值的變異性就不高,則信息無助于區分客戶。
除了這三個字段,我們還將濾除非重要性的字段。重要性是在建模之前在“特征選擇”節點中定義的,我們建模時使用的是它的默認值,這里重新打開“特征選擇”節點,到“選項”選項卡。
可以看到重要性是基于 Pearson 分布的,當值小于 0.9,模型將認為該字段是不中要的。重新回到之前生成的模型塊,可以看到從字段 marital 開始,重要性是非重要的。我們將濾去這些字段,在模型塊菜單中選擇生成過濾器,選擇“所有排列的字段”/“重要“并單擊確定。
將生成的過濾節點連接到數據源節點,打開過濾節點,可以看到許多字段被過濾掉了。實際上通過以上的數據準備階段,源數據的 42 個字段已被降低到 28 個字段,這些字段將用來建立模型,分析客戶流失。
在最終建模預測客戶流失之前,我們還需要對這 28 個數據進行分析,識別所有含有大量缺失數據的字段。這里我們再次運用“數據審核節”節點。將數據審核節點附加到生成的“過濾”節點后,運行流。
可以看到唯一需要修改的字段是 logtoll,其有效值比例小于 50%。通常我們對于這種有效值比較低的字段的做法是用它的均值代替它的空值與無效值,這里我們看到,它的均值是 3.240。接下來,我們用“填充”節點來實現對空值與無效值的替換。如下圖所示,對于字段 logtoll 的空值和無效值,將用均值 3.240 替代。
這里我們完成了數據準備階段,接下來我們就可以真正建立模型了。我們選擇 C5.0 節點創建模型
利用 C5.0 所具有的函數定義將屬性進行排列,具有最高信息增益的屬性選作給集合 S 的測試屬性。創建一個根節點,并以該屬性標記,對屬性的每個值創建分支,然后遞歸建樹,可構造一個樹狀結果圖。其中每一個節點都是屬性中具有最大增益的屬性,生成的樹狀結果圖如下可見:
從這張圖上,我們可以清楚的看到,對于從根到樹葉的每條路徑創建一個規則,以現有形式條件分類規則,組成規則集。沿著給定路徑上的每個屬性,葉子節點包含的類預測,形成后的部分,將規則存入規則庫。從圖 1 中可以看出,本地通話費小于等于 4.976 分鐘 / 月為分類條件,可以將現有客戶分成兩個集合;然后又根據性別,將其中一個集合再次劃分為兩個字集合;還可以通過年齡、收入、國際長話費時間等再細分,以此類推。
從圖 13 樹狀分析結論來對某電信公司主動流失客戶的具體情況進行分析,可以看出在本地通話費小于等于 4.976 分鐘 / 月的人群中客戶最容易流失,這是因為這一部分人大多有相對穩定的工作、收入相對較高,基本上每人都有自己的移動通信工具,孩子較大且大多在外讀書或者已經上班,家中很少有人在,因使用頻率低而銷戶。本文認為,為挽留這類客戶,就應該針對他們工作相對穩定并已經定性、不需要為打拼天下花大量的時間和精力、需要決策而必須了解和掌握大量信息、休閑娛樂的時間相對較多而且固定等特點,采取“固話 + 寬帶”綁定的方法一定會受到他們的歡迎。
年輕 e 族(年齡 , 小于等于 39)收入少、趕新潮、思維活躍、攀比心理較強,因而用以受到新的競爭因素影響而成為易流失的客戶,針對這部分人的情況,可以采用各種優惠辦法,或贈送時尚彩鈴,或發展為各種等級的 VIP 會員等辦法,來增加對年輕人的吸引力。
年收入低于 38950 元的低收入群體也是易流失客戶,電信公司可以針對這類低收入客戶,采取零月租,接聽免費,贈送話費等實用措施,留住低收入客戶。相對應的就有年收入高于 51669 元的客戶,可能這類客戶很多競爭公司會來拉攏,這類客戶會因為需要聯系業務或是別的要求,經常需要打電話,所以電信可以投其所好,對這類稍高收入群開辦套餐,比如 200 元包月任意打、且免除漫游費等優惠活動。(等等可根據其他細分情況提出有針對性的挽留優惠活動)
另外,對易流失客戶群 , 采取提高服務質量(如進行客戶滿意度調查、客戶投訴分析、客戶咨詢和查詢焦點分析等)、適當的優惠贈送活動等辦法來提高競爭力,加強企業與客戶之前的感情溝通,從而留住客戶。
圖 14 可以看出,建模和評估模型得出來的結果幾乎差不多,而且準確率可以達到 90% 以上。實驗結果表明,使用該算法進行客戶流失的分析和預測是可行的和有效的,它可以幫助管理者更好地了解客戶的流失受到哪些因素的影響,以便在今后的市場營銷中有針對性的對那些客戶流失率高的客戶做好服務工作,防止客戶的流失引發的經營危機,這對于提高公司競爭力、改善客戶關系具有重要意義。
客戶資源是電信公司的生命,保留并鞏固客戶資源對電信公司來說意義重大。C5.0 節點是數據挖掘中一個常用的節點,其算法理論清晰、方法簡單、適用于處理大規模的數據問題,因此是一種知識獲取的有用工具。將 C5.0 算法應用于客戶流失分析,能夠幫助電信公司深入了解客戶流失的原因,改進客戶服務,對提高客戶的留存率,具有十分重要的應用價值。
spss modeler:
spss statistics:
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn