轉帖|行業資訊|編輯:陳俊吉|2016-07-04 10:41:46.000|閱讀 191 次
概述:社交網絡分析(Social Network Analysis) 是指基于信息學、數學、社會學、管理學、心理學等多學科的融合理論和方法,為理解人類各種社交關系的形成、行為特點分析以及信息傳播的規律提供的一種可計算的分析方法。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
背景知識:社交網絡分析、數據挖掘、
社交網絡分析(Social Network Analysis) 是指基于信息學、數學、社會學、管理學、心理學等多學科的融合理論和方法,為理解人類各種社交關系的形成、行為特點分析以及信息傳播的規律提供的一種可計算的分析方法。
圖 1 是社交網絡的一個示意圖,其中的節點可以是組織、個人、網絡ID 等不同含義的實體或虛擬個體;連線表示節點之間的關系或信息流動。信息流動的方式有很多,比如郵件,電話,短信,博客,等等。假設 A 經常與 B 和 C 通電話,通過分析 A 的電話 ID 記錄,可以構筑出圖 1 中的簡單社交網絡。從此圖中我們可以看出 A, B, C, 三人中,A 具有較強的影響力。如果 A 獲得了正面或者負面的消息,這消息會很快傳遞給 B 和 C。而 B 與 C 之間的影響力是間接的,只能通過 A 來傳播。
圖 1. 社交網絡示意圖
隨著節點和連線的增加,社交網絡的復雜程度迅速提升。圖 2 展示了一個較為典型的社交網絡。大型和超大型的社交網絡的處理是手工分析方式無法完成的。在過去的二十年中,社交網絡分析領域的快速發展,很大程度得益于計算機計算能力的提升和各種數據挖掘方法的發展。
圖 2. 一個典型的社交網絡
數據挖掘 (Data Mining) 是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。從商業角度去定義,數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。在技術上可以根據它的工作過程分為:數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
圖 3. 數據挖掘
被譽為第一數據挖掘工具的( 原名 Clementine) 是 IBM SPSS 的核心挖掘產品,它擁有直觀的操作界面,自動化的數據準備,和成熟的預測分析模型。使用它,企業可以將數據分析和建模技術與特定的商業問題結合起來,找出其他傳統數據挖掘工具可能找不出的答案。
圖 4. 的操作界面
IBM 兩種社交網絡分析的算法原理
社交網絡分析(SNA)是IBM SPSS Modeler 的常用功能,目前有兩種算法支持這個功能,分別稱作 GA 和 DA。GA 全稱 Group Analysis, 是一種基于群體的分析方法。DA 全稱 Diffusion Analysis,著眼于計算一些人的行為對網絡中其他人的沖擊強度。在 Modeler 中這兩個算法以兩個源節點的形式出現,如圖 5 所示。
1. 根據共有鄰接節點的數量,量化各個節點(也就是張三、李四、王五。。。)之間聯系的強度;
圖 5. GA 和 DA 在 Modeler 15 中以兩個源節點的形式出現
下面我們簡單介紹一下兩者的算法原理。假設我們有過去半年里某地區的電話清單,數據量在百萬到千萬條左右。數據記錄了打電話的人和接收的人,如圖 6 所示。
圖 6. GA 和 DA 的輸入數據 -- 電話清單舉例
GA 收到這些數據后,會進行如下的分析:
2. 保留高強度的聯系,去除低強度的聯系。進行此步驟后,社交網絡會退化成幾個內部聯系多、外部聯系少的次網絡,以及很多孤立的節點。每個次網絡對應一個群體(group),稱為這個群體的核 (kernel);
3. 把那些孤立的節點連到距離他們最近的群體去。上一步里暫時去除的低強度的聯系,在這一步發揮了主要作用;
4. 對各個群體以及群體里的個體進行分析畫像,例如評估群體內每個個體的地位,找出“領袖”,計算群體密度,等等。這些特性將用于后繼應用中,下一節的實例中會進一步展示。
相比之下,DA 的算法原理要更簡單一些。DA 不會將網絡分成群體,而是在原網絡上進行計算。DA 著眼于計算一些人的行為對網絡中其他人的沖擊強度。
收到如圖 6 的數據后,DA 會構筑一個有向加權網絡,如圖 7 所示。網絡中的節點代表人、組織、計算機或者其他信息或知識處理實體;連線表示節點之間的關系或信息流動;連線的方向表示了關系的主動被動方,或者信息流動的方向(通常為雙向,圖 7 省略了此內容)。
DA 還需要有行為發生的人的名單。這里的行為可以是從公司辭職,更換手機服務商,試用了某種產品,等等。這些人被稱作“初始擴散點”(Initial diffusing seeds),由圖 7 中的紅色節點表示。接下來,設定初始擴散點的沖擊強度,然后采用衰敗擴散過程就可以估計出其他節點所受到的沖擊大小。
圖 7. DA 算法解析
社交網絡分析實例:客戶流失預警和病毒式營銷
1.客戶流失預警
最近二十年中,移動通信成為占主導地位的通信介質。在許多國家,特別是發達國家,市場規模已達到飽和的程度,新客戶的獲得主要靠從競爭對手那里贏得。同時,公共法規和移動通信的標準化,讓客戶可以輕松地從一個運營商換到另一個,令市場極不穩定。由于贏得一個新客戶的成本遠遠高于維護一個現有客戶的成本,移動運營商更加重視客戶保留的問題。因此,客戶流失預警已成為一個關鍵的移動商務智能(BI)應用程序。
傳統的客戶流失預警解決方案直接采用數據挖掘技術,根據客戶的呼叫模式(通常由數百個變量描述)構建客戶檔案,然后基于某些代表性屬性預測客戶的流失概率。可用于建模的數據源有很多,包括使用歷史,結算,付款,客戶服務,應用程序,和信用卡資料。
社會網絡分析可以補充和加強傳統的解決方案,使運營商能更根據“早期預警”,更有效地找出潛在的流失客戶,提高保留率。例如,一個客戶的親密朋友流失,社會網絡分析會及時推斷出這個客戶很可能是潛在的流失目標。而傳統的解決方案尋找潛在流失目標時,需要等到這個客戶有顯著的變化(例如減少支出,預付費卡,不充電等)- 這種時候,她的流失很可能已經無法挽回了。
(1)使用 GA 進行客戶流失預警實例分析
圖 8 至圖 10 演示了一個用 GA 進行客戶流失預警的實例。在圖 8 中,GA 源節點接收到一個如圖 6 所示的 CDR 源文件。為方便起見,我們將 GA 源節點的名字直接顯示為 CDR 源文件的名稱 Demo_CDR. GA 源節點使用 GA 算法進行群體的劃分,并計算出基于群體的各種特性值。完成對源文件的分析計算后,計算結果以數據文件的形式被保留在 Demo_GA_KPI。
圖 8. Modeler 流:用 GA 源節點生成特性數據
圖 9 展示了圖 8 中 GA 源節點對其接收到的 CDR 源文件的分析結果。圖的左側是關于群體和個體特征的簡單統計信息,而右圖給出了對應特征更加詳細的統計描述。用戶可以據此了解群體分析的結果,從而修改相關參數以實現最理想的群體劃分和畫像。
圖 9. 用 GA 源節點生成的特性數據
在圖 10 中,我們將利用 GA 分析結果進行建模,用于預測每個客戶所在群體的流失風險。我們用之前由 GA 源節點所產生的數據文件 Demo_GA_KPI 作為源節點。另外,我們還需要一份已流失客戶名單Demo_GA_churner。如果一個組里已流失客戶占總客戶的比例達到一定程度,我們就認為這個群體為流失高危群體,否則為低危群體。圖 10 中左下側的模型以流失高 / 低危群體作為目標變量,用 Demo_GA_KPI 里所包含的群體特征值,以及通過對個體特征值的處理得到的輔助群體特征為預測變量,采用 CHAID 算法進行建模。
圖 10. 流:用 GA 源節點生成特性數據和已流失客戶名單建模,量化預測各個群體的流失風險
群體的流失風險對于群體中個體的流失與否是一個非常重要的參考因素。另外,個體在群體里的角色,地位,等等因素也在一定程度上影響著個體的流失風險。鑒于此,我們將所有這些因素作為預測個體流失的變量,從而得到預測個體流失的模型,如圖 10 右側的流所示。
需要注意的是,在上述建模過程中我們僅僅使用了用戶通話記錄和客戶流失記錄就可以預測群體以及個體的流失風險。然而通常情況下,我們可以有更多的關于用戶人口統計學和消費行為的數據,而這些數據將極大的提升客戶流失預測的精度。
(2)使用DA進行客戶流失預警實例分析
與 GA 不同,DA 源節點不僅需要一個如圖 6 所示的 CDR 源文件,還需要一個“初始擴散點”(Initial diffusing seeds) 的文件,也就是流失客戶的名單。
DA 源節點使用 DA 算法進行擴散分析,從而計算出網絡中個體受到初始擴散點的沖擊強度。沖擊強度的大小將直接影響著個體的流失風險。DA 輸出的特征以數據文件的形式保存下來,并可在隨后應用于生成圖表或建立模型。圖 12 集中展示了使用 DA 源節點產生的特性文件生成分析圖表的一個典型數據流。
圖 11. Modeler 流:用 DA 源節點生成的特性數據量化預測客戶流失風險
2.病毒式營銷
病毒營銷是營銷技術的一種。它利用社交網絡提升品牌知名度或實現其他目標(如產品銷售)。具體的方式是發起人給一些用戶發出產品的最初信息,再依靠用戶自發的口碑宣傳,“讓大家告訴大家”,使其廣泛傳播。因為它的傳輸策略是利用快速復制的方式將信息傳向數以千計、數以百萬計的受眾,類似于自然病毒和電腦病毒,所以被經濟學家稱為病毒營銷。
采用群體分析和擴散分析技術,我們可以設計出一個更為精致的病毒性營銷策略。我們會識別出群體中的“領袖人物”:那些對周圍人影響力大的人,將產品信息發布給他們。借助這些人的影響力,產品的信息可以更為有效的在社交網絡中傳播。我們還可以通過擴散分析技術去量化評估信息傳播的效果。比如,takingtaking 推出新產品,我們可以做如下的工作:
1. 通過 GA 進行網絡分析,發現領袖人物。
2. 針對網絡中的領袖人物發布產品信息,促使他們支持和推薦新產品。
3. 選擇網絡中的領袖人物作為初始傳播種子,通過 DA 進行擴散分析,估算網絡中其他個體購買新產品的可能性。
4. 針對擴散分析預測出的最有可能購買新產品的客戶,營銷人員進行進一步的推銷工作,使得新產品市場導入成功率明顯改善。
總結
本文介紹了 Modeler中兩種 SNA 模塊 GA 和 DA 的算法原理 , 并講解了它們在客戶流失預警和病毒式營銷兩種典型應用。
應用于客戶流失預警時,GA 以海量的通話記錄為輸入,構建出社交網,然后將其分解為群體,計算出包括群體領袖在內的一系列特征值,用于后續建模。DA 則根據海量通話記錄和流失客戶名單直接在社交網絡上對其他客戶所收沖擊進行分析。
GA 和 DA 可以結合起來應用于病毒式營銷的籌劃和分析。其中 GA 用于發現社交網絡中具有強大影響力的個體,而 DA 用于評估出最有可能購買新產品的客戶。
值得一提的是,GA 和 DA 提供的一系列特征可以和傳統的特征無縫鏈接。新特征的引入有助于提高基于傳統特征的模型的性能。這一點在我們做過的很多試點項目中得到驗證。另外,我們也期待隨著社交網絡這一新興事物的發展,GA 和 DA 能夠在更多的領域得到應用。
試用版下載地址:
via:華南IBM大數據支持團隊
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn