原創|行業資訊|編輯:陳俊吉|2016-11-17 16:12:03.000|閱讀 4335 次
概述:在之前的文章《Bagging 或Boosting讓你的模型更加優化》中,我們介紹了可以通過Bagging或Boosting技術,使得模型更加穩定和準確率更高,那么今天要介紹的隨機森林算法,本身的算法邏輯已經使用了Bagging技術,來構建多棵樹,最終實現構建“森林”的目的。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
在之前的文章《Bagging 或Boosting讓你的模型更加優化》中,我們介紹了可以通過Bagging或Boosting技術,使得模型更加穩定和準確率更高,那么今天要介紹的隨機森林算法,本身的算法邏輯已經使用了Bagging技術,來構建多棵樹,最終實現構建“森林”的目的。
首先我們先來了解下這個算法,記住幾個要點就可以:
1.在中,隨機森林構建的每棵樹,使用的算法是C&RT,關于C&RT算法的介紹可以參考之前的文章《》;
2.使用Bagging,每構建一棵樹,都是通過隨機選擇樣本數據來構建(有放回的);
3.除了使用Bagging技術,對使用的輸入指標,也隨機選擇。比如說一共有20個輸入指標,每選完一次樣本數據后,會再隨機選擇其中的10個指標來構建樹。
4.最終的預測結果,會綜合前面構建的決策樹通過投票的方式得到最終的預測結果,如果是數值型的預測,則是取平均值做為最終的預測結果。
5.在中,隨機森林算法不僅支持傳統的關系型數據庫,比如DB2、Oracle、SQL Server等通過ODBC可連接的數據庫,也支持Haoop分布式架構的數據,它可以生成MapReduce或者Spark,放到Hadoop平臺上去執行,從而提升整個計算效率。
那么接下來,我們來看下在IBM SPSS Modeler的隨機森林算法實現客戶的流失預測,能給我們呈現出什么樣的結果。
首先,我們創建數據流文件 ,如下圖:
Step1:連接數據源Excel文件,文件內容如下:
Step2:類型節點設置影響因素及目標,如下圖:
Step3:選擇隨機森林算法,并使用默認參數設置生成模型。
該面板主要涉及到模型構建和樹增長兩方面的參數,包括以下內容:
在高級面板中,考慮到對樣本數據選擇的質量要求,該算法也涵蓋了數據準備的內容。
數據準備可設置的參數包括:
Step4:生成客戶流失分析模型。
在生成的模型結果里面,會包括對輸入指標的重要性排序,如下圖:
模型結果中,也會包含在生成的這些樹中,最頻繁出現的規則集,包括決策規則內容、類別、準確性等內容。這些規則集可以協助我們做一些業務解讀。
Step5:可以通過表格查看預測結果。
Step6:通過分析節點查看模型準確率。
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn