翻譯|行業(yè)資訊|編輯:況魚杰|2020-05-11 14:37:40.960|閱讀 553 次
概述:本文將會介紹利用CART?分類樹和回歸樹的功能解決使用Minitab Statistics軟件中的回歸分析數(shù)據(jù)時,結(jié)果變量是分類變量而不是定量變量時,對邏輯回歸的結(jié)果進行解釋不是很直接或直觀的問題。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
對于所有的服務(wù)行業(yè)或者醫(yī)療行業(yè),在試圖了解客戶或患者的行為這方面都可能具有挑戰(zhàn)性。所以研究人員通常會使用調(diào)查數(shù)據(jù),并經(jīng)常使用Minitab Statistics軟件中的回歸分析數(shù)據(jù)。但是,當結(jié)果變量是分類變量而不是定量變量時,對邏輯回歸的結(jié)果進行解釋不是很直接或直觀。
對于以上問題就需要在Minitab中分析調(diào)查數(shù)據(jù)的另一種選擇,利用CART®分類樹和回歸樹的功能,這是一種基于樹的說明性機器學習技術(shù),最新版本的Minitab Statistics軟件現(xiàn)在可以使用它。
什么是CART?
CART是一種決策樹算法,通過創(chuàng)建一組是或否規(guī)則進行工作,該規(guī)則根據(jù)預測變量或輸入設(shè)置將目標變量或結(jié)果變量劃分為多個分區(qū)。結(jié)果模型以決策樹的形式顯示,該樹說明了如何根據(jù)輸入設(shè)置對目標變量或結(jié)果變量進行分區(qū)。Minitab的CART算法會自動找到最佳的終端節(jié)點數(shù)(也稱為拆分或最終分組),以最大化模型的預測能力。
而選擇這個方法的好處是什么呢?分析完成后,CART的輸出將具有直觀的視覺解釋,因此您不必成為數(shù)據(jù)科學家即可從數(shù)據(jù)中獲得有價值的見解。
注意:Minitab默認情況下顯示詳細的CART樹。右鍵單擊樹,然后選擇“節(jié)點拆分視圖”以查看上方的壓縮視圖。
利用CART充分利用步入式臨床數(shù)據(jù)
現(xiàn)在我們了解了CART是什么,讓我們看看它是如何工作的。
步入式診所鏈從患者那里收集調(diào)查數(shù)據(jù),詢問患者將來再次使用診所的可能性:非常可能,有點可能或不太可能。工作人員還記錄了患者的年齡,從家到診所的距離(英里)和就業(yè)狀況。診所的區(qū)域經(jīng)理特別想了解影響步行患者再次使用診所服務(wù)的可能性的因素。
數(shù)據(jù)的一部分顯示在下方,而條形圖則表示診所的門診病人給出的響應(yīng)。
CART可用于預測分類結(jié)果的可能性,在這種情況下,這是患者返回診所的可能性。Minitab的CART分類引擎提供了一個直觀的界面,可以處理二進制結(jié)果(兩組)或多項式結(jié)果(三個或更多組)。
經(jīng)理將數(shù)據(jù)輸入Minitab后,她選擇Stat> Predictive Analytics>CART®分類,并顯示以下內(nèi)容:
由于存在三個或更多的組,因此她選擇了多項式響應(yīng),然后選擇“Return Apt”作為響應(yīng)或要預測的目標。她通過連續(xù)預測變量和分類預測變量或她將用來進行預測的輸入快速輸入來完成此框。
CART自動處理缺失值,對極端離群值不敏感,并且沒有要檢查的分布,p值或殘差假設(shè),這使得CART易于使用,即使對于初學者也是如此。此外,Minitab的CART功能會仔細地將數(shù)據(jù)分為兩類: 部分數(shù)據(jù)將用于構(gòu)建模型(學習數(shù)據(jù)),而其他數(shù)據(jù)用于評估模型做出新預測的能力(測試數(shù)據(jù))。
CART分析的輸出顯示每個目標變量對的(ROC)曲線下的面積值在0.93或更高。ROC幫助經(jīng)理可視化了她的模型可以很好地預測患者重返診所的可能性。該圖顯示了靈敏度(正確預測為陽性的陽性)與特異性(正確預測為陰性的陰性)之間的關(guān)系。
ROC值為0.70或更高通常被認為對大多數(shù)應(yīng)用有用,因此經(jīng)理很高興找到一個可以如此準確地預測患者將來重返診所的可能性的模型。
經(jīng)理以前曾假設(shè)患者離診所的距離是一個人回訪可能性的最佳預測指標。令她驚訝的是,事實并非如此。CART的相對變量重要性圖清楚地顯示了每個預測變量在確定患者是否會返回診所中的相應(yīng)意義。
最終結(jié)果
快速評估上面的可變重要性圖,發(fā)現(xiàn)患者的年齡是他們再次使用診所的可能性的最佳預測指標,其次是距離,最后是就業(yè)狀況。
CART分類洞察力對患者行為的洞察力幫助診所的區(qū)域經(jīng)理為最有可能返回診所的客戶創(chuàng)建了個人資料,因此中心可以提供更多文獻資料和激勵措施,以確保他們的返回。例如,居住在距診所不到11英里的43歲以下患者中,無論其就業(yè)狀況如何,他們都有可能返回。年齡在82歲以下但年齡在71歲以上的患者可能會返回,而無論距離或工作狀況如何。相比之下,年齡在67歲至71歲之間的人如果住在距離診所11英里以上的地方,則無論其他因素如何,他們都不太可能返回。
Minitab Statistics軟件中基于樹的機器學習算法具有廣泛的應(yīng)用程序,可能有助于找到組織中業(yè)務(wù)問題的答案。如果您尚未開始,我們邀請您立即開始Minitab的免費試用!
您或許想要了解:甚至專家都不知道的Minitab使用小技巧,你確定不來看看?
整理決策樹以撰寫論文:Minitab中的預測分析和根本原因分析
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉(zhuǎn)載自:minitab