轉帖|使用教程|編輯:況魚杰|2020-09-07 15:32:25.837|閱讀 824 次
概述:多元回歸是六西格瑪管理中常用的一統計工具,它可以幫助考察多個x對y的影響,并建立可以用于預測的回歸方程。而今天將基于Minitab 19向大家介紹機器學習下的多元回歸。Minitab中已經引入很多機器學習的算法,在Minitab 19中還加入了CART分類樹與CART回歸樹算法,但是今天的重點是多元回歸。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
多元回歸是六西格瑪管理中常用的一統計工具,它可以幫助考察多個x對y的影響,并建立可以用于預測的回歸方程。而今天將基于Minitab 19向大家介紹機器學習下的多元回歸。Minitab中已經引入很多機器學習的算法,在Minitab 19中還加入了CART分類樹與CART回歸樹算法,但是今天的重點是多元回歸。
在建模的時候最不愿意看到兩種情況:過度擬合和欠擬合。使用與擬合模型相同的數據來評估模型,經常會導致過度擬合,如下圖。
而這種過度擬合的模型如果用來預測的話,效果往往不好。
那么什么才算一個好的模型呢?一個好的模型需要在高方差(過度擬合)和高偏差(欠擬合)之間找到一種權衡。
上圖就是由于模型太簡單導致存在高的偏差。
上圖就是由于模型過度擬合導致存在高的方差(為什么說高方差呢?大家試想一下挪動一點試試看)。
那么如何去找到“高偏差”與“高方差”之間的權衡呢?這就需要用到“驗證”法了。
機器學習下的多元回歸把數據分為兩大類:訓練集和測試集。訓練集用來創建模型,而測試集來評估模型的性能。這樣就可以來權衡過度擬合和欠擬合的模型。
從上圖中我們可知,用訓練集來建模時,模型越復雜模型誤差越小,但再來看看測試集你會發現當模型復雜到一定程度,它的誤差會隨著模型復雜度的增加而增大。也就是說,太簡單和太復雜的模型都不能很好的用來預測。這是如何做到的呢?這就要來說說機器學習中的“驗證”法了。
在Minitab 19中的回歸中,加入“驗證”按鈕,豐富了驗證的方法。
驗證法一共有三種:留一驗證法、測試集驗證法和K者交叉驗證法,下面我們一起來看看三者之間的區別。
留一驗證法
這種方法正如其名,留一留一,就是留下一行yi,再用其他所有數據來建模,得到模型后再把留下來這一行代入得到的模型就會得到對應的擬合者,其過程如下所示:
接下來,我們計算預測的殘差平方和(Predicted Residual Sum of Squares)
有了PRESS就可以來計算R-sq(預測)了,到這里是不是很熟悉了。
測試集驗證法
隨機保留一定比例(Minitab 19默認保留30%)的數據(測試集),用剩余的數據來擬合模型(訓練集)。
用測試集數據計算誤差,基于測試集數據的誤差統計匯總信息選擇模型。
另外,此時的殘差分析也有點不同。
K折交叉驗證法
將數據拆分為K個子集或份,以其中一份為測試數據,其它K-1份用于訓練數據來擬合模型。使用測試數據計算誤差,重復k次,每次忽略一份,基于測試數據誤差統計匯總信息選擇模型。
這三種驗證方法,留一法比較實用于小樣本,測試集驗證和K折交叉驗證比較實用于大樣本(在Minitab 19的CART分類樹和CART回歸樹中,當數據行數小于等于 5000 時,K 折交叉驗證方法為默認方法)。另外,在Logistic回歸中僅使用測試集驗證法。
最后,如果您感興趣,不妨再去試試Minitab 19中的逐步回歸,您也會有新發現哦!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:Minitab Users Group ,何茂林