翻譯|使用教程|編輯:況魚杰|2020-06-10 11:54:34.703|閱讀 824 次
概述:過度擬合模型是執行回歸分析時需要注意的一個實際問題。 過擬合模型會導致誤導回歸系數,p值和R平方統計量。 沒有人希望如此。本文將會研究一下什么是過擬合模型,以及如何避免掉入過擬合陷阱。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
Minitab Statistical Software是一款無與倫比的可視化統計分析軟件,它會審視當前及過往的數據,以找出趨勢并預測規律、發現變量之間隱藏的關系、可視化數據交互作用并識別重要因素,從而解答最棘手的問題、應對最嚴峻的難題。
過度擬合模型是執行回歸分析時需要注意的一個實際問題。 過擬合模型會導致誤導回歸系數,p值和R平方統計量。 沒有人希望如此。本文將會研究一下什么是過擬合模型,以及如何避免掉入過擬合陷阱。
簡而言之,對于您正在分析的數據而言,過擬合模型過于復雜。 過度擬合回歸模型可以反映您所收集的特定樣本的噪聲,異常和隨機特征,而不是完全反映整個種群。 發生這種情況時,過擬合模型不太可能擬合另一個來自相同總體的隨機樣本,而后者可能會有其自身的怪癖。
一個好的模型不僅應該適合您擁有的樣本,還應該適合您從相同總體中收集的任何新樣本。有關過度擬合回歸模型的危險的示例,請查看以下擬合線圖:
即使此模型看起來可以解釋響應中的很多變化,但對于此樣本數據而言,它太復雜了。在總體中,如此處詳細說明的那樣,在預測變量和此響應之間沒有真正的關系。
推論統計基礎
為了更深入地了解過度擬合的問題,讓我們回顧一下推理統計的基本概念,在該概念中,可以嘗試從隨機樣本中得出有關總體的結論。樣本數據用于提供總體參數和關系的無偏估計,還用于檢驗關于總體的假設。
在推論統計中,樣本的大小會影響您可以收集的有關總體的信息量。如果您想了解更多信息,則需要更大的樣本量。試圖從一個小樣本中獲取太多信息并不能很好地工作。
例如,樣本量為20,您可能會很好地估計出單個總體平均值。但是用總樣本量為20來估計兩個總體均值是一個風險較高的主張。如果您想用相同的樣本估算三個或更多的總體均值,則得出的任何結論都是非常粗略的。
換句話說,嘗試從樣本中學習太多會導致結果不如我們所希望的可靠。在此示例中,隨著每個參數的觀察值從20減少到10到6.7甚至更多,參數估計將變得更加不可靠。一個新樣本可能會產生不同的參數估計值。
樣本量如何與過擬合模型相關
同樣,過度擬合回歸模型的原因是試圖從太小的樣本中估計太多的參數。在回歸中,使用單個樣本來估計模型中所有項的系數。這包括每個預測變量,交互作用和多項式項。結果,可以安全容納的術語數取決于樣本的大小。
較大的樣本允許使用更復雜的模型,因此,如果您要研究的問題或過程非常復雜,則需要足夠大的樣本量來支持這種復雜性。由于樣本量不足,您的模型將不可靠。
因此,您的樣本需要針對每個術語進行足夠的觀察。在多元線性回歸中,每項10-15個觀察值是一個很好的經驗法則。因此,具有兩個預測變量且具有交互作用的模型將需要30到45個觀察值,如果您具有較高的多重共線性或較小的效應量,則可能需要更多觀察值。
避免過擬合模型
您可以通過交叉驗證來檢測過度擬合-確定模型對新觀測值的適應程度。對數據進行分區是一種評估模型如何擬合未用于估計模型的觀測值的方法。
對于線性模型,Minitab會計算預測的R平方,這是一種不需要單獨樣本的交叉驗證方法。為了計算預測的R平方,Minitab會系統地從數據集中刪除每個觀察值,估計回歸方程,并確定模型對移除的觀察值的預測程度。
在預測刪除的觀察結果時表現不佳的模型可能符合樣本中的特定數據點,并且不能推廣到全部人群。
過度擬合問題的最佳解決方案是避免。確定重要變量并考慮可能要指定的模型,然后提前計劃以收集足夠大的樣本來處理您的響應變量可能需要的所有預測變量,交互作用和多項式項。
對Minitab的更多應用感興趣嗎?聯系在線客服了解更多產品詳情。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:minitab