原創|行業資訊|編輯:陳俊吉|2016-08-01 09:55:51.000|閱讀 805 次
概述:商業保險公司希望通過分析以往的固定資產保險理賠案例,能夠預測理賠金額,借以提高其服務中心處理保險理賠業務的速度和服務質量,并降低公司運營風險。業界領先的預測分析軟件 IBM SPSS Statistics 提供了強大的線性回歸分析功能,能夠有效地解決此類問題。本文結合該商業實例介紹了線性回歸模型的基本概念,以及使用 Statistics 進行線性回歸分析,解決該商業問題的基本步驟和方法。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
和 作為 IBM SPSS 軟件家族中重要的成員,是專業的科學統計、數據挖掘分析工具,其具有功能強大,應用廣泛的特點。其核心 組成部分——預測分析模型,不僅是軟件功能實現的關鍵,同時也是軟件應用的關鍵。
Statistics 中的模型側重于統計分析技術, 而 則側重于數據挖掘技術。它們都依據現有數據,運用某個或某幾個特定的算法,來預測用戶所關注信息的未來值。Statistics 和 Modeler 提供眾多的預測模型,這使得它們可以應用在多種商業領域中:如超市商品如何擺放可以提高銷量;分析商場營銷的打折方案,以制定新的更為有效的方案;保險公司分析以往的理賠案例,以推出新的保險品種等等,具有很強的商業價值。
和 Modeler 產品中含有大量基于高級數學統計算法的預測模型,為了保證算法的嚴密性及結果的精確性,模型往往還需要許多詳細的參數設定,這樣就要求用戶具有一定的統計專業知識,只有理解預測模型中的各項設置及運算結果的真實意義,才有可能結合結果做出正確的決策判斷;另外,為了滿足不同行業用戶的需求,Statistics 和 Modeler 涉及到數學領域中多個不同的范疇,即使專業用戶也很難了解所有模型,從而挑選出最適合他們應用的模型。
因此,為了讓更多的用戶更好更準確地使用我們的產品,最大地發揮其商業價值,我們將通過一系列的金喜正規買球相關的文章來介紹 IBM SPSS 軟件家族中 Statistics 和 Modeler 的典型預測模型以及他們在解決相應的商業問題中的實際應用。
本系列文章從實際問題出發,通過一些實際生活中常見的商業問題來引出 IBM SPSS 軟件家族中的典型預測模型,手把手地指導用戶如何在軟件中對該模型進行設置,如何查看運行結果,講解運行結果的真實意義,最后引申到如何將該結果應用于解決這個具體的商業問題中來。用這種最直觀簡單的方式使即使缺乏統計學背景的用戶也能容易地理解這些預測模型,從而很好地使用我們的產品。 同時,文中也涉及了一定的統計知識,使具有專業知識的用戶能依此線索盡可能多的了解我們的產品的方方面面,從而選擇最適合他們問題的模型。
下面,我們將會陸續給大家介紹 IBM SPSS 軟件家族中的 和 包含的典型預測模型。
商業保險公司經常需要受理客戶的理賠要求,這些以往的理賠案例記錄就構成了經驗數據。保險公司希望根據經驗數據分析影響理賠金額的因素,以及影響程度的定量關系, 并使其服務中心能夠在處理客戶理賠案例的電話交流中,在得到相關保單信息和索賠要求之后立刻預估出理賠金額,縮短理賠處理時間,從而提高其服務質量。并且通過進一步分析,為公司降低運營風險提供決策支持。
這里我們主要研究和固定資產相關的理賠案例。理賠案例數據的主要變量信息如表 1 所示。其中,測量尺度為標度測量的變量是連續型變量,測量尺度為名義測量或有序測量的變量是離散型變量。
字段名 | 含義 | 類型 | 測量尺度 |
---|---|---|---|
claimid | 理賠案例 ID | 字符串 | Nominal(名義測量) |
incident_date | 事故發生日期 | 日期 | Scale (標度測量) |
claim_type | 理賠類型 | 數值 | Nominal |
uninhabitable | 固定資產是否不易居住 | 數值 | Nominal |
claim_amount | 理賠金額 ( 千元 ) | 數值 | Scale |
fraudulent | 是否為欺詐索賠 | 數值 | Nominal |
policyid | 保險單 ID | 字符串 | Nominal |
policy_date | 投保日期 | 日期 | Scale |
coverage | 保險責任范圍金額 ( 千元 ) | 數值 | Scale |
deductible | 可扣除金額 | 數值 | Scale |
townsize | 居住城鎮大小 | 數值 | Ordinal(有序測量) |
gender | 性別 | 數值 | Nominal |
dob | 出生日期 | 日期 | Scale |
edcat | 受教育程度 | 數值 | Ordinal |
job_start_date | 開始工作時間 | 日期 | Scale |
retire | 是否已退休 | 數值 | Nominal |
income | 家庭收入 ( 千元 ) | 數值 | Scale |
marital | 婚姻狀況 | 數值 | Nominal |
reside | 家庭成員人數 | 數值 | Scale |
occupancy_date | 開始居住日期 | 日期 | Scale |
primary_residence | 固定資產是否作為主要住所 | 數值 | Nominal |
線性回歸模型是一個應用廣泛的模型分析方法,對解決這類問題非常合適。 軟件是一個被廣泛使用的統計分析和預測軟件,它提供了十分強大的線性回歸分析功能。本文將介紹線性回歸模型的基本概念,以及如何使用 Statistics 當中最新的“自動線性建模”功能來解決這個商業案例。
如果我們用變量來描述客觀存在的事物,那么掌握變量(事物)間的內在規律并借以指導我們的行為是十分重要的。有些變量間的關系可以稱為確定性的關系,比如銷售額 y 與銷售量 x 之間的關系可以表示為 y=p*x(p 是商品單價)。但有些變量間的關系就不能用這種確定性的函數來表達,比如:工資收入與教育程度的關系,健康程度與年齡的關系,等等。對于這類 非確定性關系,我們需要從以往的大量數據當中,通過統計分析方法來確定他們之間的關系,并用適當的數學形式進行描述。
回歸分析就是一種用來確定兩個或兩個以上變量間基于統計的定量關系的分析方法。用這種方法得到的變量間關系的數學描述就是回歸模型。如果模型所描述的變量關系是線性 的,則被稱為線性關系。其中,一元線性回歸描述的是一個變量(主要因素)對另一個變量的影響。而現實生活中應用更多的多元線性回歸,即多個變量對某一個變量的影響。我們可以 用下面的公式來表達多元線性回歸模型:
公式 (1) 當中,Y 被稱為因變量 ( 或目標變量 ),Xj(j=1~n) 被稱為自變量 ( 或預測變量 )。b0 被稱為截距 ( 或常數項 ),bj(j=1~n) 是自變量的系數,被稱為回歸系數 ,表示當其他自變量不變,Xj 每改變一個單位時,因變量的平均變化量。注意公式 (1) 是相對于整個樣本數據的,如果從個體角度 ( 比如單個理賠案例 ) 來看,線性回歸模型可以被改寫 為公式 (2) 的形式,其中 ei 是隨機誤差,被假定為服從均數為 0 的正態分布,即對每一個個體而言,當知道所有自變量取值時,我們能確定的只是因變量的平均取值,個體的因變量具 體取值是在平均值附近的一個范圍內,而具體值與平均值之間的差異 ( 即 ei) 被稱為殘差,是回歸模型對各種隨機的、不確定的影響因素的統一描述。
建立線性回歸模型的主要目標就是通過統計方法對回歸系數進行參數估計,確定上述線性表達式。在此基礎上,我們可以進行各種分析,獲取有價值的信息。
通常來說,和其他統計分析與數據挖掘方法類似, 線性回歸分析包括建立模型、模型評價和利用模型進行預測等幾個步驟。在正式建模前,有時需要對數據進行預處理,我們將在后面進行介紹。
我們可以從樣本數據出發,利用回歸分析確定變量間的線性表達式,即用統計方法估計出線性表達式當中每個回歸系數的取值,這就是建立模型的過程。之后,我們可以對這個線性表達式進行可信程度的統計檢驗,并評價模型的質量,也可以對模型做進一步的分析,尋找出在影響因變量的多個自變量中,哪些自變量對因變量的影響更為顯著,哪些自變量對模 型的貢獻更加重要,這些都是模型評價的過程。然后,我們可以將這個關系表達式運用到新的數據集上,在知道所有自變量取值的情況下,根據關系表達式計算出因變量的取值,并利用統計方法評價預測值的精確程度,這就是利用已經建立好的模型進行預測的過程。
作為 IBM 分析與預測解決方案的重要組成部分, 是一款面向商業用戶、數據分析專家、科學統計程序設計人員等具有不同知識背景的用戶的、 綜合性的、易于使用的科學統計和預測分析工具。其操作簡便,分析準確、結果顯示直觀明了,一直以來就被廣泛使用。
在 中的 Regression(回歸分析)菜單中包含的功能模塊很多,包括線性回歸分析和非線性回歸分析。其中能夠做“簡單線性回歸”和“多元線性回歸”分析的模塊有 Linear( 線性回歸 ) 模塊和 ALM 模塊。Linear 模塊早已被廣泛應用,其功能強大,操作相對比較復雜,更適合具備專業知識的用戶使用。ALM 模塊,全名叫做 Automatic Linear Modeling(自動線性建模),可以幫助我們用簡單的操作完成多元線性回歸分析,并且能夠處理自變量當中存在離散型變量的數據,是從 Statistics 19 開始新增加的功能,既能夠滿足專業用戶的需要,也能夠方便普通用戶進行線性回歸分析。下面,我們重點講解用 Statistics 進行數據預處理和使用 ALM 進行分析的步驟。
數據的質量好壞對建模的質量會產生很大的影響。質量不好的數據會導致模型無法反映真實的關系。因此,我們需要先對原始數據進行預處理,消除那些影響建模的因素。預處理 操作包括:調整日期和時間數據,處理離群值和缺失值,合并離散型變量的類別,調整測量尺度等等。
我們可以在 Statistics 中手動進行數據預處理,圖 1 顯示了本商業實例中的部分數據在預處理前后的取值情況。第一列 incident date(事故發生日期)的原始數據格式是“月 - 日 - 年”,我們必須將它們轉換成一個數值才能進行數值計算和建模,預處理方法是將日期數據轉換為距離某參考日期的月份數目。在本例中我們選擇當前日期為參考日期,于是日期被轉換為第二列顯示的負實數。第三列 income(家庭收入)當中存在一些離群值,比如第 2303 行當中的收入 1385(千元),遠遠高于平均水平。為了使模型不被這些數量不多但很影響平均值的數據所破壞,偏離真實的擬合曲線(或直線),需要用特定的算法將其取值改變為一個合理的數值。因此,在第四列中該離群值被一個相對接近平均值的數值所取代。對于第五列“教育水平”, 原始數據當中類別比較多,有“高中未畢業”、“高中水平”、“大學水平”等五種類別,分別用 1-5 代表。預處理過程會對數據進行分析,必要時對類別進行歸并,以使其與目標變量的關聯最大化,在本例當中,發現高中以上水平四個類別的理賠案例其特征比較相似,因而歸并的結果是只有兩個類別,即“高中未畢業”與“高中以上水平”,用 0 和 1 表示,如第六列所示。
Statistics 軟件當中有一個自動預處理模塊,即 ADP,其全稱為 Automatically prepare data(自動數據準備),用戶在使用 ALM 進行建模之前,可以選擇預先執行 ADP,以提高數據的質量。這個過程在后臺被執行,使用者不用太關心。經過預處理的數據,其變量名會在后面增加一個“_transformed”后綴。
首先我們要通過 Statistics 的菜單“File”->“Open”->“Data …”打開理賠案例數據文件。在數據集界面中,左下角顯示了兩個視圖的 Tab 頁:Data View(數據視圖)和 Variable View(變量視圖)。數據視圖用來顯示數據文件當中實際的數據。變量視圖則顯示了數據文件當中各個變量的相關信息,比如變量名稱、存儲類型、標簽和測量尺度等等,其作用相當于數據庫當中的元數據。
然后,我們通過菜單“Analyze”->“Regression”->“Automatic Linear Modeling …”來打開 ALM 模塊的操作對話框, 如圖 2 所示:
既然是要分析和預測理賠金額,我們當然選擇 Cost of claim in thousands(理賠金額 ( 千元 ))作為因變量。在 Fields( 字段 )Tab 頁當中,把該變量選入到 Target(目標)文本框當中。像理賠案例 ID、是否為欺詐索賠和保險單 ID 這幾個變量,和本次分析目的關系不大,被留在左邊的文本框當中,先不予考慮。剩下的變量就統統作為自變量,選入到 Predictors(inputs)(預測變量 ( 輸入 ))文本框當中。
我們打開名為 Build Option(構建選項)的 Tab 頁,如圖 3 所示:
選擇 Basics(基本選項)子頁面, 可以看到默認選擇了 Automatically prepare data 選項,這個選擇會在運行 ALM 之前首先運行 ADP,對數據進行預處理。
打開 Model Selection( 信息選擇 ) 子頁面,如圖 4 所示 :
在 Model Selection method(信息選擇方法)中默認選擇了 Forward Stepwise(前向逐步)方法。在 Forward Stepwise Selection(前向逐步選擇)區域當中的 Criteria for entry/removal(輸入 / 刪除標準)下拉框中,有“Information Criterion AICC(信息準則 (校正的 Akaike))”、“F Statistics(F 統計)”、“Adjusted R2(調整后的 R2)”和“Overfit Prevention Criterion(過度擬 合防止標準(ASE))”幾種判斷標準。默認選擇“信息準則 AICC”。我們不改變這些默認設置。點擊 Run(運行)按鈕,可以看到一個新的窗口被打開,這就是用于顯示建模結果的 Output(輸出)視圖。如圖 5 所示:
在標題 Automatic Linear Modeling 下面,我們可以看到建模所使用的數據文件的系統路徑名。緊接著,Case Processing Summary(案例處理匯總)表格顯示了總共有 4415 條數據被包含,而被排除的無效數據為 0 條。 在表格的下面,是 Model Viewer(模型瀏覽器)。它提示用戶可以通過雙擊激活它。我們雙擊它,打開模型瀏覽器,如圖 6 所示:
模型瀏覽器首先給我們展示的是圖 6 當中的 Model Summary(模型概要)視圖。從中我們可以看出:目標變量(即因變量)的名稱是“理賠金額”,而且“自動數據準備”功能被設置為“開”。而 Model Selection Method(信息選擇方法)采用了 Forward Stepwise。而 Information criterion(信息準則)的取值是 39.889,我們可以用這個值對本模型和用其他方法建立的模型進行比較。
我們從模型顯示器左邊較小的示意圖中,打開第二張圖:“自動數據準備”,如圖 7 所示:
可以從 Action Taken 一列的說明文字中看到:Date of incident(事故日期),Date of Occupancy(居住日期)等變量的數據已被轉換成距離參考日期的月份數。變量 Household income in thousands(家庭收入 ( 千元 ))的離群值也已被替換。而變量 Level of education(教育水平)的類別也被合并,使其和目標變量的關聯最大化。 讓我們打開 Model Building Sumary(模型構建匯總)視圖。如圖 8 所示:
可以看到,共有 4 個自變量被選入到最終的模型,如圖第 4 列所示,它們是“理賠類型”、“保險責任范圍金額”、“固定資產是否不易居住”和“居住城鎮大小”。這些變量在模型當中被稱之為 Effect(效應)。Forward Stepwise 是通過迭代的過程建模的。從視圖中可以看出,迭代過程總共有 4 步,變量“理賠類型”在第一輪迭代中就被選入模型,變量“保險責任范圍金額”在第二輪迭代中被選入模型,以此類推。我們選擇的用于判斷模型好壞的標準是 AICC,該標準是取值越小越好??梢钥吹剑谒牟降K止時取得的 AICC 值最小。
那么,在被模型選入的自變量當中,到底哪些變量在模型當中更為重要,或者說哪些變量對因變量的影響更大呢?讓我們來看看 Predictor Improtance(預測變量重要性)視圖。如圖 9 所示:
該視圖按照變量的重要性進行了排序,重要性判斷準則取值越大,柱狀圖越長,變量也越重要??梢院苋菀椎乜闯?,“保險責任范圍金額”是最重要的變量,“理賠類型”次之,而“居住城鎮大小”的影響力是最小的。
我們已經知道,多元線性回歸模型主要是由線性表達式的回歸系數確定的。下面,我們就來看看模型最重要的信息——回歸系數的取值。打開 Coefficients(系數)視圖,如圖 10 所示:
從圖中的連線數目可以看出,系數個數明顯比變量個數多,對于包含有常數項和離散變量的模型,其模型項(或參數項)個數往往多于變量個數。離散變量的取值不是連續的,而是分散、有限的幾種類別,比如 Claim Type(理賠類型)就有 4 種類別。模型將離散變量的每一種類別作為一個模型項,而將一個連續變量作為一個模型項,每個模型項都有一個系數。因此,連續型變量 Coverage(保險責任范圍金額)對應一條連線 , 理賠類型的三種類別對應三條連線(有一種類別的系數值為 0,沒有顯示)。從模型項對應連線的粗細可以大致看出其顯著性水平,顯著性水平越高其連線越粗,在模型當中越重要,這從另一個角度反映了該模型項對應的變量的重要程度。藍色的連線表明該系數為正值,說明該模型項與目標變量是正的線性關系的,產生積極影響,其取值增大時目標變量取值也增大。而黃色的連線表明該系數為負值,與目標變量是負的線性關系,產生消極影響。
我們通過視圖下方的下拉框,將該視圖的顯示格式從圖表格式改變為表格式,如圖 11 所示:
我們可以從系數的取值中分析出這些模型項與因變量之間的定量關系。比如“保險責任范圍金額(千元)”的系數值為 0.261,它表明當其他模型項的值不發生變化時,“保險責任范圍金額”每增加 100(千元),因變量增加 100*0.261=26.1(千元)。類似的,理賠類型 2(污染物損害理賠)的系數值是 137.226,而理賠類型 3(風災損害理賠)的系數值為 0(一般來說,對于一個離散變量的所有類別對應的模型項,總有一個模型項的系數取值為 0,作為比較其他類別的基準),它說明一次污染物損害理賠要比風災損害理賠要高出 137.226(千元),是所有理賠類型當中理賠金額最高的。當然,所有這種定量關系都是基于統計方法算出的估計值。
還有一種參考價值比較高的視圖,是 Estimated Means(估計的平均值)視圖,如圖 12、圖 13 所示。它為我們顯示了前十個顯著效應 (p<0.05) 的估計均值圖表。這為我們提供了另一種視角,用直觀的圖形方式幫助我們分析變量間的關系。比如,圖 12 反映的就是“保險責任范圍金額”和“理賠金額”之間的關系。可以看出它們之間有著明顯的線性關系。也就是說,對于保險責任范圍金額較大的保單, 其理賠額度也更高。
我們再來看看反映“理賠類型”與“理賠金額”之間關系的均值估計視圖,如圖 13。可以看出,相對于其他兩種理賠類型,“污染災害理賠”和“火 / 煙災害理賠”與高額理賠的關聯更加密切,一般會要求高額賠付。
以上就是模型瀏覽器當中一些主要的分析結果,它們用直觀的圖表描述了線性回歸模型,提供了詳細準確的分析結果,可以為我們的決策提供有力的支持。
ALM 擁有不同的建模方法,我們可以通過比較不同方法建立的模型,使我們對問題的分析更加全面和準確。下面我采用 Best Subsets 方法來建模。
如圖 14 所示 , 重新打開 ALM 的對話框,選擇 Build Option 頁 , 在 Model Selection method(信息選擇方法)中選擇 Best Subsets(最佳子集)方法。在 Best Subsets Selection(最佳子集選擇)區域當 中的 Criteria for entry/removal(輸入 / 刪除標準)下拉框中,有“信息準則 AICC”、“調整后的 R2” 和“過度擬合防止標準(ASE)”幾種判斷標準。我們選擇信息準則 AICC 建模。
模型建好后,打開模型顯示器當中的 Model Summary(模型概要)視圖,如圖 15 所示。
可以看到,對于 Best Subsets 方法建立的模型,Information criterion(信息準則),即 AICC 的值是 39.889, 和 Forward Stepwise 方法建立的模型 的 AICC 值相同。
打開模型構建匯總視圖視圖,如圖 16 所示。
Best Subsets 方法不僅僅只建立一個模型,而是采用窮盡搜索的方法,在所有可能的模型當中選擇 10 個(默認設置)最優的模型,每個模型所包含的自變量有可能不相同。其中最好的模型被顯示在最左邊,其 AICC 值最小。該模型當中的自 變量和使用 Forward Stepwise 方法建立的模型當中的自變量完全相同。該模型的 AICC 值就是模型概要視圖當中顯示的信息準則值。兩種方法最終確定的模型的 AICC 值相同,被選入的自變量也相同,這說明 Forward Stepwise 方法對本案例數據比較適用,能夠找到最好的模型。
一般來說,Forward Stepwise 方法采用迭代方法,不能保證每次都搜索到最優的模型,通常會找到接近最優的模型。而 Best Subsets 方法,總是能夠選出最優的模型,但運行時間相對較長。因此,對于自變量非常多的數據,一般選 擇 Forward Stepwise 方法。而對于自變量不多的數據,Best Subsets 方法則是更好的選擇。
如果要在原始數據上計算理賠金額的預測值,并和其原值進行比較,看模型擬合的好壞,可以打開 ALM 對話框,選擇 Model Option( 模型選項 ) 頁面,如圖 17 所示。選擇“Save predicted values to dataset(將預測值保存到數據集中)”。
這樣,數據集視圖當中會增加一列,顯示計算出的理賠金額的預測值。如圖 18 所示。
為了方便對新數據進行預測,我們可以如圖 17 所示,選擇 Export model(導出模型)選項,并指定包含 PMML 文件的 zip 包的文件名和路徑,就可以在建模后輸出模型到 PMML 文件當中。 我們可以用 Statistic 對新數據進行預測,也可以使用 IBM SPSS Modeler 或其它廠商的軟件,利用輸出的 PMML 對新數據進行預測。
運用 ALM 可以對商業保險公司的固定資產理賠案例進行詳盡的分析。保險公司的服務中心采用該模型在電話交流時進行實時預測,能夠減少理賠處理時間,提高了服務水平。ALM 建立的線性回歸模型還可以提供很多信息,比如哪些變量重要性高,對理賠金額影響更大,是積極的還是消極的影響,哪些理賠類型的理賠金額較高等等。有了這些分析結果,保險公司可以有針對性的采取措施降低運營風險,提高效益。
ALM 可以被應用到商業、科研和教育領域等多個領域,有著十分廣泛的應用。無論是專業用戶,還是普通用戶,ALM 都可以提供科學準確的分析和預測,是一個功能強大,使用方便的建模和分析工具。
spss modeler:
spss statistics:
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn