轉(zhuǎn)帖|行業(yè)資訊|編輯:陳俊吉|2016-06-07 10:34:41.000|閱讀 547 次
概述:本文主要給大家介紹下SPSS Modeler最新版本 17.0新增空間數(shù)據(jù)分析的相關(guān)功能及Demo演示。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
作為大數(shù)據(jù)分析應(yīng)用層數(shù)據(jù)挖掘平臺,受到業(yè)界的廣泛好評與喜愛,這也依賴于產(chǎn)品本身技術(shù)的不斷的發(fā)展與完善,IBM SPSS的研發(fā)團隊在中國歷史文化名城—西安,擁有超過300多名技術(shù)研發(fā)人員,致立于產(chǎn)品新技術(shù)的引入與研發(fā),為產(chǎn)品本身提供源源不斷發(fā)展動力,更好地為我們的客戶服務(wù)。在我們優(yōu)秀團隊的帶領(lǐng)下,我們的產(chǎn)品每年都有新的版本、新的技術(shù)發(fā)布,那么接下來,我給大家介紹下,SPSS Modeler最新版本 17.0新增空間數(shù)據(jù)分析的相關(guān)功能及Demo演示。
I.引入地圖文件及地圖可視化展現(xiàn)
在平臺上,我們新增了讀取地理位置信息的源節(jié)點,以及地圖展現(xiàn)的輸出節(jié)點;
連接方式:我們有兩種方式可以連接地圖文件,分別是
1、通過形狀文件 (.shp) 進行導(dǎo)入;
2、通過連接到包含地圖文件的分層文件系統(tǒng)所在的 ESRI 服務(wù)器進行導(dǎo)入。
功能:讀取地圖文件,與其它數(shù)據(jù)信息融合在一起,以直觀的地圖的方式展現(xiàn)最終的分析結(jié)果;
應(yīng)用場景:需要將分析結(jié)果與地圖結(jié)合起來的場景,比如購物中心的客流分布、交通狀態(tài)、運輸物流等。
II.新增算法:空間-時間預(yù)測(Spatio-temporal prediction)
功能:將地理位置信息和時間都作為分析場景的輸入影響因素,預(yù)測未來具體時間點以及具體位置發(fā)生某類事件的可能性。
計算邏輯:在回歸的基礎(chǔ),添加了空間協(xié)方差矩陣和時間序列來處理時間和空間信息;
應(yīng)用場景:可用于預(yù)測未來某一時間某些地點可能發(fā)生的事件,比如疾病多發(fā)區(qū)、犯罪多發(fā)地的預(yù)測;
大數(shù)據(jù)支持:可以通過Analytic Server進行Map-Reduce計算,提升計算效率。
III.新增算法:關(guān)聯(lián)規(guī)則
功能:可將空間地理信息作為分析因素,分析出事件發(fā)生的模式或規(guī)則;
應(yīng)用場景:犯罪模式分析、流行病/傳染病監(jiān)控等;
大數(shù)據(jù)支持:可以通過Analytic Server進行Map-Reduce計算,提升計算效率。
介紹了以上功能后,我們通過Demo來了解如何應(yīng)用空間數(shù)據(jù),實現(xiàn)對犯罪事件發(fā)生類型的預(yù)測。
I.分析場景:
我們有美國芝加哥州包括的10個鄉(xiāng)鎮(zhèn)以往發(fā)生犯罪事件的記錄,我們要分析的目標就是根據(jù)以往的犯罪事件發(fā)生的情況,研究在哪些區(qū)域可能是犯罪事件高發(fā)區(qū)域,并通過地圖的方式展現(xiàn)分析結(jié)果。
II.分析思路:
結(jié)合犯罪事件發(fā)生的地理位置,通過關(guān)聯(lián)規(guī)則分析各類犯罪事件發(fā)生的規(guī)則。
III.分析步驟:
整個分析數(shù)據(jù)流如下圖,分為3個步驟,分別是數(shù)據(jù)整理、建模和地圖展現(xiàn)。
1.連接犯罪事件數(shù)據(jù)源文件InsuranceData.sav
文件記錄了歷史發(fā)生犯罪事件的地理位置(經(jīng)、緯度)以及發(fā)生的犯罪事件類型,包括以下內(nèi)容:
2.連接各個country(鄉(xiāng)鎮(zhèn))的屬性信息文件CountyData.sav
文件收集了各個鄉(xiāng)鎮(zhèn)人口、收入等相關(guān)信息,包括以下內(nèi)容:
3.連接芝加哥地圖文件ChicagoAreaCounties.shp
文件包括各個鄉(xiāng)鎮(zhèn)(Country)的地理位置信息,包括以下內(nèi)容:
1、鄉(xiāng)鎮(zhèn)ID號(ObjectieID)
2、鄉(xiāng)鎮(zhèn)名稱(Name)
3、圖層信息(MultiPolygon)
可以用的地圖展現(xiàn)如下:
4.生成新的地理空間字段POINT
對記錄犯罪事件發(fā)生的InsuranceData.sav文件中的經(jīng)度和緯度兩列數(shù)據(jù)(Latitude、Longitude)合并到地理空間上,字段類型為地理空間,節(jié)點命名為POINT,為下面與地圖數(shù)據(jù)的合并做準備。
5.將犯罪事件記錄數(shù)據(jù)與各鄉(xiāng)鎮(zhèn)屬性信息合并
即對CountyData.sav和InsuranceData.sav兩份數(shù)據(jù)按關(guān)鍵字Country合并。
6.將上面整理好的數(shù)據(jù)與芝加哥地圖文件再做合并
至此,我們將數(shù)據(jù)整理完成,合并后的數(shù)據(jù)內(nèi)容包括:
其中以DS2開頭的三列數(shù)據(jù),表示事件發(fā)生的位置對應(yīng)地圖上的對象、區(qū)域和名稱。
7.選擇關(guān)聯(lián)規(guī)則算法建模
我們使用關(guān)聯(lián)規(guī)則算法,生成犯罪事件發(fā)生的規(guī)則模型,只需要將犯罪類型(Type)設(shè)置為預(yù)測,并選擇影響因素作為條件,然后點擊運行則會自動生成業(yè)務(wù)規(guī)則模型。
8.生成模型,得到規(guī)則
以下可以看到規(guī)則結(jié)果(列出部分規(guī)則)。
比如可以看到第三條規(guī)則(Rule ID=3)
條件(Condition)
PopUnder5yrs ≥ 6.600
PopOver65yrs ≤ 11.600
預(yù)測結(jié)果(Prediction)
Type = Collision
結(jié)果解讀
如果5歲以下人口占比大于等于6.6%,65歲以上人口占比小于等于11.6%,則可能發(fā)生的犯罪類型為Collision(沖突).該規(guī)則的支持度為9.51% (即有9.51%條記錄符合該規(guī)則) ,置信度為63.18%(即符合條件"PopUnder5yrs ≥ 6.600 and PopOver65yrs ≤ 11.600"的這些區(qū)域里面,有63.18%的區(qū)域發(fā)生了Collision事件),因此在做接下來的預(yù)測時,如果有區(qū)域符合以上規(guī)則(Ruld ID=3),那么我們判斷該區(qū)域發(fā)生Collision事件的概率為63.18%。
9.連接原來的芝加哥地圖文件,讓預(yù)測結(jié)果展現(xiàn)在地圖層之上
10.地圖展現(xiàn)預(yù)測結(jié)果
接下來我們把預(yù)測結(jié)果與地圖展現(xiàn)結(jié)合在一起,如下圖所示。
從這地圖我們可以很清晰看到,我們對各類犯罪事件發(fā)生預(yù)測結(jié)果的分布情況,根據(jù)該預(yù)測結(jié)果,我們可以有在針對性地部署相關(guān)的警力,預(yù)防犯罪事件的發(fā)生。
以上我們通過關(guān)聯(lián)規(guī)則對犯罪事件的發(fā)生進行了預(yù)測,如果使用空間-時間預(yù)測也可以實現(xiàn)類似的應(yīng)用場景,只是分析的計算邏輯不一樣。
SPSS Modeler對空間數(shù)據(jù)分析除了將其作為影響因素加入到分析過程之外,還可以通過運動軌跡(包括時間和地點)來判斷人物事件的特征,我們稱之為空間-時間框(STB),比如我們通過的士的運動軌跡及乘客的運動軌跡,來精準地告訴的士司機,哪些時間點,在哪些區(qū)域,有更大的乘車需求;也可以通過人員的運動軌跡對群體做細分,通過設(shè)定活動范圍,找出哪些人員是家庭主婦、哪些是商務(wù)人士、哪些是白領(lǐng)等等,這可以更好地完善我們的客戶畫像。這些分析都挺有意思的,我們可以下次再做具體介紹,敬請期待吧.....
via:華南IBM大數(shù)據(jù)支持團隊
詳情請咨詢“”!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn