原創|行業資訊|編輯:陳俊吉|2016-07-28 09:44:18.000|閱讀 335 次
概述:SPSS Modeler 是一個數據挖掘工作臺,提供了一個可了解數據并生成預測模型的最先進的環境。Streams 提供了一個可伸縮的高性能環境,對不斷變化的數據進行實時分析,在實時處理需要高級分析時,使用Streams和SPSS集成,實現實時評分預測。實時應用預測分析的用例的示例包括網絡安全、銀行和信用卡欺詐檢測、預測性維護,以及實時營銷產品。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
是一個數據挖掘工作臺,提供了一個可了解數據并生成預測模型的最先進的環境。Streams 提供了一個可伸縮的高性能環境,對不斷變化的數據進行實時分析,這些數據中包括傳統結構的數據和半結構化到非結構化數據類型。
在實時處理需要高級分析時,使用Streams和SPSS集成,實現實時評分預測。實時應用預測分析的用例的示例包括網絡安全、銀行和信用卡欺詐檢測、預測性維護,以及實時營銷產品。
SPSS Analytics Toolkit for Streams
SPSSScoring operator
SPSSScoring operator實現在Streams應用中使用預定義的SPSS的預測模型進行評分預測,它假設預測模型已經在SPSS Moduler定義好并通過SPSS Solution Publisher導出這三個文件:
SPSSScoring 代碼例子
stream<DataSchemaPlus> scorer = com.ibm.spss.streams.analytics::SPSSScoring(data) { param pimfile: getThisToolkitDir() +"/etc/PimParXml/model.pim"; parfile: getThisToolkitDir() +"/etc/PimParXml/model.par"; xmlfile: getThisToolkitDir() +"/etc/PimParXml/model.xml"; modelFields: "sex","income"; streamAttributes: s_sex, baseSalary+bonusSalary; output scorer: income = fromModel("income"), predLabel = fromModel("$C-beer_beans_pizza"), confidence = fromModel("$CC-beer_beans_pizza"); }
SPSSPublish operator
SPSSPublish operator 自動“發布”的一個模型文件的評分分支并總結所生成的文件,以便下游的Operator可以通過“分布”操作所創建或更新的PIM、PAR和XML文件,刷新他們的評分標準實施。通常情況下,SPSSPublish operator配合上游的DirectoryScan 或 SPSSRepository operator,及下游的SPSSScoring operator,即:
DirecoryScan/SPSSRepository -> SPSSPublish -> SPSSScoring
其中DirectoryScan 或 SPSSRepository operator檢測到有新的模型文件可用,就將新模型的文件名發生個SPSSPublish operator。SPSSPublish的下游通常是SPSSSoring。當SPSSPublish獲取到新模型,它就會生成SPSSSoring所需的PIM、PAR和XML文件,然后發生通知給SPSSSoring,通知也新的模型可用了。SPSSScoring收到通知后會刷新內部模型。
SPSSPublish代碼例子:
stream<rstring strFilePath> strFile = DirectoryScan(){ param directory : "/tmp"; pattern : "newmodel.str"; ignoreExistingFilesAtStartup : true; config placement : host(P1); } stream<rstring fileName> notifier = com.ibm.spss.streams.analytics::SPSSPublish(strFile){ param sourceFile: "newmodel.str"; targetPath: "/tmp"; config placement : host(P1); } stream<DataSchemaPlus> scorer = com.ibm.spss.streams.analytics::SPSSScoring(data;notifier) { param pimfile: getThisToolkitDir() +"/etc/PimParXml/model.pim"; parfile: getThisToolkitDir() +"/etc/PimParXml/model.par"; xmlfile: getThisToolkitDir() +"/etc/PimParXml/model.xml"; modelFields: "sex","income"; streamAttributes: s_sex, baseSalary+bonusSalary; output scorer: income = fromModel("income"), predLabel = fromModel("$C-beer_beans_pizza"), confidence = fromModel("$CC-beer_beans_pizza"); config placement : host(P1); }
SPSSRepository operator
SPSSRepository operator監視部署在SPSS Collaboration and Deployment Services庫的對象的變化。當被監控的對象發生變化,相關通知則會發給所有的Listener。收到通知,SPSSRepostory會從Repostory下載該對象的新版本文件并將文件寫到目標目錄,這步操作成功之后,SPSSRepostory再提交描述文件已更新的事件給下游Operator。
Streams + 的參考架構
根據前面對SPSS Analytics Toolkit的功能描述,Streams + SPSS的參考架構可以由下圖表示:
小結
本文通過對SPSS Analytics Toolkit和這些Toolkit與Streams集成參考架構的描述,為讀者呈現了如何使用業界最好的數據挖掘工具SPSS和流數據分析平臺Streams進行實時評分和預測。
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn