原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-07-08 11:16:26.000|閱讀 1297 次
概述:IBM SPSS Modeler(以下簡(jiǎn)稱 Modeler)是一款專業(yè)成熟的數(shù)據(jù)挖掘分析軟件,其采用數(shù)據(jù)流的方式來(lái)展示數(shù)據(jù)挖掘的操作過(guò)程,并結(jié)合 CRISP-DM 工業(yè)標(biāo)準(zhǔn)打造了一個(gè)支持眾多數(shù)據(jù)挖掘操作的應(yīng)用平臺(tái)。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
IBM SPSS Modeler(以下簡(jiǎn)稱 Modeler)是一款專業(yè)成熟的數(shù)據(jù)挖掘分析軟件,其采用數(shù)據(jù)流的方式來(lái)展示數(shù)據(jù)挖掘的操作過(guò)程,并結(jié)合 CRISP-DM 工業(yè)標(biāo)準(zhǔn)打造了一個(gè)支持眾多數(shù)據(jù)挖掘操作的應(yīng)用平臺(tái)。
為了順應(yīng) IBM 的大數(shù)據(jù)戰(zhàn)略方向,迎合大數(shù)據(jù)處理和分析日益增強(qiáng)的市場(chǎng)需求,Modeler 從15.0版本開始,整合了最新的大數(shù)據(jù)處理引擎 IBM SPSS Analytic Server(以下簡(jiǎn)稱為 Analytic Server)1.0 版本,從而將 IBM 的數(shù)據(jù)挖掘能力擴(kuò)展到大數(shù)據(jù)領(lǐng)域,實(shí)現(xiàn)了在分布式文件系統(tǒng)上來(lái)執(zhí)行大數(shù)據(jù)分析。它將 IBM SPSS 現(xiàn)有的商業(yè)分析技術(shù)與大數(shù)據(jù)技術(shù)相結(jié)合,使得用戶能夠使用復(fù)雜的分析算法以高可伸縮的方式來(lái)解決基于大數(shù)據(jù)的分析問(wèn)題。
2015-9-30,IBM 數(shù)據(jù)挖掘平臺(tái)SPSS Modeler V17.1版本和IBM SPSS Analytic Server 2.1正式發(fā)布,他們的協(xié)同工作,為客戶帶來(lái)兩大亮點(diǎn):
下面針對(duì)這兩大亮點(diǎn),分別做具體介紹。
亮點(diǎn)1:新增分布式算法
在 建模面板上,增加了相應(yīng)的算法,這些算法支持分布式運(yùn)算,即可以運(yùn)行在Spark和傳統(tǒng)的Hadoop之下,如果用戶安裝了Spark, 會(huì)利用Spark機(jī)制進(jìn)行優(yōu)化,如果沒有安裝Spark, 跟之前通過(guò)hadoop的方法一致。這一亮點(diǎn)大大擴(kuò)展了算法能力,提高處理性能。
最新版本里面,新增的算法節(jié)點(diǎn)包括有:
GLE 節(jié)點(diǎn)
特點(diǎn):
適用范圍:
Linear-AS 節(jié)點(diǎn)
特點(diǎn):
適用范圍:
LSVM 節(jié)點(diǎn)
具體實(shí)現(xiàn)步驟如下:
特點(diǎn):
適用范圍:
Random Trees節(jié)點(diǎn)
特點(diǎn):
適用范圍:
Tree-AS 節(jié)點(diǎn)
特點(diǎn):
適用范圍:
Spark最大的優(yōu)勢(shì)在于速度,特別適合需要多次迭代的算法,因此在最新版本里面,提供了自定義對(duì)話框構(gòu)建程序的 Python Spark 支持。
自定義對(duì)話框構(gòu)建程序之前僅可與 R 配合使用,現(xiàn)在它還支持 Python for Spark,后者提供對(duì)Apache Spark 及其機(jī)器學(xué)習(xí)庫(kù) (MLlib) 的訪問(wèn)。例如,分析人員可以使用自定義對(duì)話框構(gòu)建程序來(lái)創(chuàng)建使用 MLlib中的算法的建模節(jié)點(diǎn),然后與其他人員共享該節(jié)點(diǎn)。
SPSS Modeler 17.1版本中,可通過(guò)Python語(yǔ)言引入以下所有的Spark MLlib算法:
以下流程圖實(shí)現(xiàn)了以下了SPSS Modeler、Spark與MLlib的集成
1.通過(guò)連接分布式文件系統(tǒng),連接訓(xùn)練數(shù)據(jù)集;
2.使用自定義對(duì)話框構(gòu)建程序,通過(guò)Python實(shí)現(xiàn)導(dǎo)入MLlib算法Collaborative Filtering;
3.生成Collaborative Filtering模型;
4. 通過(guò)Analytic Server連接分布式文件系統(tǒng),連接測(cè)試數(shù)據(jù)集;
5. 測(cè)試數(shù)據(jù)集直接連接生成的Collaborative Filtering模型,應(yīng)用該模型規(guī)則進(jìn)行預(yù)測(cè)分析;
6.將預(yù)測(cè)結(jié)果返回到分布式文件系統(tǒng)中。
集成優(yōu)勢(shì):整個(gè)數(shù)據(jù)分析處理過(guò)程都是在Spark環(huán)境下運(yùn)行,充分利用內(nèi)存運(yùn)算提高性能。
試用版下載地址:
詳情請(qǐng)咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn