原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2017-03-28 09:52:44.000|閱讀 432 次
概述:在今年,IBM SPSS Modeler發(fā)布了新版本18.0,那么在這次新版本的更新中,我們可以看到更新的幅度還是比較大的。接下來,浩彬老撕將給大家介紹18.0版本中一些新的功能,同時也將為大家詳細(xì)介紹如果獲得SPSS最新版本的試用方法!
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
在今年,IBM SPSS Modeler發(fā)布了新版本18.0,那么在這次新版本的更新中,我們可以看到更新的幅度還是比較大的。接下來,浩彬老撕將給大家介紹18.0版本中一些新的功能,同時也將為大家詳細(xì)介紹如果獲得SPSS最新版本的試用方法!
這次Modeler 18.0版本的更新我們可以簡單總結(jié)為如下三個方面:
(1)支持的平臺更加廣泛
(2)性能更加強(qiáng)大的大數(shù)據(jù)算法
(3)在開源技術(shù)上更多的擴(kuò)展和更強(qiáng)大的支持
總而言之,就是很好很強(qiáng)大!
1. 支持的平臺更加廣泛(MAC / Windows 10)
相比于Modeler的兄弟產(chǎn)品,SPSS Statistics早在3年前的 21.0 版本已經(jīng)開始支持 Mac 操作系統(tǒng),而Modeler一直只能支持Windows操作系統(tǒng),可謂愁死了廣大的果粉了。很多果粉小伙伴為了能夠在Mac上用上Modeler可謂是費(fèi)苦心啊。
但是現(xiàn)在,Modeler的18.0版本也正式發(fā)布了Mac版本,從此與虛擬機(jī)“Say Byebye”,咱們終于也能夠在Mac上直接使用了。
當(dāng)然除了支持Mac系統(tǒng),也增加了對Windows 10的支持。
2. 性能/功能更加強(qiáng)大的大數(shù)據(jù)算法
2.1 所有算法都支持本地運(yùn)行而不需要連接Analytics Server
在Modeler之前的版本中,為更好滿足客戶的需求,特意設(shè)計了部分支持分布式計算的算法,而這些算法的實(shí)現(xiàn)是需要Analytics Server(簡稱AS,大家可以把AS理解為SPSS Modeler與Hadoop的連接器)這一模塊才能運(yùn)行的,而現(xiàn)在這些新的算法都支持在本地client端運(yùn)行。這些新算法包括:
2.2 所有新算法都支持基于內(nèi)存的分布式計算
毫無疑問,對于大規(guī)模數(shù)據(jù)集來說,使用多線程計算將能更好地利用我們的硬件資源,更重要的是能夠節(jié)省我們的建模時間。在舊版本的SPSS Modeler版本中,只有部分的算法(CHAID,C&RT樹,QUEST,線性模型,神經(jīng)網(wǎng)絡(luò))能夠支持多線程,并且只有在連接上Modeler Server中的時候,才能啟用這項(xiàng)功能。
(以神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)為例)
而在剛剛 2.1 提到的所有算法當(dāng)中,現(xiàn)在都能支持多線程計算,并且直接在Modeler client端中即可啟用多線程,而無需連接至服務(wù)器端。
2.3 算法優(yōu)化
(1) 線性SVM以及廣義線性模型(AS算法)提供了正則化功能
我們知道過擬合是我們機(jī)器學(xué)習(xí)過程中常常面臨的問題,為了避免模型過于復(fù)雜帶來的問題,我們可以通過正則化對模型添加先驗(yàn),使得模型的復(fù)雜度得到控制,從而減少噪聲的擾動。因此在Modeler的18版本中,GLE以及LSVM都提供了正則化的功能:
(2) 樹模型和LSVM模型提供了專門的數(shù)據(jù)準(zhǔn)備功能
為了增強(qiáng)Tree-AS以及LSVM的能力,在Modeler的18版本當(dāng)中,特意結(jié)合了數(shù)據(jù)準(zhǔn)備功能在這兩個節(jié)點(diǎn)中,具體能力包括:連續(xù)字段分箱處理,分類字段進(jìn)行類別合并,時間戳進(jìn)行字段轉(zhuǎn)換,把缺失值自動視為新的類別(Tree-AS)等等
(3) 隨機(jī)樹節(jié)點(diǎn)新增功能選項(xiàng)
隨機(jī)樹節(jié)點(diǎn),大家可以理解為隨機(jī)森林,但因?yàn)殡S機(jī)森林最早被Leo Breiman和Adele Cutler提出后,就被注冊成了商標(biāo),因此這里稱之為隨機(jī)樹模型。該模型新增了兩個功能選項(xiàng):
(a) 指定要用于拆分的最小預(yù)測變量數(shù):如果是構(gòu)建拆分模型,請設(shè)置要用于構(gòu)建每個拆分的最小預(yù)測變量數(shù)。這防止拆分創(chuàng)建過小的子組。
(b) 當(dāng)準(zhǔn)確性無法再提高時停止構(gòu)建 要:改進(jìn)模型構(gòu)建時間,請選擇此選項(xiàng),以在結(jié)果的準(zhǔn)確性無法提高時停止模型構(gòu)建過程。
(4)時間序列算法的增強(qiáng)
時間序列算法主要增強(qiáng)在兩方面,一個是支持了多線程計算,二是增加了同時計算多個時間序列模型功能。
例如在舊版本中,當(dāng)我們的原始數(shù)據(jù)是6個銷售門店從2015年1月到2016年6月的銷售額,那么我們只能通過編程或分別使用多個時間序列節(jié)點(diǎn)才能完成對6個銷售門店時間序列的預(yù)測,但是在新版本中,我們則可以一次性構(gòu)建多個模型,大大簡化了建模的步驟。
3. 在開源技術(shù)上更多的擴(kuò)展和更強(qiáng)大的支持
3.1 在開源工具上更好的擴(kuò)展和支持
機(jī)器學(xué)習(xí)是一個充滿生命力的技術(shù)領(lǐng)域,開源技術(shù)每天都會有長足的進(jìn)步,為了能夠保證能夠在SPSS Modeler平臺上使用到新的數(shù)據(jù)技術(shù),Modeler在開源技術(shù)上一直有很好的支持。
從15版本開始集成R語言,16版本開始集成Python,17版本集成Spark。而來到我們的18版本,SPSS Modeler在集成上再更進(jìn)一步,以往在集成Python以及Spark上需要AS組件的支持,但是現(xiàn)在我們能夠直接在Modeler的客戶端上直接集成Python的能力,并且我們能夠把相關(guān)的R語言代碼/Python代碼直接集成成為一個建模節(jié)點(diǎn)。
3.2 全新的擴(kuò)展中心
除了通過上述的方法,通過在Modeler中嵌入相關(guān)的R/Python代碼定制相關(guān)節(jié)點(diǎn)外,IBM也開發(fā)了更多的功能在Github上,而現(xiàn)在我們可以直接在Modeler上下載應(yīng)用相關(guān)的功能節(jié)點(diǎn)。
這些新的擴(kuò)展空能包括了天氣數(shù)據(jù)獲取,GIS集成,地理空間應(yīng)用等等,具體的數(shù)量已經(jīng)從3月份24個功能到現(xiàn)在的35個功能。
在擴(kuò)展中心獲取這些功能后,會自動在Modeler的節(jié)點(diǎn)區(qū)域位置新增相應(yīng)的功能節(jié)點(diǎn),例如浩彬老撕之前安裝了天氣數(shù)據(jù)節(jié)點(diǎn),那么就可以直接運(yùn)用了。
最后,SPSS最近開通了專門的社區(qū),所有的SPSS用戶(包括Statistics,Modeler用戶)都可以在上面查找資料,資料包括各種技術(shù)文檔,應(yīng)用擴(kuò)展功能,SPSS+R的集成,SPSS+Python的集成。當(dāng)然上面也非常歡迎大家進(jìn)行各種的技術(shù)交流。
SPSS論壇
IBM SPSS Predictive analytics 社區(qū)
spss modeler://fc6vip.cn/product/3729/overview
spss statistics://fc6vip.cn/product/3729/overview
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn