原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-12-27 11:36:05.000|閱讀 432 次
概述:分布式計(jì)算、云計(jì)算、人工智能機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、統(tǒng)計(jì)建模,這些最新的詞匯大家應(yīng)該都有所了解,但你真的了解這些詞的意義嗎?
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
一、機(jī)器學(xué)習(xí)
是以數(shù)據(jù)為基礎(chǔ),它專注于為回歸和分類算法。其底層隨機(jī)機(jī)制往往是次要的、不被重視的。當(dāng)然,許多機(jī)器學(xué)習(xí)技術(shù)也可以通過隨機(jī)模型和回歸計(jì)算來定義,但數(shù)據(jù)并不是由模型生成的。相反,機(jī)器學(xué)習(xí)主要是為了辨識(shí)出運(yùn)行某個(gè)特定任務(wù)的算法或技術(shù)(或者是二者兼有):顧客最好由k-Means聚類,或者是DBSCAN、決策樹、,還是支持向量機(jī)?
簡而言之,對(duì)統(tǒng)計(jì)學(xué)家來說,模型是首要的,對(duì)機(jī)器學(xué)習(xí)專家來說,數(shù)據(jù)才是排在第一位的。因?yàn)闄C(jī)器學(xué)習(xí)強(qiáng)調(diào)的是數(shù)據(jù),而不是模型。把數(shù)據(jù)分離成訓(xùn)練和測(cè)試組的驗(yàn)證技術(shù)是非常重要的。一個(gè)解決方案的優(yōu)劣不在于p值,而在于證明這個(gè)解決方案在以前看不到的數(shù)據(jù)方面預(yù)測(cè)良好。把一個(gè)統(tǒng)計(jì)模型和一套數(shù)據(jù)匹配,或者為一套數(shù)據(jù)訓(xùn)練決策樹,就需要評(píng)估未知量。決策樹的最佳分割點(diǎn),是由預(yù)估參數(shù)數(shù)據(jù)決定的,而預(yù)估參數(shù)是由從屬變量的條件分布決定的。
沒有一種技術(shù)能夠自稱會(huì)學(xué)習(xí)。訓(xùn)練才是塑造某物的必經(jīng)之路。學(xué)習(xí),從另一方面來講,就暗示著獲得新的技能,而訓(xùn)練是學(xué)習(xí)的一部分。通過訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò),也就是說,通過輸入數(shù)據(jù)設(shè)定好它的砝碼和偏向,它就學(xué)會(huì)了分類,這個(gè)神經(jīng)網(wǎng)絡(luò)就變成了一個(gè)分類器。
二、深度學(xué)習(xí)
當(dāng)一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)不是去通過編程是實(shí)現(xiàn)某一項(xiàng)功能,而是通過編程去學(xué)習(xí)一項(xiàng)能力,這就是一個(gè)真的學(xué)習(xí)系統(tǒng),被指定去學(xué)習(xí)完成某項(xiàng)任務(wù)的,稱之為深度學(xué)習(xí)。深度學(xué)習(xí)也是一種數(shù)據(jù)驅(qū)動(dòng)型的實(shí)踐。跟機(jī)器學(xué)習(xí)不同的是,深度學(xué)習(xí)不依賴于強(qiáng)悍的算法技術(shù)。幾乎所有這種形式的機(jī)器學(xué)習(xí)應(yīng)用,多是以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的。
深度學(xué)習(xí)被頻繁應(yīng)用于各種弱人工智能應(yīng)用,在這些領(lǐng)域,機(jī)器會(huì)去做人類的工作。
三、分布式計(jì)算
分布式計(jì)算簡單來說,是把一個(gè)大計(jì)算任務(wù)拆分成多個(gè)小計(jì)算任務(wù)分布到若干臺(tái)機(jī)器上去計(jì)算,然后再進(jìn)行結(jié)果匯總。 目的在于分析計(jì)算海量的數(shù)據(jù),從雷達(dá)監(jiān)測(cè)的海量歷史信號(hào)中分析異常信號(hào)(外星文明),淘寶雙十一實(shí)時(shí)計(jì)算各地區(qū)的消費(fèi)習(xí)慣等。
海量計(jì)算最開始的方案是提高單機(jī)計(jì)算性能,如大型機(jī),后來由于數(shù)據(jù)的爆發(fā)式增長、單機(jī)性能卻跟不上,才有分布式計(jì)算這種妥協(xié)方案。 因?yàn)橛?jì)算一旦拆分,問題會(huì)變得非常復(fù)雜,像一致性、數(shù)據(jù)完整、通信、容災(zāi)、任務(wù)調(diào)度等問題也都來了。
舉個(gè)例子,產(chǎn)品要求從數(shù)據(jù)庫中100G的用戶購買數(shù)據(jù),分析出各地域的消費(fèi)習(xí)慣金額等。 如果沒什么時(shí)間要求,程序員小明就寫個(gè)對(duì)應(yīng)的業(yè)務(wù)處理服務(wù)程序,部署到服務(wù)器上,讓它慢慢跑就是了,小明預(yù)計(jì)10個(gè)小時(shí)能處理完。 后面產(chǎn)品嫌太慢,讓小明想辦法加快到3個(gè)小時(shí)。
平常開發(fā)中類似的需求也很多,總結(jié)出來就是,數(shù)據(jù)量大、單機(jī)計(jì)算慢。 如果上Hadoop、storm之類成本較高、而且有點(diǎn)大才小用。 當(dāng)然讓老板買更好的服務(wù)器配置也是一種辦法。
四、統(tǒng)計(jì)建模
統(tǒng)計(jì)建模其實(shí)就是解決“哪一種概率模型可以產(chǎn)生我所觀察到的數(shù)據(jù)?”這個(gè)問題,所以你可以這樣做:首先從眾多合理的模型中挑選出候選模型,然后評(píng)估它的未知量,再比較你所擬合出來的模型跟其他候選模型的最優(yōu)化程度。
舉例來說,如果你的數(shù)據(jù)代表了總數(shù),比如這個(gè)數(shù)字代表了客人感到反胃的數(shù)量,或者細(xì)胞分裂的數(shù)量,那么泊松模型(Poisson)、負(fù)二項(xiàng)模型或者零膨脹模型(zero-inflated model)都有可能是適用的。
一旦選擇了一個(gè)統(tǒng)計(jì)模型,那預(yù)估模型就會(huì)被用作調(diào)查的設(shè)備:測(cè)試假說,創(chuàng)建預(yù)測(cè)值和測(cè)量置信度。預(yù)估模型就會(huì)成為我們解讀數(shù)據(jù)的棱鏡。我們從來沒有聲稱所選模型生成的數(shù)據(jù),但會(huì)把它當(dāng)做一個(gè)在隨機(jī)的過程中合理的近似,然后再基于它去驗(yàn)證推論。
驗(yàn)證推理是統(tǒng)計(jì)建模中一個(gè)重要的方面。舉例來說,如果要在三個(gè)可能的醫(yī)療設(shè)備中,決定哪個(gè)對(duì)病人最有益,你就會(huì)對(duì)這樣的模型感興趣:它能捕捉病人使用什么樣的途徑治療是明顯有效果的。總是這樣,那些能很好地捕捉數(shù)據(jù)生成途徑的模型,同時(shí)也是在觀測(cè)數(shù)據(jù)范圍內(nèi)最好地做出預(yù)測(cè)的模型,或許它還能預(yù)測(cè)出新的觀測(cè)結(jié)果。
在統(tǒng)計(jì)建模中,數(shù)據(jù)指引人們到一個(gè)隨機(jī)模型的可挑選范圍里,它就相當(dāng)于是抽象的利益問題的概率表達(dá),實(shí)現(xiàn)預(yù)測(cè)的功能和對(duì)某些事物的前瞻判斷。
詳情請(qǐng)咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn