人妖视频网,国产精品尤物,深夜福利在线观看视频

你真的了解機(jī)器學(xué)習(xí)、人工智能、統(tǒng)計(jì)建模嗎？

原創(chuàng)|行業(yè)資訊|編輯：陳俊吉|2016-12-27 11:36:05.000|閱讀 432 次

概述：分布式計(jì)算、云計(jì)算、人工智能機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、統(tǒng)計(jì)建模，這些最新的詞匯大家應(yīng)該都有所了解，但你真的了解這些詞的意義嗎？

相關(guān)鏈接：

一、機(jī)器學(xué)習(xí)

是以數(shù)據(jù)為基礎(chǔ)，它專注于為回歸和分類算法。其底層隨機(jī)機(jī)制往往是次要的、不被重視的。當(dāng)然，許多機(jī)器學(xué)習(xí)技術(shù)也可以通過隨機(jī)模型和回歸計(jì)算來定義，但數(shù)據(jù)并不是由模型生成的。相反，機(jī)器學(xué)習(xí)主要是為了辨識(shí)出運(yùn)行某個(gè)特定任務(wù)的算法或技術(shù)（或者是二者兼有）：顧客最好由k-Means聚類，或者是DBSCAN、決策樹、，還是支持向量機(jī)？

簡而言之，對(duì)統(tǒng)計(jì)學(xué)家來說，模型是首要的，對(duì)機(jī)器學(xué)習(xí)專家來說，數(shù)據(jù)才是排在第一位的。因?yàn)闄C(jī)器學(xué)習(xí)強(qiáng)調(diào)的是數(shù)據(jù)，而不是模型。把數(shù)據(jù)分離成訓(xùn)練和測(cè)試組的驗(yàn)證技術(shù)是非常重要的。一個(gè)解決方案的優(yōu)劣不在于p值，而在于證明這個(gè)解決方案在以前看不到的數(shù)據(jù)方面預(yù)測(cè)良好。把一個(gè)統(tǒng)計(jì)模型和一套數(shù)據(jù)匹配，或者為一套數(shù)據(jù)訓(xùn)練決策樹，就需要評(píng)估未知量。決策樹的最佳分割點(diǎn)，是由預(yù)估參數(shù)數(shù)據(jù)決定的，而預(yù)估參數(shù)是由從屬變量的條件分布決定的。

沒有一種技術(shù)能夠自稱會(huì)學(xué)習(xí)。訓(xùn)練才是塑造某物的必經(jīng)之路。學(xué)習(xí)，從另一方面來講，就暗示著獲得新的技能，而訓(xùn)練是學(xué)習(xí)的一部分。通過訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)，也就是說，通過輸入數(shù)據(jù)設(shè)定好它的砝碼和偏向，它就學(xué)會(huì)了分類，這個(gè)神經(jīng)網(wǎng)絡(luò)就變成了一個(gè)分類器。

二、深度學(xué)習(xí)

當(dāng)一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)不是去通過編程是實(shí)現(xiàn)某一項(xiàng)功能，而是通過編程去學(xué)習(xí)一項(xiàng)能力，這就是一個(gè)真的學(xué)習(xí)系統(tǒng)，被指定去學(xué)習(xí)完成某項(xiàng)任務(wù)的，稱之為深度學(xué)習(xí)。深度學(xué)習(xí)也是一種數(shù)據(jù)驅(qū)動(dòng)型的實(shí)踐。跟機(jī)器學(xué)習(xí)不同的是，深度學(xué)習(xí)不依賴于強(qiáng)悍的算法技術(shù)。幾乎所有這種形式的機(jī)器學(xué)習(xí)應(yīng)用，多是以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的。

深度學(xué)習(xí)被頻繁應(yīng)用于各種弱人工智能應(yīng)用，在這些領(lǐng)域，機(jī)器會(huì)去做人類的工作。

三、分布式計(jì)算

分布式計(jì)算簡單來說，是把一個(gè)大計(jì)算任務(wù)拆分成多個(gè)小計(jì)算任務(wù)分布到若干臺(tái)機(jī)器上去計(jì)算，然后再進(jìn)行結(jié)果匯總。目的在于分析計(jì)算海量的數(shù)據(jù)，從雷達(dá)監(jiān)測(cè)的海量歷史信號(hào)中分析異常信號(hào)(外星文明)，淘寶雙十一實(shí)時(shí)計(jì)算各地區(qū)的消費(fèi)習(xí)慣等。

海量計(jì)算最開始的方案是提高單機(jī)計(jì)算性能，如大型機(jī)，后來由于數(shù)據(jù)的爆發(fā)式增長、單機(jī)性能卻跟不上，才有分布式計(jì)算這種妥協(xié)方案。因?yàn)橛?jì)算一旦拆分，問題會(huì)變得非常復(fù)雜，像一致性、數(shù)據(jù)完整、通信、容災(zāi)、任務(wù)調(diào)度等問題也都來了。

舉個(gè)例子，產(chǎn)品要求從數(shù)據(jù)庫中100G的用戶購買數(shù)據(jù)，分析出各地域的消費(fèi)習(xí)慣金額等。如果沒什么時(shí)間要求，程序員小明就寫個(gè)對(duì)應(yīng)的業(yè)務(wù)處理服務(wù)程序，部署到服務(wù)器上，讓它慢慢跑就是了，小明預(yù)計(jì)10個(gè)小時(shí)能處理完。后面產(chǎn)品嫌太慢，讓小明想辦法加快到3個(gè)小時(shí)。

平常開發(fā)中類似的需求也很多，總結(jié)出來就是，數(shù)據(jù)量大、單機(jī)計(jì)算慢。如果上Hadoop、storm之類成本較高、而且有點(diǎn)大才小用。當(dāng)然讓老板買更好的服務(wù)器配置也是一種辦法。

四、統(tǒng)計(jì)建模

統(tǒng)計(jì)建模其實(shí)就是解決“哪一種概率模型可以產(chǎn)生我所觀察到的數(shù)據(jù)？”這個(gè)問題，所以你可以這樣做：首先從眾多合理的模型中挑選出候選模型，然后評(píng)估它的未知量，再比較你所擬合出來的模型跟其他候選模型的最優(yōu)化程度。

舉例來說，如果你的數(shù)據(jù)代表了總數(shù)，比如這個(gè)數(shù)字代表了客人感到反胃的數(shù)量，或者細(xì)胞分裂的數(shù)量，那么泊松模型(Poisson)、負(fù)二項(xiàng)模型或者零膨脹模型(zero-inflated model)都有可能是適用的。

一旦選擇了一個(gè)統(tǒng)計(jì)模型，那預(yù)估模型就會(huì)被用作調(diào)查的設(shè)備：測(cè)試假說，創(chuàng)建預(yù)測(cè)值和測(cè)量置信度。預(yù)估模型就會(huì)成為我們解讀數(shù)據(jù)的棱鏡。我們從來沒有聲稱所選模型生成的數(shù)據(jù)，但會(huì)把它當(dāng)做一個(gè)在隨機(jī)的過程中合理的近似，然后再基于它去驗(yàn)證推論。

驗(yàn)證推理是統(tǒng)計(jì)建模中一個(gè)重要的方面。舉例來說，如果要在三個(gè)可能的醫(yī)療設(shè)備中，決定哪個(gè)對(duì)病人最有益，你就會(huì)對(duì)這樣的模型感興趣：它能捕捉病人使用什么樣的途徑治療是明顯有效果的。總是這樣，那些能很好地捕捉數(shù)據(jù)生成途徑的模型，同時(shí)也是在觀測(cè)數(shù)據(jù)范圍內(nèi)最好地做出預(yù)測(cè)的模型，或許它還能預(yù)測(cè)出新的觀測(cè)結(jié)果。

在統(tǒng)計(jì)建模中，數(shù)據(jù)指引人們到一個(gè)隨機(jī)模型的可挑選范圍里，它就相當(dāng)于是抽象的利益問題的概率表達(dá)，實(shí)現(xiàn)預(yù)測(cè)的功能和對(duì)某些事物的前瞻判斷。