原創(chuàng)|大數(shù)據(jù)新聞|編輯:蔣永|2019-03-06 11:09:26.000|閱讀 252 次
概述:上次我們學(xué)習(xí)什么是深度學(xué)習(xí),本次我們第二部分,將介紹 Cloudera 數(shù)據(jù)和機(jī)器學(xué)習(xí)的統(tǒng)一平臺(tái),并展示實(shí)施深度學(xué)習(xí)的四種方法。最后,我們提供六個(gè)實(shí)用技巧,幫助您的組織開始進(jìn)行深度學(xué)習(xí)。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
在上一節(jié)的學(xué)習(xí)中,我們主要認(rèn)識(shí)了什么是深度學(xué)習(xí),深度學(xué)習(xí)有哪些成功的應(yīng)用以及深度學(xué)習(xí)的優(yōu)點(diǎn)與缺點(diǎn),總體來說就是讓我們深度的了解何為深度學(xué)習(xí),就如文字開頭所說的“人們往往為技術(shù)而興奮。但深度學(xué)習(xí)是企業(yè)用來解決實(shí)際問題的工具。僅此而已,毋庸夸大,也無需貶低。”
對(duì)于還不了解什么是深度學(xué)習(xí)的朋友可以先閱讀《干貨|簡(jiǎn)單易懂的深度學(xué)習(xí)指南,不服來辯!(一)》學(xué)習(xí)一下。
本篇文章我們不在對(duì)深度學(xué)習(xí)的基礎(chǔ)做講解了,而是介紹Cloudera數(shù)據(jù)和機(jī)器學(xué)習(xí)的統(tǒng)一平臺(tái),并提供六個(gè)實(shí)用技巧,幫助您的組織開始進(jìn)行深度學(xué)習(xí)。
話不多說,開始我們今天的學(xué)習(xí)吧!
Cloudera是數(shù)據(jù)和機(jī)器學(xué)習(xí)的統(tǒng)一平臺(tái)。使用Cloudera,您可以深度學(xué)習(xí)您的數(shù)據(jù),而不是相反。
對(duì)于當(dāng)今復(fù)雜的技術(shù)環(huán)境,企業(yè)需要選擇和靈活性。 Cloudera 具有多種方式來訓(xùn)練和部署深度學(xué)習(xí)模型,無需新的孤島或數(shù)據(jù)遷移。
Cloudera 數(shù)據(jù)科學(xué)工作臺(tái)(CDSW)可實(shí)現(xiàn)快速,簡(jiǎn)單,安全的自助數(shù)據(jù)科學(xué)。缺 省條件下就是安全及合規(guī)的,支持完整的 Cloudera 認(rèn)證、授權(quán)、加密和治理。
CDSW 為數(shù)據(jù)科學(xué)家提供了一個(gè)基于瀏覽器的開發(fā)環(huán)境,適用于 Python,R 和 Scala。用戶可以在自定義設(shè)置中下載和實(shí)驗(yàn)最新的庫和框架,并輕松地與同行共 享項(xiàng)目。該軟件包括內(nèi)置的調(diào)度,監(jiān)控和郵件警報(bào)。
最新的 CDSW 版本支持 GPU 的設(shè)備。 GPU 是加速計(jì)算密集型工作負(fù)載的專用處理器。 GPU 特別適合于深度學(xué)習(xí)模型的訓(xùn)練步驟。 CDSW 使數(shù)據(jù)科學(xué)家可以將傳統(tǒng)硬件用于數(shù)據(jù)準(zhǔn)備和發(fā)現(xiàn)等任務(wù),并在 GPU 加速的機(jī)器上訓(xùn)練深度學(xué)習(xí)模型。
CDSW 用戶共享可用的 GPU 資源。用戶請(qǐng)求特定數(shù)量的 GPU 實(shí)例,最多可達(dá)一個(gè)節(jié)點(diǎn)上的總數(shù)。 CDSW在運(yùn)行期間將GPU分配給作業(yè)。項(xiàng)目可以使用隔離版本的庫,甚至通過 CDSW 的可擴(kuò)展引擎功能,使用不同的 CUDA 和 cuDNN 版本。
使用CDSW的數(shù)據(jù)科學(xué)家可以使用任何具有Python,R或Scala API的深度學(xué)習(xí)框架,包 括 TensorFlow,Keras,Theano,Microsoft Cognitive Toolkit(CNTK),Caffe,PyTorch,DL4J,Apache MXNet,Torch 和 BigDL。
在最近的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí) Hype Cycle 報(bào)告中,Gartner 將深度學(xué)習(xí)定位成“膨脹中期望的高峰”:
在這個(gè)過份狂熱和不現(xiàn)實(shí)的預(yù)測(cè)階段中,技術(shù)領(lǐng)導(dǎo)者的廣泛宣傳活動(dòng)取得了一些成功,但更多的是失敗,因?yàn)榧夹g(shù)被推向極限。唯一賺錢的企業(yè)是會(huì)議組織者和 雜志出版社。
關(guān)于深度學(xué)習(xí)的炒作給企業(yè)架構(gòu)師同時(shí)帶來機(jī)會(huì)和風(fēng)險(xiǎn)。一方面,廣為傳播的成 功案例增加了高管的興趣尋求深度學(xué)習(xí)獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。另一方面,過度的熱情可 能導(dǎo)致組織機(jī)構(gòu)投資昂貴而無用,或?qū)⒐蓛r(jià)拉低,因而從長(zhǎng)遠(yuǎn)角度,削弱了從深度學(xué)習(xí)中獲利的能力。
與大多數(shù)新技術(shù)一樣,快速變化的標(biāo)準(zhǔn)使投資具有挑戰(zhàn)性。谷歌發(fā)布了用于深度 學(xué)習(xí)的 TensorFlow 軟件并在 2015 年 11 月開放源代碼;在幾個(gè)月內(nèi),它成為開源生態(tài)系統(tǒng)中最為積極開發(fā)的機(jī)器學(xué)習(xí)項(xiàng)目。自從谷歌發(fā)布以來,亞馬遜,微軟和英特爾都已經(jīng)發(fā)布了深度學(xué)習(xí)的開源項(xiàng)目。雖然 TensorFlow 是當(dāng)今最受數(shù)據(jù)科學(xué)家歡迎的深度學(xué)習(xí)框架,但是我們并不確認(rèn)它會(huì)永久保持這種狀態(tài)。
鑒于深度學(xué)習(xí)的力量和潛力,我們有幾個(gè)務(wù)實(shí)的提示。
專注于解決業(yè)務(wù)問題。谷歌,微軟和百度并沒有因?yàn)樯疃葘W(xué)習(xí)很酷,或者因?yàn)樽稍冾檰柛嬖V他們創(chuàng)新是重要的,而成為深度學(xué)習(xí)的重磅力量。他們這樣做是因?yàn)樗麄冇芯o迫的業(yè)務(wù)問題,深度學(xué)習(xí)為解決這個(gè)問題提供了一個(gè)辦法。
深度學(xué)習(xí)也可能是您企業(yè)機(jī)構(gòu)的正確工具。但是,如果您沒有仔細(xì)地定義業(yè)務(wù)問題, 概括出捕獲和管理數(shù)據(jù)的策略,并先嘗試使用簡(jiǎn)單的技術(shù),您可能會(huì)構(gòu)建一個(gè)沒 人會(huì)用的深度學(xué)習(xí)功能。
仔細(xì)選擇試點(diǎn)項(xiàng)目。如果您的機(jī)構(gòu)沒有接觸過深度學(xué)習(xí),計(jì)劃的長(zhǎng)期成功可能取決于您最初幾個(gè)項(xiàng)目的結(jié)果。深度學(xué)習(xí)最有可能對(duì)以下項(xiàng)目產(chǎn)生影響:
這些問題通常具有上述我們認(rèn)為的深度學(xué)習(xí)的屬性:高基數(shù)結(jié)果,維度和未標(biāo)記 的數(shù)據(jù)。
嘗試用深度學(xué)習(xí)改進(jìn)現(xiàn)有的以常規(guī)技術(shù)為基礎(chǔ)的模型,大多數(shù)時(shí)間都會(huì)產(chǎn)生令人 失望的結(jié)果。為了獲得更好的結(jié)果,數(shù)據(jù)科學(xué)家將向建模過程引入新的數(shù)據(jù)。例如, 醫(yī)院通過添加醫(yī)療專業(yè)人員所記錄的患者數(shù)據(jù)來提高預(yù)測(cè)再住院模型的準(zhǔn)確性。
首先整理數(shù)據(jù)。大概很有沖動(dòng)讓你的團(tuán)隊(duì)一頭扎進(jìn)訓(xùn)練深度學(xué)習(xí)的模型吧。這種做法可能有助于學(xué)習(xí)。但請(qǐng)記住,在每一個(gè)深度學(xué)習(xí)的成功故事背后,都有一個(gè)數(shù)據(jù)的成功故事。
成功的深度學(xué)習(xí)應(yīng)用基于三個(gè)不同流程的定義數(shù)據(jù)流:
如何設(shè)計(jì)這些流程將決定您的應(yīng)用的成功。例如,盡管可以將大型數(shù)據(jù)集復(fù)制到 一個(gè)離線平臺(tái)進(jìn)行初始訓(xùn)練,但是對(duì)于模型的更新,因?yàn)橐?不斷重復(fù)執(zhí)行,而可 能變得成本高昂。在今天快節(jié)奏的業(yè)務(wù)中,模型的頻繁更新是機(jī)器學(xué)習(xí)所有分支 的常態(tài)。除非您允許這樣做,否則您的項(xiàng)目可能會(huì)成為高維護(hù)費(fèi)用“孤兒”。
同樣,除非您的團(tuán)隊(duì)已經(jīng)想清楚如何使用一個(gè)深度學(xué)習(xí)模型來進(jìn)行推論,否則您 很有可能會(huì)創(chuàng)建一個(gè)沒有人用的偉大模型。使用該應(yīng)用的業(yè)務(wù)可能需要具有服務(wù) 級(jí)別保證的低延遲推論。您的深度學(xué)習(xí)項(xiàng)目規(guī)劃要考慮這一點(diǎn),否則項(xiàng)目將失敗。
擁抱開源。數(shù)據(jù)科學(xué)家更喜歡開源軟件。所有最廣泛使用的深度學(xué)習(xí)框架都是開源的。市場(chǎng)上有一些商業(yè)選擇,但沒有證據(jù)表明它們性能優(yōu)于開源框架。
利用傳遞學(xué)習(xí)。除非您的機(jī)構(gòu)已經(jīng)有從頭開始構(gòu)建深度學(xué)習(xí)模型的豐富經(jīng)驗(yàn),否則預(yù)先訓(xùn)練的模型是開始的最佳方式。檢查公開的模型庫,如 Caffe Model Zoo。如果您找到一個(gè)近似于您要解決的問題的模型,先不要改變,運(yùn)行它以建立精確度基線。使用傳遞學(xué)習(xí)建立在現(xiàn)有的模型上,而不是從頭開始。傳遞學(xué)習(xí)減少了對(duì)大量訓(xùn)練數(shù)據(jù)集和計(jì)算能力的需求。
不要?jiǎng)?chuàng)建新的孤島。您的組織投資數(shù)百萬美元無數(shù)時(shí)間來消除阻礙整合的孤島。絕對(duì)不要再創(chuàng)造一個(gè)新的孤單。一些供應(yīng)商認(rèn)為,深度學(xué)習(xí)是新鮮事物與眾不同,因而需要一個(gè)全新的高級(jí)分析平臺(tái)。請(qǐng)記住:將數(shù)據(jù)帶入深度學(xué)習(xí)平臺(tái)遠(yuǎn)遠(yuǎn)難于將深度學(xué)習(xí)帶入您的數(shù)據(jù)平臺(tái)。
Cloudera基于最新的開源技術(shù)提供用于機(jī)器學(xué)習(xí)和分析,優(yōu)化于云端的現(xiàn)代化平臺(tái)。全球領(lǐng)先的組織機(jī)構(gòu)都信任 Cloudera,通過高效地捕捉、存儲(chǔ)、處理和分析海量數(shù)據(jù)來幫助他們解決最具挑戰(zhàn)性的業(yè)務(wù)問題。
慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供Cloudera大數(shù)據(jù)平臺(tái)搭建,免費(fèi)業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢,我們將幫您轉(zhuǎn)接大數(shù)據(jù)專家團(tuán)隊(duì),并發(fā)送相關(guān)行業(yè)資料給您!
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn