原創|大數據新聞|編輯:蔣永|2019-03-05 15:18:28.000|閱讀 297 次
概述:在本文中,第一部分將首先將介紹深度學習及其基礎,作為我們學習的第一部分。第二部分,我們將介紹 Cloudera 數據和機器學習的統一平臺,并提供六個實用技巧,幫助您的組織開始進行深度學習。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
如今大家都在說深度學習。
人們往往為技術而興奮。但深度學習是企業用來解決實際問題的工具。僅此而已, 毋庸夸大,也無需貶低。
在本文中,第一部分將首先將介紹深度學習及其基礎,作為我們學習的第一部分。第二部分,我們將介紹 Cloudera 數據和機器學習的統一平臺,并展示實施深度學習的四種方法。
最后,我們提供六個實用技巧,幫助您的組織開始進行深度學習。
機器學習是一組算法和方法用以發現數據中有用的模式。數據科學家有數百種不同的算法可用,包括:
神經網絡是一類機器學習技術。 20 世紀 40 年代由神經科學家開發,以模擬人類和動物大腦的行為,數據科學家在許多不同的業務應用中使用它們。它們包含在一些開源軟件庫和商業軟件包中。
如果具有特定的屬性,神經網絡是有“深度”的,我們將在下文深度學習 101 中進 行討論。“深度學習”是指數據科學家用來訓練和部署深層神經網絡的工具和方法。 這些技術可追溯到20世紀80年代;然而,其應用由于計算復雜性和所需資源而滯后。 降低的計算成本,數字化數據的大量涌現和改進的算法使深度學習在當今變得可行。
深度學習成為一個有用的工具是當實踐者成功地使用它在諸如文件分析和識別、 交通標志識別、醫學成像和生物信息學等領域贏得競爭。當今,數據科學家們將 深度學習應用于各種實際問題:
深度學習是一種成熟的技術,是數字轉型的關鍵驅動力。隨著管理人員更多地了 解其成功的應用,對工具和基礎架構的需求將會全面激增。
在本節中,我們將簡要介紹神經網絡和深度學習。有關更詳細的處理,請參閱本 文末尾附加閱讀部分中鏈接內容。
數據科學家使用神經網絡指定一個問題作為節點網絡,或神經元,以分層布置。 定向圖將節點彼此連接。數據科學家使用一個優化算法來找到模型的最優參數集, 例如連接節點的邊緣的權重。
人造神經網絡中的神經元接受來自其他神經元的數據作為輸入。他們用數學函數 處理數據以產生計算結果。數據科學家指定神經元應用于輸入數據的功能類型。
在人工神經網絡中,數據科學家將神經元分層布置。人工神經網絡中有三種類型 的層。輸入層中的神經元接受數據,而輸出層中的神經元呈現模型計算的結果。 神經網絡的輸入和輸出層代表真實世界的事實:輸入層表示數據向量,輸出層表 示我們想要預測、分類或推斷的對象。例如,在圖像分類問題中,輸入是位映射 圖像數據的向量,輸出是指示圖像表示什么的標簽 -- 例如“貓”。
隱藏層中的神經元執行中間計算。隱藏層是不可直接解釋的抽象;它們僅僅用于 提高模型的質量。隱藏層可以使神經網絡學習任意復雜的功能。
如果人工神經網絡具有兩個或更多隱藏層,則它是一個深度神經網絡。
數據科學家使用術語“架構”來描述指定神經網絡的不同方法。有許多不同的神 經網絡架構,其特征在于拓撲結構、信息流動、數學功能和訓練方法。一些廣泛 使用的設計包括:
例如,在圖像識別中,一個神經元表示圖像中的一個像素。在卷積網絡中,該神經元可以連接到代表周圍像素的神經元,而不是連接到代表圖像的遠角中的像素的神經元。
還有許多其他類型的神經網絡,包括徑向基函數網絡、限制波爾茲曼機器、深度 信念網絡、深度自動編碼器、遞歸神經網絡和堆疊去噪自動編碼器。
神經網絡中的每個數學函數具有一個或多個參數或權重。參數的數量隨模型的大 小和復雜程度而增加;在一個極端的例子中,Cloudera 合作伙伴 Digital Reasoning報告了用 1600 萬個參數來訓練自然語言處理網絡。一個大的計算問題需要一個高效的優化算法,如隨機梯度下降或 L-BFGS。
數據科學家通過運行具有訓練數據的優化算法來訓練神經網絡。對于預測和推理 問題,訓練數據包括具有已知結果的歷史示例。優化算法確定一組預測誤差最小 化的參數。
大模型需要大量數據。例如,完成 ImageNet 基準測試的微軟團隊使用了 130 萬張圖像的數據。
像所有機器學習技術一樣,當組織機構將訓練過的模型應用于新的信息時,人工 神經網絡可以提供業務價值。數據科學家稱之為推論。推論與訓練正好相反。在 訓練任務中,數據科學家使用一系列廣泛的歷史樣本與已知的結果來估計模型的 參數。推論使用經過訓練的模型來預測或者推算未知。
深度學習有兩個關鍵優勢,使其與其他機器學習技術區分開。其中第一個是特征 學習。用其他的技術,數據科學家需要手動轉換特征以通過特定算法獲得最佳結果。 這個過程需要時間,也需要大量的猜測。相比之下,深度學習從多層次的輸入數 據中學習更高層次的抽象。數據科學家不用猜測如何組合、重新編碼或總結輸入。
此外,深度學習還可以檢測表面上看不見的變量之間的相互作用。它可以檢測非線 性相互作用并近似任意函數。雖然可以使用更簡單的方法來適應互動效應,但是這 些方法需要手動指定和數據科學家的更多猜測。深度學習會自動學習這些關系。
特征學習和檢測復雜關系的能力往往使深度學習成為某些類型數據的不錯選擇:
高基數結果。對于諸如語音識別和圖像識別等問題,學習者必須區分大量離散類別。(例如,語言識別應用程序必須在英語中區分近 20 萬個單詞。)數學家稱此屬性為基數。傳統的機器學習技術往往在這個任務中失敗;深度學習可以解決成千上萬的元素的分類問題。
高維數據。在諸如視頻分析、粒子物理或基因組分析等問題中,數據集可以具有數十億個特征。深度學習可以工作于這樣大量的“寬”數據集。
未標記數據。標簽提供有關數據包的有價值的信息。例如,圖像可以攜帶標簽“貓”。對于無監督學習,深度學習可工作于缺少信息標簽的數據(例如位映射圖像)。
與其他機器學習技術相比,深度學習也有一些缺點。
技術挑戰。深度學習是一個復雜的過程,需要實施者做許多選擇。這些選項包括 網絡拓撲、傳遞函數、激活函數和訓練算法等。方法和最佳實踐才剛剛出現;數 據科學家經常依靠試錯來發現湊效的模型。因此,深度學習模式往往比簡單和成 熟的技術花費更多的時間。
不透明。通過模型參數的檢查,深度學習模型很難或不可能解釋。這樣的模型可 能有很多隱藏層,沒有“真實世界”的指象。數據科學家通過衡量它的預測效果 來評估模型,將其內部結構視為“黑匣子”。
過度擬合。像許多其他機器學習技術一樣,深度學習易于過度擬合,傾向于“學習” 訓練數據的特征而不將整體推廣到整個人群。輟學和正則化技術可以幫助防止這 個問題。與任何機器學習技術一樣,組織機構應該對模型進行測試和驗證,并使 用獨立于訓練數據集的數據來評估準確性。
計算密集型。訓練深度學習模型可能需要數十億次計算。雖然可以在常規硬件上 執行此任務,但一些行業分析師建議使用專門的 GPU 加速平臺。這個硬件不便宜。 此外,由于對高性能機器的需求,一些客戶報告訂單和延長的交貨時間。
部署問題。深度學習模型是復雜的,這使得它們更難部署在生產系統中。由于模 型的不透明度,組織機構可能需要實施其他措施來向用戶進行說明。
看到這里,你對深入學習有沒有新的認識呢?如果感興趣可以關注我們慧都大數據,在后面的學習中我們將介紹Cloudera數據和機器學習的統一平臺,并展示實施深度學習的四種方法,以及提供六個實用技巧,幫助您的組織開始進行深度學習。
慧都大數據專業團隊為企業提供Cloudera大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢,我們將幫您轉接大數據專家團隊,并發送相關行業資料給您!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn