www.午夜成人,浓毛熟女X66AV,无码不卡一区

簡(jiǎn)述實(shí)時(shí)流處理系統(tǒng)的用例

轉(zhuǎn)帖|行業(yè)資訊|編輯：郝浩|2016-06-15 10:47:32.000|閱讀 229 次

概述：本文闡述了為什么比起Hadoop之類的知名技術(shù)，類似Apache Storm這樣的系統(tǒng)更加有用。

# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>

讓我們以經(jīng)典的筆記本品牌實(shí)時(shí)情感分析（SENTIMENT ANALYSIS）為例，在進(jìn)行觀點(diǎn)分析時(shí)，處理流程應(yīng)當(dāng)如下圖所示：

從類似Twitter、Facebook、電子商務(wù)網(wǎng)站之類的不同來源收集數(shù)據(jù)。
以一些“高吞吐量”這樣的關(guān)鍵字為基礎(chǔ)，我們篩選出了一些數(shù)據(jù)。
為不同來源的各條信息生成情感分析。
為存儲(chǔ)處理的數(shù)據(jù)設(shè)立存儲(chǔ)機(jī)制。

現(xiàn)在的問題在于：是否能夠通過大數(shù)據(jù)系統(tǒng)來解決，請(qǐng)使用Hadoop來執(zhí)行下列處理：

如果我們運(yùn)行Hive Query、Pig Script或MapReduce的話，由于必須從HDFS（從硬盤讀取）中讀取數(shù)據(jù)，整個(gè)處理過程需要耗費(fèi)數(shù)小時(shí)才能進(jìn)行處理，因此理論上來說是無法實(shí)時(shí)執(zhí)行數(shù)據(jù)處理的（它們遵循靜態(tài)數(shù)據(jù)原則）。

由于Hadoop設(shè)計(jì)時(shí)就是為了執(zhí)行批處理，而且需要花費(fèi)數(shù)小時(shí)才能生成結(jié)果，因此針對(duì)Hadoop是否能夠執(zhí)行實(shí)時(shí)處理的問題，答案是否定的。 ;

總結(jié)一下，由于所使用的是基于批處理的方式，Hadoop無法解決實(shí)時(shí)問題。

有很多需要我們執(zhí)行實(shí)時(shí)數(shù)據(jù)處理的用例，比如：

反欺詐
情緒分析
日志監(jiān)控
處理客戶的行為

那么現(xiàn)在我們?nèi)绾翁幚磉@類特殊的問題呢？我們需要使用一些實(shí)時(shí)的流數(shù)據(jù)機(jī)制（一切都在內(nèi)存中完成，遵循動(dòng)態(tài)數(shù)據(jù)原則）。

實(shí)時(shí)處理的典型流程如下圖：

不過想要使用這種方法，需要先解決下面這些問題：

數(shù)據(jù)流：數(shù)據(jù)需要在數(shù)據(jù)管道（Data Pipeline）中以流數(shù)據(jù)的形式發(fā)送。
容錯(cuò)：如果有某個(gè)進(jìn)程出錯(cuò)，那么故障轉(zhuǎn)移機(jī)制是什么樣的呢？
擴(kuò)展：如果數(shù)據(jù)規(guī)模增長(zhǎng)的話，能否很容易地?cái)U(kuò)展集群以增加處理數(shù)據(jù)的性能？
確保信息處理：是否能確保信息得到處理？
編程語言不可知論：是否會(huì)是獨(dú)立的編程？

有一些類似Apache Storm之類的實(shí)時(shí)數(shù)據(jù)流機(jī)制能夠幫助我們解決這些問題。現(xiàn)在我們?cè)囍卮鹕厦娴膯栴}，看使用Apache Storm能否得出答案。