原創|大數據新聞|編輯:鄭恭琳|2020-09-07 10:21:08.783|閱讀 275 次
概述:分布式消息系統是用于構建實時數據管道和流應用程序。具有橫向擴展、容錯、速度快等優點。分布式流處理框架是一種構建在分布式計算框架上的實時計算處理框架,它擴展了分布式計算框架處理大規模流式數據的能力。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
GetInsight是慧都自主研發、應用最靈活的大數據平臺。能夠幫助您隨時找到您想要的數據,使數據得到安全、穩定和高效的管理與應用。GetInsight是企業大數據解決方案的重要組成部分,除了提供完整的大數據功能組件,我們還提供組件自定義搭配,為企業選擇滿足方案需要的大數據功能組件,使您的大數據解決方案成本降到最低,從而高品質的解決您的大數據需求問題。
了解什么是GetInsight,請點擊這里查看GetInsight的基礎介紹>>
本文主要跟大家介紹GetInsight的分布式消息系統和分布式流處理框架。
分布式消息系統是一個分布式消息隊列:生產者、消費者的功能。它提供了類似于JMS的特性,但是在設計實現上完全不同,此外它并不是JMS規范的實現。
分布式消息系統是用于構建實時數據管道和流應用程序。具有橫向擴展、容錯、速度快等優點。
分布式消息系統對消息保存時根據主題進行歸類,發送消息者成為生產者,消息接受者成為消費者,此外分布式消息系統集群有多個實例組成,每個實例(server)成為broker。無論是分布式消息系統集群,還是生產者和消費者都依賴于分布式協調工具來保證系統可用性集群保存一些meta信息。
GetInsight分布式消息系統的特性
GetInsight分布式消息系統的功能
在大數據平臺上,分布式消息系統主要是用來處理實時流數據,作為一個消息中間件來使用,用來接收其他組件或服務實時產生的消息數據,這可以是大量的,產生的速度也可以是很快的,分布式消息系統提供了主題的概念,它會根據消息的主題分類存儲起來,提供了持久化機制,容錯機制,處理的速度效率非常快。然后結合大數據平臺上其他的組件如分布式流處理框架來對消息系統上的消息進行消費。消費的處理是在消費者角色端進行。
GetInsight分布式消息系統的應用場景
日志收集,分布式消息系統可以收集各種服務的log,通過消息系統以統一接口服務的方式開放給各種consumer,例如Hadoop、Hbase、Solr等。
運營指標:Kafka也經常用來記錄運營監控數據。包括收集各種分布式應用的數據,生產各種操作的集中反饋,比如報警和報告。
作為一個大量的,高吞吐量的數據采集系統的數據緩沖,因為當信息采集平臺將這些變化的數據信息寫入或更新到數據庫時候,會給數據庫代理非常大的壓力,甚至可以直接將數據庫掛掉。所以就可以使用分布式消息系統來作為一個中間件,對實時的大量的數據進行緩沖,然后再寫入到數據庫中。
數據中心處理過的數據需要實時共享給幾個不同的機構。我們常采用的方法是將數據批量存放在數據采集機,分支機構定時來采集;或是分支機構通過JDBC、RPC、HTTP或其他機制實時從數據中心獲取數據。這兩種方式都存在一定的問題,前者在于實時性不足,還牽涉到數據完整性問題;后者在于,當數據量很大的時候,多個分支機構同時讀取數據,會對數據中心的造成很大的壓力,也造成很大的資源浪費。所以也可以用到分布式消息系統來解決這兩個問題。
分布式流處理框架是一種構建在分布式計算框架上的實時計算處理框架,它擴展了分布式計算框架處理大規模流式數據的能力。
分布式流處理框架在內部的處理機制是:接收實時流的數據,并根據一定的時間間隔拆分成一批批的數據,然后通過分布式計算框架處理這些批數據,最終得到處理后的一批批結果數據。對應的批數據,在計算框架內核對應一個RDD實例,因此,對應流數據的DStream可以看成是一組RDDs,即RDD的一個序列。通俗點理解的話,在流數據分成一批一批后,通過一個先進先出的隊列,然后分布式計算框架從該隊列中依次取出一個個批數據,把批數據封裝成一個RDD,然后進行處理。
分布式流處理框架對數據的處理其實并不是真正意義上的實時,并不是真正來一條數據就處理一條數據,而是根據分隔的時間片(例如1秒鐘)來做到的準實時,把每一個時間片內到達的數據看做一組數據進行處理。所以,分布式流處理框架能做到的就是在秒級別的實時相應。
GetInsight分布式流處理框架的特性
GetInsight分布式流處理框架的功能
對數據來源的實時流數據進行實時的處理,通過設置時間間隔的方式來滿足不同業務需求對實時性的不同要求,間隔設置得越小,實時性就會越高。但是數據的處理是需要時間的,雖然分布式流處理框架的數據處理能力非常強,而且處理的速度特別快,但是當數據量大到一定程度,也是需要時間來處理的,所以這個時間間隔設置得需要合理,不能夠太短,太短就會導致異常。
GetInsight分布式流處理框架的應用場景
分布式流處理技術應用場景主要體現在三個大的方面:實時營銷、實時服務、實時監控以及實時同步應用場景。
實時營銷:根據特定消費者當前的個性需求,為其提供商品,該商品在被消費過程中可自動收集顧客信息,分析、了解消費者的偏好和習慣,自動調整產品功能,實時地適應消費者變化著的需求,金融、電商以及廣告等行業有較多應用場景體現。金融:根據客戶信用卡消費記錄,掌握客戶的消費習慣和偏好,預測客戶未來的消費需求,并為其推薦個性化的金融產品。電商:根據電商平臺用戶瀏覽商品的分類、價格區間、品牌等因素對用戶進行個性化推薦促成交易。廣告:根據客戶的查詢偏好、瀏覽歷史、地理位置等綜合語義決定插入什么廣告、在什么位置插入這些廣告能得到最佳效果。電商平臺、非電商業務系統以及外部數據共同描繪出用戶畫像,當用戶訪問電商網站、電商APP等觸點時,根據用戶畫像為用戶進行商品、商戶等個性化實時推薦。再根據用戶操作進行推薦算法以及畫像修正。
實時服務:對消費者動態需求的快速反應,隨時滿足消費者在消費過程中新產生的需求,提高消費者的滿意程度,培養消費者對企業的忠誠度并提升企業的競爭力,社交、電信以及交通等行業有較多應用場景體現。社交:實時分析用戶的狀態信息,及時提供最新的用戶分享信息到相關的朋友,準確地推薦朋友,推薦主題,提升用戶體驗,并能及時發現和屏蔽各種欺騙行為。交通:實時接收用戶使用手機軟件發送的約車請求,司機根據約車請求進行接單(或派單),到達目的地后進行實時結算服務。電信:用戶流量、資費實時統計做到個性化提醒服務;套餐、終端、閱讀、動漫等根據用戶畫像進行個性化推薦服務。由于打車服務是典型的基于LBS(地理位置實時定位系統)的應用,實時性要求高且用戶請求服務器并發量大。司機每隔幾秒鐘上報一次經緯度,乘客發單時,圈選出附近司機,將訂單推送給司機,司機接單,開始服務。
實時監控:實時監控一般是指利用軟件或硬件采集信息,并用采集到的信息對系統、環境、硬件等運行狀態進行實時的監控。制造:對機械運行狀態信息進行實時監控,分析出可能產生問題的部件進行預警。交通:通過傳感器實時感知車輛、道路的狀態,并分析和預測一定范圍、一段時間內的道路流量情況,以便有效地進行分流、調度和指揮。金融:信用卡詐騙、保險詐騙、證券交易詐騙、程序交易等需要實時跟蹤發現。
實時同步:對一些異構數據庫之間進行實時數據同步,當然,需要用到分布式流處理框架的實時同步一般是產生數據量比較快,數據量很大的情況下,由于傳統的同步方法一試沒有消息中間件來緩沖大量的數據,而是對數據類型的轉換需要時間,不能滿足實時性的要求,所以就可以用到分布式流處理框架結合分布式消息系統來滿足。消息系統負責緩沖實時數據,流處理框架負責處理實時數據,進行類型轉換計算等,然后寫入到目標數據庫或者文件中,由于分布式流處理框架是基于分布式就算框架的,而分布式計算框架是基于內存的,且是分布式運行,多以速度非常快,能夠滿足實時性要求,所以,分布式流處理框架也可以用來做實時同步工具。
關于慧都大數據分析平臺
慧都大數據分析平臺「GetInsight®」升級發布,將基于企業管理駕駛艙、產品質量分析及預測、設備分析及預測等大數據模型的構建,助力企業由傳統運營模式向數字化、智能化的新模式轉型升級,抓住數據經濟的發展勢頭,提供管理效能,精準布局未來。了解更多,請聯系。
慧都大數據專業團隊為企業提供商業智能大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業的大數據團隊,為您提供免費大數據相關業務咨詢!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn