原創|使用教程|編輯:鄭恭琳|2020-05-26 15:01:48.773|閱讀 202 次
概述:這篇文章概述了OpDB的NoSQL,組件集成和對象存儲支持功能。這些細節將幫助應用程序架構師了解Cloudera的操作數據庫的靈活NoSQL(無模式)功能,以及它們是否滿足正在構建的應用程序的要求。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
這篇文章是CDP中Cloudera的操作數據庫(OpDB)系列文章的一部分。每篇文章都會詳細介紹新功能。從本系列的開頭以CDP中的Operational Database開始。
這篇博客文章概述了OpDB的NoSQL,組件集成和對象存儲支持功能。這些細節將幫助應用程序架構師了解Cloudera的操作數據庫的靈活NoSQL(無模式)功能,以及它們是否滿足正在構建的應用程序的要求。
Cloudera的Operational Database(OpDB)是一個多模型,因為它在系統內部支持許多不同類型的對象模型。
用戶可以選擇鍵值、寬列和關系,或提供自己的對象模型。
JSON,XML和其他模型也可以通過例如Nifi,Hive進行轉換和存儲,或者以鍵-值對形式原生存儲,并使用例如Hive進行查詢。還可以通過JSONRest使用自定義實現來支持JSON和XML。
Cloudera的OpDB為一致的對象存儲提供直接支持,例如Azure Data Lake Store和S3(AWS本機和Ceph等實現)。
對象存儲可用于存儲大量數據駐留的HBase存儲文件或作為備份目標。
核心價值
Cloudera的OpDB默認情況下會存儲未類型化的數據,這意味著任何對象都可以原生存儲在鍵值中,而對存儲值的數量和類型幾乎沒有限制。對象的最大大小是服務器的內存大小。
Table樣式
Cloudera的OpDB是一個寬列的數據存儲,并且本機提供表樣式的功能,例如行查找以及將數百萬列分組為列族。
列族必須在創建表時定義。不必在創建表時定義列,而是根據需要創建列,從而可以進行靈活的模式演變。
列中的數據類型是靈活的并且是用戶定義的。用戶可以決定是要利用這種靈活性還是要利用關系DBMS功能來換取降低數據類型的靈活性。
|
Column Family |
|
Column Family |
|
|
Column |
Column |
Column |
Column |
RowKey |
Cell |
Cell |
Cell |
Cell |
RowKey |
Cell |
Cell |
Cell |
Cell |
無沖突的復制數據類型
Cloudera的OpDB支持無沖突的復制數據類型(CRDT)。默認情況下提供它,并且復制子系統提供強大的最終一致性或強大的時間軸一致性。
HDFS整合
由于Cloudera在該領域的強大實力,它提供了包括HDFS在內的整個Hadoop生態系統的緊密集成。
可以使用快照導出數據,也可以從正在運行的系統導出數據,也可以通過離線直接復制基礎文件(HDFS上的HFiles)來導出數據。
Spark整合
Cloudera的OpDB支持Spark。存在與Spark的多種集成,使Spark可以將表作為外部數據源或接收器進行訪問。用戶可以在DataFrame或DataSet上使用Spark-SQL進行操作。
有了DataFrame和DataSet支持,就可以使用催化劑中的所有優化技術。通過這種方式,可以實現數據局部性、分區修剪、謂詞下推、掃描和BulkGate。可以將Spark Worker節點共置于群集中,以實現數據局部性。還支持對OpDB的讀寫。
對于每個表,必須提供目錄。該目錄包括行鍵,具有數據類型和預定義列系列的列,并且它定義了列與表模式之間的映射。目錄是用戶定義的json格式。
HBase數據幀是標準的Spark數據幀,并且能夠與任何其他數據源(例如Hive,ORC,Parquet,JSON等)進行交互。Java基本類型被支持為三個內部Serdes:Avro,Phoenix和PrimitiveType。
流媒體
Cloudera提供了幾種流數據處理框架和工具,這些框架和工具與其OpDB產品集成在一起。
Cloudera DataFlow是一個可擴展的實時流數據平臺,可收集、整理和分析數據,從而使客戶獲得關鍵見識,以立即采取行動。
流管理
Cloudera Flow Management(CFM)是由Apache NiFi支持的無代碼數據提取和管理解決方案。它為企業提供了高度可擴展的數據移動、轉換和管理功能。簡而言之,Nifi旨在自動執行系統之間的數據流。有關更多信息,請參閱Cloudera Flow Management。
流分析
由Apache Flink支持的Cloudera Streaming Analytics提供了用于實時流處理和流分析的框架。CSA提供了低延遲的靈活流解決方案,可以擴展到大吞吐量和狀態。它根據所選的源和接收器提供所需的連接器,例如HBase Streaming連接器。有關更多信息,請參閱Cloudera流分析
流處理
Cloudera流處理(CSP)提供了高級消息傳遞,流處理和分析功能,這些功能由Apache Kafka作為核心流處理引擎提供支持。它還提供了流管理功能。有關更多信息,請參閱Cloudera流處理。
Spark Streaming是在Spark之上構建的微批處理流處理框架。HBase和Spark Streaming成為了很好的伴侶,因為HBase可以與Spark Streaming一起提供以下好處:
在此博客文章中,我們介紹了OpDB的NoSQL功能。我們還看到了OpDB如何與CDP中的其他組件集成。
這是有關CDP中Cloudera的操作數據庫(OpDB)系列文章中的最后一篇文章。您可以從CDP中的Operational Database從該系列的開頭開始。
關于Cloudera
在 Cloudera,我們相信數據可以使今天的不可能,在明天成為可能。我們使人們能夠將復雜的數據轉換為清晰而可行的洞察力。Cloudera 為任何地方的任何數據從邊緣到人工智能提供企業數據云平臺服務。在開源社區不懈創新的支持下, Cloudera推動了全球最大型企業的數字化轉型歷程。了解更多,請聯系。
慧都大數據專業團隊為企業提供Cloudera大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業的大數據團隊,為您提供免費大數據相關業務咨詢!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn