久久这里只有精品资源,美女三级片网站,日韩一区二

欧美日韩亚-欧美日韩亚州在线-欧美日韩亚洲-欧美日韩亚洲第一区-欧美日韩亚洲二区在线-欧美日韩亚洲高清精品

收藏 | “大數據”學習資源（上）

轉帖|行業資訊|編輯：陳俊吉|2016-07-20 09:23:09.000|閱讀 347 次

概述：當前，整個互聯網正在從IT時代向DT時代演進，大數據技術也正在助力企業和公眾敲開DT世界大門。當今“大數據”一詞的重點其實已經不僅在于數據規模的定義，它更代表著信息技術發展進入了一個新的時代，代表著爆炸性的數據信息給傳統的計算技術和信息技術帶來的技術挑戰和困難，代表著大數據處理所需的新的技術和方法，也代表著大數據分析和應用所帶來的新發明、新服務和新的發展機遇。

# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>

相關鏈接：

當前，整個互聯網正在從IT時代向DT時代演進，大數據技術也正在助力企業和公眾敲開DT世界大門。當今“大數據”一詞的重點其實已經不僅在于數據規模的定義，它更代表著信息技術發展進入了一個新的時代，代表著爆炸性的數據信息給傳統的計算技術和信息技術帶來的技術挑戰和困難，代表著大數據處理所需的新的技術和方法，也代表著大數據分析和應用所帶來的新發明、新服務和新的發展機遇。

為了幫助大家更好深入了解大數據，云棲社區組織翻譯了GitHub Awesome Big Data資源，供大家參考。本資源類型主要包括：大數據框架、論文等實用資源集合。

資源列表：

關系數據庫管理系統（RDBMS）
框架
分布式編程
分布式文件系統
文件數據模型
Key -Map 數據模型
鍵-值數據模型
圖形數據模型
NewSQL數據庫
列式數據庫
時間序列數據庫
類SQL處理
數據攝取
服務編程
調度
機器學習
基準測試
安全性
系統部署
應用程序
搜索引擎與框架
MySQL的分支和演化
PostgreSQL的分支和演化
Memcached的分支和演化
嵌入式數據庫
商業智能
數據可視化
物聯網和傳感器
文章
論文
視頻

關系數據庫管理系統（RDBMS）

：世界最流行的開源數據庫；
：世界最先進的開源數據庫；
：對象-關系型數據庫管理系統。

框架

：分布式處理架構，結合了 MapReduce（并行處理）、YARN（作業調度）和HDFS（分布式文件系統）；
：高吞吐量實時流處理框架。

分布式編程

：最初在AddThis上開發的分布式數據處理和存儲系統；
：用在Hadoop MapReduce v1上運行Spark；
：為統一的模型以及一套用于定義和執行數據處理工作流的特定SDK語言；
：一個簡單的Java API，用于執行在普通的MapReduce實現時比較單調的連接、數據聚合等任務；
：由LinkedIn開發的針對Hadoop and 和Pig的用戶定義的函數集合；
：具有高性能的執行時間和自動程序優化；
：內存中的數據模型和持久性框架；
：BSP（整體同步并行）計算框架；
：在集群上使用并行、分布式算法處理大數據集的編程模型；
：Hadoop中，用于處理數據分析程序的高級查詢語言；
：用來簡化和統一低層大數據系統的保留性評估執行框架；
：S4中流處理與實現的框架；
：內存集群計算框架；
：流處理框架，同時是Spark的一部分；
：Twitter流處理框架，也可用于YARN；
：基于Kafka和YARN的流處理框架；
：基于YARN，用于執行任務中的復雜DAG（有向無環圖）；
：基于YARN的抽象概念，用于減少開發分布式應用程序的復雜度；
：數據處理和查詢庫；
：在MapReduce之上的高性能、自定義數據倉庫；
：在Hadoop上的數據管理/分析框架；
：用于Clojure的MapReduce庫；
：可選擇的MapReduce范例；
：為實時引擎，用于以盡可能暢通的方式、最小的開支和對性能最小的影響，實現分布式、異步、實時的內存大數據計算；
：為Hadoop做優化處理，從而消除單點故障；
：MapReduce框架；
：分布式內存數據存儲；
：創建數據管道，以幫助其分析框架；
：為MapReduce，用于編譯成Apache Pig；
：由Nokia開發的MapReduc獲取、轉換和分析數據；
：MapReduce框架；
：容錯流處理框架；
：用于處理結構化、半結構化和非結構化數據工作的聲明性編程語言；
：為一組庫、工具、實例和文檔集，用于使在Hadoop的生態系統上建立系統更加容易；
：用于大數據集的實時e框架；
：分布式云計算；
：異步任務執行系統；
：用于Hadoop的Python MapReduce和HDFS API；
：多租戶分布式測度處理系統；
：通用集群計算框架；
：用于計算基于不同時間窗口的事件流的活動，并找到最活躍的一個；
：易于使用的用于分批處理和流計算的平臺，通過Scala、 Akka和Play所建；
：基于Cascading，用于Map Reduce工作的Scala庫；
：在Twitter上使用Scalding和Storm串流MapReduce；
：Twitter上的時間序列聚合器。

分布式文件系統

：在多臺機器上存儲大型文件的方式；
：以前是FhGFS，并行分布式文件系統；
：設計的軟件存儲平臺；
：分布式文件系統；
：對象存儲系統；
：分布式文件系統(GFS2)；
：分布式文件系統；
：可擴展的、高度可用的存儲；
：兼容GGFS、Hadoop內存的文件系統；
：高性能分布式文件系統；
：開源分布式文件系統；
：向外擴展的附網存儲（Network-attached Storage）文件系統；
：簡單的、高度可擴展的分布式文件系統；
：以可靠的存儲速率在跨集群框架上文件共享；
：分布式云存儲系統；

文件數據模型

：商用的面向對象數據庫管理系統；
：是一個開源的大規模可擴展的數據存儲，需要零管理模式；
：Facebook的Paxos算法，類似于NoSQL數據庫；
：基于Hadoop的面向文檔的數據存儲；
：可橫向擴展的面向文檔的NoSQL數據存儲；
：模式不可知的企業版NoSQL數據庫技術；
：面向文檔的數據庫系統；
：一個事務性的，開源文檔數據庫；
：支持連接查詢和群組依據等查詢的文檔型數據庫。

Key Map 數據模型

注意：業內存在一些術語混亂，有兩個不同的東西都叫做“列式數據庫”。這里列出的有一些是圍繞“key-map”數據模型而建的分布式、持續型數據庫，其中所有的數據都有（可能綜合了）鍵，并與映射中的鍵-值對相關聯。在一些系統中，多個這樣的值映射可以與鍵相關聯，并且這些映射被稱為“列族”（具有映射值的鍵被稱為“列”）。

另一組也可稱為“列式數據庫”的技術因其存儲數據的方式而有別于前一組，它在磁盤上或在存儲器中——而不是以傳統方式，即所有既定鍵的鍵值都相鄰著、逐行存儲。這些系統也彼此相鄰來存儲所有列值，但是要得到給定列的所有值卻不需要以前那么繁復的工作。

前一組在這里被稱為“key map數據模型”，這兩者和之間的界限是相當模糊的。后者對數據模型有更多的存儲格式，可在中列出。若想了解更多關于這兩種模型的區分，可閱讀Daniel Abadi的博客：。