HDFS 是運行在商業硬件上的分布式文件系統
標簽:開發商: Apache
產品類型:控件
產品功能:工業數據采集軟件
平臺語言:
開源水平:不提供源碼
本產品的分類與介紹僅供參考,具體以商家網站介紹為準,如有疑問請來電 023-68661681 咨詢。
HDFS 全稱為The Hadoop Distributed File System,是運行在通用硬件上的分布式文件系統。它與其它的分布式文件系統有許多相似之處,但也有著非常顯著的區別。作為一種支持高容錯性,面向低成本硬件部署 的分布式文件系統,HDFS還提供了訪問應用程序數據的高吞吐量支持,這非常適用于包含大型數據集的應用程序。
HDFS最初是作為Apache Nutch web搜索引擎項目的基礎結構,現在它是Apache Hadoop的子項目。
聲明:本產品中文介紹為慧都網版權所有,未經慧都公司書面許可,嚴禁拷貝、轉載!
* 關于本產品的分類與介紹僅供參考,精準產品資料以官網介紹為準,如需購買請先行測試。
硬件故障是一種常態,而不是偶然。整個HDFS系統由數百或數千個存儲著文件數據片斷的服務器組成。實際上它里面有非常巨大的組成部分,每一個組成部分都很可能出現故障,這就意味著HDFS里的常有一些部件是失效的,因此,故障檢測和自動快速恢復是HDFS的一個很核心的設計目標。
運行在HDFS之上的應用程序需要通過數據流的方式訪問它們的數據集,它們不是運行在普通文件系統之上的普通程序。HDFS被設計成適合批量處理的,而不是用戶交互式的。設計重點在于數據吞吐量,而不是數據訪問的反應時間,POSIX的很多硬性需求對于HDFS應用都是非必須的,去掉POSIX一小部分關鍵語義可以獲得更好的數據吞吐率。
運行在HDFS之上的程序有很大量的數據集。典型的HDFS文件大小是GB到TB的級別。所以,HDFS被調整成支持大文件。它應該提供很高的聚合數據帶寬,一個集群中支持數百個節點,一個集群中還應該支持千萬級別的文件。
大部分的HDFS程序對文件操作需要的是一次寫多次讀取的操作模式。一個文件一旦創建、寫入、關閉之后就不需要修改了。這個假定簡單化了數據一致的問題和并使高吞吐量的數據訪問變得可能。一個Map-Reduce程序或者網絡爬蟲程序都可以完美地適合這個模型。
在靠近計算數據所存儲的位置來進行計算是最理想的狀態,尤其是在數據集特別巨大的時候。這樣消除了網絡的擁堵,提高了系統的整體吞吐量。一個假定就是遷移計算到離數據更近的位置比將數據移動到程序運行更近的位置要更好。HDFS提供了接口,來讓程序將自己移動到離數據存儲更近的位置。
HDFS被設計成可以簡便地實現平臺間的遷移,這將推動需要大數據集的應用更廣泛地采用HDFS作為平臺。
更新時間:2016-01-22 14:24:23.000 | 錄入時間:2016-01-22 14:03:32.000 | 責任編輯:陳俊吉