Apache Sqoop是用于Apache Hadoop與結構化數據存儲之間的數據傳輸工具。
標簽:開發商: Apache
當前版本: v1.4.6
產品類型:控件
產品功能:數據庫工具
平臺語言:
開源水平:不提供源碼
本產品的分類與介紹僅供參考,具體以商家網站介紹為準,如有疑問請來電 023-68661681 咨詢。
* 關于本產品的分類與介紹僅供參考,精準產品資料以官網介紹為準,如需購買請先行測試。
可以通過Hadoop的Mapreduce把數據從關系型數據庫導入數據到HDFS。
Sqoop在import時,需要制定split-by參數。Sqoop根據不同的split-by參數值來進行切分,然后將切分出來的區域分配到不同map中。每個map中再處理數據庫中獲取的一行一行的值,寫入到HDFS中。同時split-by根據不同的參數類型有不同的切分方法,如比較簡單的int型,Sqoop會取最大和最小split-by字段值,然后根據傳入的num-mappers來確定劃分幾個區域。 比如select max(split_by),min(split-by) from得到的max(split-by)和min(split-by)分別為1000和1,而num-mappers為2的話,則會分成兩個區域(1,500)和(501-100),同時也會分成2個sql給2個map去進行導入操作,分別為select XXX from table where split-by>=1 and split-by<500和select XXX from table where split-by>=501 and split-by<=1000。最后每個map各自獲取各自SQL中的數據進行導入工作。
更新時間:2016-01-25 16:58:48.000 | 錄入時間:2016-01-25 16:56:43.000 | 責任編輯:陳俊吉