原創|行業資訊|編輯:龔雪|2017-03-09 16:28:18.000|閱讀 157 次
概述:自己構建自己構建Hadoop大數據環境似乎是一個很經濟實惠的選擇,但是如果不注意以下三大陷阱,你可能會栽一個大跟頭。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
“IT部門認為‘我已經有服務器,我還可以買到便宜的服務器,我也有人員,所以我們不用花多少錢就可以構建自己的Hadoop集群’,這當然是一件好事,但是IT部門在部署時會發現這里會有很多他們沒有預料到的額外開銷。” 骨文公司大數據產品經理Jean-Pierre Dijck如是說。由此我們必須思考一個問題,那就是:如果企業想要自己構建Hadoop大數據環境,需要注意哪些問題呢?
陷阱一:用很廉價的方式也能構建起Hadoop?
很多IT部門不清楚Hadoop集群應該完成什么使命(除了分析某些類型的數據),所以他們會購買盡可能便宜的服務器。
“Hadoop被認為是可自愈的,所以當服務器的一個節點出現故障,構不成大問題,”Dijcks稱,“但如果你購買廉價的服務器,很多節點出現故障那么你就要花更多時間來修復硬件,如果一大堆節點都不運行了,這就會造成大問題。”
如果你的Hadoop集群只是實驗,那么以上這些可能不是問題。然而,很多實驗性項目通常最后都會進入生產環境。IT部門認為,“我們已經投入了大量的時間,我們已經做了很多工作,現在我們需要將其投入生產,”Dijcks說道,“在實驗期間,如果環境出現問題,只要重新啟動即可,但在生產環境,集群需要能夠抵御硬件故障、人為交互故障以及任何可能發生的事情。”
Forrester公司在其2016年第二季度報告“大數據Hadoop優化系統”中指出,我們需要大量時間和精力用于安裝、配置、調試、升級和監控通用Hadoop平臺的基礎設施,而預配置Hadoop優化系統可提供更快的時間價值、降低成本、最小化管理工作以及模塊化擴展功能。
陷阱二:Hadoop更新的 頻率并不高,也并不復雜?
新版Hadoop(例如來自Cloudera和Hortonworks)每三個月發布一次,這些通常包含新特性、新功能、更新、漏洞修復等。
“除了保持Hadoop集群運行所需的所有人類操作外,每三個月都會有新的升級版本,”Dijcks稱,“你完成升級的那一刻,你必須開始規劃下一次升級。這相當復雜,所以有些人開始跳過更新。”即使你跳過幾次更新,最終你還是會需要更新,例如從5.4升級到5.7。
雖然Cloudera和Hortonworks會嘗試測試盡可能多的場景,“他們不能測試你特定操作系統版本或者對特定工作操作的影響,”Dijcks稱,“你的環境可能有思科路由器或者Red Hat操作系統或者IBM硬件,同時,如果這個集群正用于大數據生產項目,而你需要更新時,就有可能會制造出明顯的停機時間。”
陷阱三:需要面對的安全挑戰并不嚴峻?
在Hadoop早期,安全沒有被視為一個大問題,因為集群仍位于防火墻后面。而現在,安全已經成為最大的問題。
目前Kerberos身份驗證已經內置到Hadoop來解決這些問題,但有些IT企業不知道如何處理此協議,“整合Kerberos到企業的Active Directory非常復雜,”他表示,“你需要在Active Directory和一系列組件之間進行非常多集成工作。且這方面的文檔非常少,最要命的是這涉及到安全管理員和IT其他團隊,這些人員幾乎是使用完全不同的語言。”
有些IT部門最終會與Cloudera、Hortonworks或其他第三方簽署合同以保護他們的DIY Hadoop集群。“這需要一些時間才能完成設置、測試等工作,”Dijcks稱,“然后每過三個月,你都需要重新做一次,以確保應用和配置等一切的正常運行。”
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn