轉帖|行業資訊|編輯:龔雪|2014-09-25 10:58:57.000|閱讀 405 次
概述:本次QCon上海的Hadoop專題出品人王峰(莫問)接受了InfoQ郵件采訪,談到自己在阿里的工作,YARN的優勢以及Stream和Spark等平臺的比較。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
Hadoop從互聯網誕生,但近些年在整個大數據領域呈現爆發式發展和進化,尤其是在2013年Hadoop 2.0正式Release后,Hadoop有了正式的 Operation System—YARN,從此Hadoop不再只是MapReduce的代名詞,Storm、Spark、Graph,MPI等越來越多的計算模型可以運 行在YARN上,批處理計算、實時流式計算、迭代交互計算等都可以同時運行在Hadoop集群上,Hadoop已經成為大數據計算的全能平臺。HBase 隨著近幾年的高速發展和應用,已經成為大數據技術領域最主流的NoSQL數據庫;Tez和Spark的出現讓Hive擁有了更高效的計算引擎可以選 擇;Impala和Stringer更是將大數據SQL帶入到了Realtime時代;Ambari的誕生和快速發展也大幅降低了Hadoop集群的運維 門檻。隨著Hadoop開源社區不斷涌現出各種令人興奮的新技術,逐步完善的Hadoop生態系統已經成為大數據行業發展的核心動力。
本次QCon上海的Hadoop專題出品人王峰(莫問)接受了InfoQ郵件采訪,談到自己在阿里的工作,YARN的優勢以及Stream和Spark等平臺的比較。
InfoQ:為什么會做這次QCon上海“Hadoop,超越MapReduce”的出品人?
王峰:我在阿里的8年中一直從事搜索和分布式技術研發,自2010年開始基于Hadoop生態技術構建阿里的搜索離線技術平臺,統一支持淘寶、天 貓、1688、一淘和云搜索等多條搜索業務線的后臺數據處理,親自帶領團隊經歷了Hadoop從1.0到2.0的平臺演化之路,本次受我們阿里的朱鴻老師 邀請,有幸成為“Hadoop,超越MapReduce”的出品人。
InfoQ:您一直負責為阿里集團服務業務提供平臺數據支持,請給大家簡要介紹一下整體情況?
王峰:我負責的阿里搜索離線技術團隊,為阿里集團的搜索業務提供統一的離線基礎數據平臺支持,目前我們基于YARN構建了統一的計算平臺,支持批處 理、實時流式等多種計算模型支持;基于HBase構建了統一存儲平臺,支持KV,SQL,Queue等多種存儲模型,計算+存儲共享集群資源,同一套基礎 架構同時支持淘寶、天貓、1688、一淘和云搜索等多條搜索業務線,為阿里的搜索引擎提供實時、增量、全量的全數據支持。
InfoQ:2013年阿里搜索全面升級YARN,比起之前來講有什么優勢呢?
王峰:第一次接觸YARN是在2011年低在美國參加Hadoop World,隨即造訪了Hortonworks,更加詳細深入的理解了YARN的設計思路,感覺這個東西如果成熟了,就是Hadoop OS,Hadoop的計算能力將產生飛越。但如果只在YARN上單純運行MapReduce,其價值將不會有質的變化,最大的好處也就是把集群規模可以做 的更大了,這個意義就大打折扣了。升級到YARN的最終目標應該是讓計算模型更加豐富,并產出統一的計算平臺,降低維護成本,更大程度的擴大集群資源利用 率,發揮云計算的效果。我們阿里搜索的Hadoop升級到YARN以后,不僅運行了傳統的MapReduce、Hive,還自主研發了iStream(流 式計算引擎)、iCall(基于Thrift的分布式RPC服務),后續還計劃嘗試Tez,Spark等新式計算模型,統一的計算平臺相比之前的 MapReduce Job,無論是效率,成本還是對業務支持的靈活性都實現了質的飛躍。
InfoQ:我們還看到淘寶自主研發了iStream流式計算引擎,這方面的工作也想請您簡要介紹一下。
王峰:其實我們當初最早是嘗試storm,但storm最大的問題是無法和hadoop集群復用,單獨存在的storm集群讓我們運維成本增加,同 時資源利用率也上不去,出現各種問題也無法根本解決,YARN的出現讓我們有了新的思路。iStream天然是基于YARN來設計的,因此其在設計理念上 最大的亮點就是考慮了如何和其他計算模型共存,達到實時計算效果的同時,還可以實現計算平臺的全局最優化,例如:iStream可以自動感知流處理的進度 快慢,智能調整計算節點的數量,即高峰期可以自動擴容節點保證處理速度,低峰期也可以在保證進度的條件下合理釋放節點,讓資源在多計算模型場景下真正按需 分配。現在阿里搜索的hadoop集群上,iStream承擔了流式數據處理的角色,為搜索引擎提供實時增量數據,MapReduce承擔了全量或者批量 數據處理的角色,為搜索引擎提供全量數據,兩種計算模型可以自動合理的配合,無需人工運維干預。
InfoQ:Spark平臺目前挺火的,您在這方面是否有所涉及?
王峰:Spark目前可以算是最火的計算模型,不過我們還沒有將Spark投入生產,原因不是我們不認可Spark,而是Spark強在迭代計算和 實時SQL,這塊在搜索主流程中的場景不是特別明顯。簡單來說,Spark Streaming在我們這里有了iStream,實時性和資源管理更加專業;Spark SQL在我們這里有了Phoenix(SQL On HBase),因為我們的數據基本都在HBase,基礎的SQL場景,我們用Phoenix可以輕量級的解決了;迭代運算都是算法訓練的純離線過程,都在 阿里的云梯和ODPS上運行了。
InfoQ:作為行業翹楚,您對Hadoop的認識非常深刻,不知您有沒有比較好的圖書、社區推薦給廣大讀者?
王峰:其實我個人閱讀的Hadoop相關的圖書并不多,除了幾本英文經典之外,大部分信息都是通過社區文檔、 hortonworks/cloudera的blog、slideshare上的各種會議slides以及微博/twitter獲取的,當然經常去 hadoop社區的jira上看看issue,閱讀一些源碼也是必不可少的。
InfoQ:最后一個比較八卦的小問題,請您談談花名“莫問”的由來?
王峰:雖然我在阿里已經超過8年了,但我前幾年在雅虎中國和阿里云,2010年轉到淘寶的時候,好的花名已經都沒有了,“莫問”這個名字是“七劍” 中傅青主拿的那把劍的名字,是“七劍”智慧的象征,同時也挺喜歡七劍中“莫問前程有愧,但求今生無悔“這句話,所以就起名“莫問”了。
來源:infoq 作者:張天雷
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:慧都控件網