www.国产三级片,国产第一区,福利片国产视频区

Hadoop教程：阿里巴巴搜索離線技術團隊負責人談Hadoop

轉帖|行業資訊|編輯：龔雪|2014-09-25 10:58:57.000|閱讀 405 次

概述：本次QCon上海的Hadoop專題出品人王峰（莫問）接受了InfoQ郵件采訪，談到自己在阿里的工作，YARN的優勢以及Stream和Spark等平臺的比較。

相關鏈接：

Hadoop從互聯網誕生，但近些年在整個大數據領域呈現爆發式發展和進化，尤其是在2013年Hadoop 2.0正式Release后，Hadoop有了正式的 Operation System—YARN，從此Hadoop不再只是MapReduce的代名詞，Storm、Spark、Graph，MPI等越來越多的計算模型可以運行在YARN上，批處理計算、實時流式計算、迭代交互計算等都可以同時運行在Hadoop集群上，Hadoop已經成為大數據計算的全能平臺。HBase 隨著近幾年的高速發展和應用，已經成為大數據技術領域最主流的NoSQL數據庫；Tez和Spark的出現讓Hive擁有了更高效的計算引擎可以選擇；Impala和Stringer更是將大數據SQL帶入到了Realtime時代；Ambari的誕生和快速發展也大幅降低了Hadoop集群的運維門檻。隨著Hadoop開源社區不斷涌現出各種令人興奮的新技術，逐步完善的Hadoop生態系統已經成為大數據行業發展的核心動力。

本次QCon上海的Hadoop專題出品人王峰（莫問）接受了InfoQ郵件采訪，談到自己在阿里的工作，YARN的優勢以及Stream和Spark等平臺的比較。

InfoQ：為什么會做這次QCon上海“Hadoop，超越MapReduce”的出品人？

王峰：我在阿里的8年中一直從事搜索和分布式技術研發，自2010年開始基于Hadoop生態技術構建阿里的搜索離線技術平臺，統一支持淘寶、天貓、1688、一淘和云搜索等多條搜索業務線的后臺數據處理，親自帶領團隊經歷了Hadoop從1.0到2.0的平臺演化之路，本次受我們阿里的朱鴻老師邀請，有幸成為“Hadoop，超越MapReduce”的出品人。

InfoQ：您一直負責為阿里集團服務業務提供平臺數據支持，請給大家簡要介紹一下整體情況？

王峰：我負責的阿里搜索離線技術團隊，為阿里集團的搜索業務提供統一的離線基礎數據平臺支持，目前我們基于YARN構建了統一的計算平臺，支持批處理、實時流式等多種計算模型支持；基于HBase構建了統一存儲平臺，支持KV，SQL，Queue等多種存儲模型，計算+存儲共享集群資源，同一套基礎架構同時支持淘寶、天貓、1688、一淘和云搜索等多條搜索業務線，為阿里的搜索引擎提供實時、增量、全量的全數據支持。

InfoQ：2013年阿里搜索全面升級YARN，比起之前來講有什么優勢呢？

王峰：第一次接觸YARN是在2011年低在美國參加Hadoop World，隨即造訪了Hortonworks，更加詳細深入的理解了YARN的設計思路，感覺這個東西如果成熟了，就是Hadoop OS，Hadoop的計算能力將產生飛越。但如果只在YARN上單純運行MapReduce，其價值將不會有質的變化，最大的好處也就是把集群規模可以做的更大了，這個意義就大打折扣了。升級到YARN的最終目標應該是讓計算模型更加豐富，并產出統一的計算平臺，降低維護成本，更大程度的擴大集群資源利用率，發揮云計算的效果。我們阿里搜索的Hadoop升級到YARN以后，不僅運行了傳統的MapReduce、Hive，還自主研發了iStream（流式計算引擎）、iCall（基于Thrift的分布式RPC服務），后續還計劃嘗試Tez，Spark等新式計算模型，統一的計算平臺相比之前的 MapReduce Job，無論是效率，成本還是對業務支持的靈活性都實現了質的飛躍。

InfoQ：我們還看到淘寶自主研發了iStream流式計算引擎，這方面的工作也想請您簡要介紹一下。

王峰：其實我們當初最早是嘗試storm，但storm最大的問題是無法和hadoop集群復用，單獨存在的storm集群讓我們運維成本增加，同時資源利用率也上不去，出現各種問題也無法根本解決，YARN的出現讓我們有了新的思路。iStream天然是基于YARN來設計的，因此其在設計理念上最大的亮點就是考慮了如何和其他計算模型共存，達到實時計算效果的同時，還可以實現計算平臺的全局最優化，例如：iStream可以自動感知流處理的進度快慢，智能調整計算節點的數量，即高峰期可以自動擴容節點保證處理速度，低峰期也可以在保證進度的條件下合理釋放節點，讓資源在多計算模型場景下真正按需分配。現在阿里搜索的hadoop集群上，iStream承擔了流式數據處理的角色，為搜索引擎提供實時增量數據，MapReduce承擔了全量或者批量數據處理的角色，為搜索引擎提供全量數據，兩種計算模型可以自動合理的配合，無需人工運維干預。

InfoQ：Spark平臺目前挺火的，您在這方面是否有所涉及？

王峰：Spark目前可以算是最火的計算模型，不過我們還沒有將Spark投入生產，原因不是我們不認可Spark，而是Spark強在迭代計算和實時SQL，這塊在搜索主流程中的場景不是特別明顯。簡單來說，Spark Streaming在我們這里有了iStream，實時性和資源管理更加專業；Spark SQL在我們這里有了Phoenix（SQL On HBase），因為我們的數據基本都在HBase，基礎的SQL場景，我們用Phoenix可以輕量級的解決了；迭代運算都是算法訓練的純離線過程，都在阿里的云梯和ODPS上運行了。

InfoQ：作為行業翹楚，您對Hadoop的認識非常深刻，不知您有沒有比較好的圖書、社區推薦給廣大讀者？

王峰：其實我個人閱讀的Hadoop相關的圖書并不多，除了幾本英文經典之外，大部分信息都是通過社區文檔、 hortonworks/cloudera的blog、slideshare上的各種會議slides以及微博/twitter獲取的，當然經常去 hadoop社區的jira上看看issue，閱讀一些源碼也是必不可少的。

InfoQ：最后一個比較八卦的小問題，請您談談花名“莫問”的由來？

王峰：雖然我在阿里已經超過8年了，但我前幾年在雅虎中國和阿里云，2010年轉到淘寶的時候，好的花名已經都沒有了，“莫問”這個名字是“七劍” 中傅青主拿的那把劍的名字，是“七劍”智慧的象征，同時也挺喜歡七劍中“莫問前程有愧，但求今生無悔“這句話，所以就起名“莫問”了。

來源：infoq 作者：張天雷

標簽：開源 Hadoop

本站文章除注明轉載外，均為本站原創或翻譯。歡迎任何形式的轉載，但請務必注明出處、不得修改原文相關鏈接，如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn

文章轉載自：慧都控件網

上一篇：比以往來得更猛烈的免費WiFi 下一篇：程序員高效編程的14點建議