轉帖|使用教程|編輯:龔雪|2014-09-01 10:22:46.000|閱讀 571 次
概述:2013年11月22-23日,作為國內唯一專注于Hadoop技術與應用分享的大規(guī)模行業(yè)盛會,2013 Hadoop中國技術峰會(China Hadoop Summit 2013)于北京福朋喜來登集團酒店隆重舉行。來自國內外各行業(yè)領域的近千名CIO、CTO、架構師、IT經(jīng)理、咨詢顧問、工程師、Hadoop技術愛好者,以及從事Hadoop研究與推廣的IT廠商和技術專家將共襄盛舉。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
2013年11月22-23日,作為國內唯一專注于Hadoop技術與應用分享的大規(guī)模行業(yè)盛會,2013 Hadoop中國技術峰會(China Hadoop Summit 2013)于北京福朋喜來登集團酒店隆重舉行。來自國內外各行業(yè)領域的近千名CIO、CTO、架構師、IT經(jīng)理、咨詢顧問、工程師、Hadoop技術愛好者,以及從事Hadoop研究與推廣的IT廠商和技術專家將共襄盛舉。
大會現(xiàn)場來自聯(lián)通研究院移動互聯(lián)網(wǎng)產品開發(fā)事業(yè)部主任王志軍,為大家介紹了Hadoop和大數(shù)據(jù)在行業(yè)里的典型應用。
王主任主要從四個方面介紹了大數(shù)據(jù)的應用:第一方面源起,第二、電信運營商有哪些大數(shù)據(jù),第三、中國聯(lián)通建成的正在投入使用的大數(shù)據(jù)業(yè)務系統(tǒng),第四、大數(shù)據(jù)應用的展望舉幾個簡單的例子。
一、源起
我們進入到移動互聯(lián)網(wǎng)的時代,幾乎每個人都有手機,現(xiàn)在在用手機的時候,更多的是個人的電腦,所做的工作除了做一些基本語音和短信的功能之外,絕大部分在手機上的工作是使用數(shù)據(jù)的流量,移動通訊從語音的時代跨越到數(shù)據(jù)的時代,運營商有很大的機會,同時運營商遇到了很多流量消費爭議的問題。
目前流量消費爭議已經(jīng)躍升成為用戶通訊服務投訴的首位。首先的問題是數(shù)據(jù)流量消費遠不如語音消費清晰透明。語音消費的時候撥打一個電話,對方是誰,打了多長時間,這個時間是可以感知到的。運營商也可以語音通話的詳單,如果是發(fā)短信,發(fā)了多少條短信大體是心中有數(shù)的。
流量消費首先是計費單位是KB,流量消費有一定的不確定性。剛才用手機刷了一下微博、用了一會兒微信,到底用了多少流量,他不知道到底如何進行計費。所以說很多用戶基于這種了解,可能很多時候主觀認為自己根本沒有使用流量,或者是使用了比較小的流量,為什么有的時候會產生比較高額的流量的花費,這時用戶運營商來告訴我,這個流量用到哪去了?上了什么網(wǎng)址、用了什么應用產生了什么流量,而不是簡單說這個月用了1G或者是700兆的流量,傳統(tǒng)的方式已經(jīng)不滿足現(xiàn)在用戶的需要了。
現(xiàn)在3G客戶數(shù)據(jù)流量爭議占3G業(yè)務投訴是10%,現(xiàn)在整個比例是在逐漸的上升。個別的省份已經(jīng)達到了20%的比例。目前中國聯(lián)通每月打到10010客服流量上的投訴是近萬起。同時很多用戶也基于運營商無法提供上網(wǎng)記錄的詳單,提出了法律的訴訟。例如某iphone合約計劃的用戶,他是晚上凌晨到四點睡覺期間發(fā)生了巨額的流量,智能手機可能語音的應用、有很多自動更新的應用,這些應用并不是使用了才產生流量,這種情況下用戶難以理解。運營商的計量設備無法提供了詳單就提出了訴訟。運營商的計量設備就相當于家里的水表,現(xiàn)在是區(qū)分不出來做飯、沖馬桶、洗衣服用了多少水。如果是給用戶提供詳單,我們就需要做準確的計量設備做流量的區(qū)分。
原來運營商如何提供詳單的,主要是產生于網(wǎng)頁設備,GGSN,之前產生話單的方式流量累計到一定的限度,或者是達到一定的時長,或者是現(xiàn)在已經(jīng)把網(wǎng)絡關閉掉了,這時候才是產生流量的話單,這主要是運營商做計費用的,不是給用戶來去說明情況的。里面包含的信息可能有手機號碼、上頁流量是多少,下頁流量是多少,或有話單的持續(xù)時長,但是不包含網(wǎng)址的信息和訪問記錄的信息。
這種情況下,中國聯(lián)通的移動業(yè)務,此前有個客服部門的統(tǒng)計數(shù)據(jù),每萬元應收收入中因無法提供上網(wǎng)記錄詳單的數(shù)據(jù),造成的投訴和退費賠付是60塊錢。GGSN不光是中國聯(lián)通在用,來自愛立信、華為、中興、諾基亞都在使用,這種成熟的設備,出現(xiàn)偏差的概率是很小了,絕大部分的賠付是運營商說不清楚,用戶有投訴,為了避免爭議擴大化,運營商是采用了賠付與和解的方式來處理。
由此可見提供用戶上網(wǎng)記錄詳單,成為了互聯(lián)網(wǎng)透明健康環(huán)境的關鍵的因素,這是運營商希望能夠做到的事情。
上網(wǎng)記錄是典型的大數(shù)據(jù)
例如,每個用戶,可能每月的通話記錄是幾百、幾千條,上網(wǎng)的記錄絕對不是這個數(shù)量級,可能是幾萬,用的量大可能是幾十萬條上網(wǎng)數(shù)據(jù)。例如用手機訪問新浪網(wǎng)的金喜正規(guī)買球大致是產生20多條記錄,包括手機發(fā)起,DS的查詢,包括網(wǎng)頁中每個元素的下載,其實對網(wǎng)絡來說都是獨立的請求這樣都會產生一條記錄。如果用IPAD,新浪網(wǎng)的金喜正規(guī)買球會產生40條記錄,如果看了IPAD里的新聞,過來會產生180條記錄。
例如說訪問淘寶的觸摸平板也會產生6條記錄,此外還有大量后臺推送的消息,相當于是蘋果的手機有很多通知的服務,例如說微信,很多的通知的服務業(yè)在悄悄的進行。
經(jīng)過統(tǒng)計,中國聯(lián)通用戶上網(wǎng)記錄每個月是超過了兩萬億條,并且還在增長。數(shù)據(jù)量是全國目前運營商所有類型的計費話單的30倍以上,包括語音詳單、短信詳單、采信詳單以及包括此前運營商給的流量記錄詳單,所有的數(shù)據(jù)量的30倍以上。
移動互聯(lián)網(wǎng)是快速的發(fā)展期,大約每8個月流量會翻一番,今年年底4G的牌照會發(fā)放,在LTE的時代,用戶的流量的消費會越來越大,現(xiàn)在是兩萬億,明年這個時候是五萬億條,之后也許是八萬億條,數(shù)據(jù)很巨大。
上網(wǎng)數(shù)據(jù)是個典型的大數(shù)據(jù)
采用什么方式進行存儲和檢索呢是個大問題,此前運營商采用的架構方式是IUE的架構,用IBM小型機,用商用的關系型數(shù)據(jù)庫,用高可靠性的EMC的存儲,構建無論是計費系統(tǒng)還是帳戶系統(tǒng),很多的系統(tǒng)都是這樣方式構建的這個很昂貴,但是它解決不了我們的問題。存儲這么大規(guī)模量的數(shù)據(jù),以后超越了可管理容量的上線。在做查詢的時候,關系型數(shù)據(jù)庫對大規(guī)模操作的時候性能是嚴重下降的。
數(shù)據(jù)量達到500G延時可能是三千秒,意味著兩萬億條記錄的數(shù)據(jù),分期、分表存下來,達到500G用戶有個查詢的請求意味著一個小時才能給用戶響應,即使做過優(yōu)化查詢的速度也是半個小時以上,審核公司也做過實驗,經(jīng)常一個查詢是幾個小時才能查詢到用戶的詳單。
我們面臨的問題是數(shù)據(jù)快速的寫入,每月有兩萬億條記錄,每天有超過七百億條記錄,這么大的數(shù)據(jù)量如何快速的存儲下來,那面記錄在源源不斷的生成,我們必須保持足夠的速度記錄下來,第二我們的數(shù)據(jù)如何快速檢索提供給用戶,在什么時候上了什么網(wǎng)址用了多少流量。上網(wǎng)記錄的數(shù)據(jù)本身是個高價值的數(shù)據(jù),它是目前為止可能是用戶在移動互聯(lián)網(wǎng)行為上的一個最基礎、最原始的數(shù)據(jù),這個數(shù)據(jù)如何進行高效的分析和挖掘。這么大的數(shù)據(jù)量,如何來進行低成本的存儲,都是當時面臨的問題。
Hadoop可以幫助我們解決這些問題
Hadoop采用開源的方式,構架了普通的PC服務器之上,拋棄了高端的存儲,也可以保證高可靠性,適合數(shù)據(jù)快速的寫入,以及有快速檢索的方式,這樣相當于有十億的業(yè)務需求解決不了問題,Hadoop幫我們解決了,這是我們跟Hadoop脫離了實驗室的概念,是真正的商用系統(tǒng)上第一次親密接觸。
本站文章除注明轉載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:慧都控件網(wǎng)