轉帖|行業資訊|編輯:王香|2017-02-03 11:27:14.000|閱讀 659 次
概述:在這里談大數據的十大局限性,并非要否定其價值。相反,只有我們充分認識了大數據的特點和優劣勢,才能更加有效地對其進行采集、加工、應用,充分挖掘和發揮其價值。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
1、數據噪聲:與生俱來的不和諧
大數據之所以為大數據,首先是因為其數據體量巨大。然而,在這海量的數據中,并非所有的數據都是有用的,大多數時候,有用的數據甚至只是其中的很小一部分。隨著數據量的不斷增加,無意義的冗余、垃圾數據也會越來越多,而且其增長的速度比數據信息更快。這樣一來,我們尋求的重要數據信息或客觀真理往往會被龐大數據所帶來的噪聲所淹沒,甚至被引入歧途和陷阱,得出錯誤的結論。
2、真實性:不得不接受的虛假
引領我們進入困局的并不是我們不知道的事物,而是我們知道、但不那么真實的事物。”真實性是一切數據價值的基礎,然而這同時也是大數據的一大先天性缺陷。
網絡是大數據最重要的來源之一,而網絡本身就充斥著大量的虛假信息。例如,網絡數據中存在著大量的虛假個人注冊信息、假賬號、假粉絲、假交易、灌水貼及虛假的意思表示等。這種失真是由網絡本身的特性決定的,比如說,絕大多數社交網站很難也不會對會員注冊信息的真實性進行全面核查,電商平臺也無法控制一人注冊多賬號,或賬號與實際消費個體的非對應關系(想想你家有沒有共用一個寬帶或電商賬號的情況)。
除了網絡數據,即便是通過原始方法采集的個人信息數據也無法保障其真實、準確。就拿電信運營商來說,即便推行了實名制,數據質量與期望仍有相當差距。
可以預見,在相當長的時間內,即使最優秀的數據科學家、最先進的數據處理方法也無法消除或修正某些數據固有的錯誤和不足,對大數據真實性的追求無疑是擺在我們面前的又一挑戰。
3、代表性:永不可能的全樣本
大數據來源大致可以分為兩類,一類來自于物理世界的科學數據,如實驗數據、傳感數據、觀測數據等;另一類則來自于人類社會活動,主要是互聯網數據,如社交關系、商品交易、行為軌跡等個人信息。然而,這兩類數據的產生、收集都存在很大的盲區和局限性。例如:很多人在網上訂餐或消費的時候往往會參考其他人的推薦和點評,但經常在消費以后發現并不如意。撇開個人口味和刷評的因素,還有一個重要原因在于,網上點評的人并不具備足夠的代表性。喜歡上網的本身就只是消費人群中的一部分,上網消費同時又喜歡點評的人更只是其中的一小部分,所以,由帶有明顯傾向的小眾來代表整個群體明顯是錯誤的。
無論科學技術如何發達,來自于物理世界和網絡社會的大數據永遠都不可能覆蓋整個自然界和人類社會;如果再考慮宗教、法律、倫理、道德上的諸多限制,那么大數據就更不可能成為“全樣本”了。而且,被遺漏的那部分數據往往并不是隨機偏差,而是系統偏差,在統計分析時不能不考慮。也正因為如此,社會學家對大數據的代表性總是保持著一份可貴的疑慮和審慎,在許多領域仍然堅持用傳統的抽樣方法而不是大數據來進行社會研究。
4、完整性:廣度與深度的缺失
大數據的完整性不足主要是指單個組織所能獲取的數據體量雖然巨大,但所包含的實際信息卻十分有限,以致難以以此為基礎進行復雜的邏輯運算或全面描述。這種不完整主要包括信息維度(決定信息廣度)的缺失和維度信息(決定信息深度)的缺失。
舉例而言,電信運營商由于把控著數據管道,從而可以較全面地掌握用戶的上網信息,有著較好的信息廣度,但其掌握的信息深度卻不夠。運營商可以清楚地知道用戶在什么時間、什么地點、以什么終端、什么網絡訪問了京東、亞馬遜、天貓等電商,瀏覽了何種商品,停留了多長時間等(信息廣度充分),但卻不能掌握用戶是否在某電商平臺上購買了商品、購買了何種商品、參與了什么促銷活動、以什么方式付款、支付了多少款額等(信息深度不足)。很顯然,京東對用戶在自己商城的瀏覽、消費行為了如指掌(信息深度充分),但它卻無法了解用戶的其他互聯網行為及在其他電商平臺的消費行為(信息廣度不足)。
在大多數情況下,對某種自然、社會現象的深入研究或者對用戶的超級刻畫,信息廣度和信息深度缺一不可。從這個意義上講,真正的大數據應是建立在共同的標準基礎之上,融合了企業、政府、科學研究等跨領域、跨行業、跨平臺數據的集合,是社會大數據。
然而,當前的大數據依然以獨立孤島的形式存在,沒有任何一個組織能夠獲取在廣度和深度上都足夠充分的數據。應該大力推進全社會的數據公開和共享,其中政府數據開放尤其重要。毫不夸張地講,真正核心的數據絕大部分掌握在政府手中,沒有政府參與,就沒有真正的大數據。
5、時效性:秒級價值存在
任何數據都位于一個連續的時間軸上,都有其時間屬性,即數據年齡。不同年齡的數據有著不同的價值特性,往往老數據具有總體或趨勢分析價值,新數據則更具有個體應用價值。大數據時代,信息更新速度非常快,從應用的角度看,大數據的時效性往往非常短。
用于探測地震和海嘯的傳感器所產生的數據時效往往只有幾秒鐘,在此之后就基本失去意義了。美國國家海洋局的超級計算機能夠利用傳感器傳輸的數據,在日本地震后9分鐘內計算出海嘯的可能性及強度。短短的9分鐘,基本反映了當前人類計算的最高水平,但這對于瞬間消失的生命來說還是太長了。
大數據時效性的要求對數據的實時采集、實時加工、實時分發提出了極高的要求。數據處理上有一個著名的“1秒定律”,即要在秒級的時間范圍內計算出分析結果并分發出去,超過這個時間,數據就失去價值了。這在許多時候還很難做到,從而在相當程度上限制了大數據的應用。
6、解釋性:不能沒有因果關系
對于舍恩伯格關于大數據的另一個核心觀點,“不是因果關系,而是相關關系”,只需要了解是什么或未來會發生什么,而不是為什么和事情發生的內在原因,筆者同樣不敢茍同。
相關關系僅代表著過去和個案,沒有解釋性,有時甚至是錯誤的,而且不能推而廣之。只有掌握了事物之間的因果關系、原因機制和科學原理,才能舉一反三,迭代更新,持續推動社會進步。這是很簡單的道理,不必贅言。
關于相關性,一直為人津津樂道的便是啤酒與尿布的故事。然而,沃爾瑪商品品種成千上萬,相關關系數十億之多,我想類似的絕妙組合尚有不少,為什么再也難見?更何況,人們仍然對啤酒與尿布的相關關系進行了合理的因果邏輯解釋。試想,如果首先發現了這樣的因果關系,再通過相關關系予以驗證,是否可以發現更多的“啤酒和尿布”?
大數據分析需要借助機器來完成,而機器從來就只能給出數據間的相關關系,而不能說明因果邏輯。因果關系需要人的思考和判斷,電腦現在沒有、將來也不可能完全替代人腦。玩笑一下,如此急迫地強調相關關系而不是因果關系,難道我們真的不需要腦子了嗎?
7、預測性:讓過去決定未來
大數據分析無論被賦予多么絢麗的光環,從根本上講都只是對過去和現實的歸納和總結,其本身并不具有趨勢和方向性的特征。決定趨勢的是事物發展的內在因素及相互作用,在此方面大數據無能為力,這是大數據的先天性缺陷之一。
舍恩伯格也坦言,與大數據同行是有一定風險的,大數據有可能會把我們鎖定在以往的錯誤當中,使我們墮入讓過去決定未來的陷阱。
現在有些基金公司推出大數據指數基金,期望通過大數據對股票行情進行準確的預測。歷史行情走勢只是過去已經發生的影響股票市場的諸多因素共同作用的結果,以此來預測未來的市場根本不靠譜。普林斯頓大學經濟學教授伯頓·麥基爾早在1973年的暢銷作品《漫步華爾街》中就指出,把一只猴子蒙上雙眼后讓它向報紙的金融版擲飛鏢而選中的投資組合,和那些專家經過大量研究而謹慎選擇的投資組合相比,盈利性可能一樣好。近幾年甚至有研究者提出,麥基爾的這種看法低估了猴子(應該是高估了基金經理吧)。2008年,好事的俄國人更是用實驗證明了這一點。俄羅斯《財經周刊》從馬戲團找來一只猴子,讓它從代表不同股票的牌子中選擇8支進行模擬投資組合,并投入100萬虛擬盧布。一年后,當金融專家再次觀察猴子所選股票的表現時不由大吃一驚,其市值上漲了近3倍,跑贏了94%的基金。
必須承認,我們處于一個不確定的世界里,有許多事件是無法預測的。過分依賴大數據和預測模型是危險的,因為有許多決定性的影響因素都不能納入模型參數的覆蓋范圍之內。從天氣預報、地震預測、足球比賽到金融危機等等,都對這一點做了很好的詮釋。
8、誤導性:數據也會說謊
與大數據的代表性、真實性、完整性、解釋性等局限性相關的,對統計現象只看結果不重解釋,很可能導致錯誤甚至危險的結論。二戰時期英國與德國的空戰中,工程師發現,每次戰斗機回來機翼上都帶有很多槍眼,因此認為機翼是最容易受到攻擊的地方,需要進行特別防護。可是增加防護之后,飛機的損失率不但沒有降低,反而提高了。問題究竟出在哪呢?原來工程師們被這一統計結果誤導了,從而采取了錯誤地防護措施。對機翼槍眼的統計只針對成功返航的飛機,而那些不幸的飛機被擊落的原因并沒有被統計和發現。相反,機翼受損還能飛回來,說明機翼被攻擊并不是飛機被擊落的主要原因。至于為什么增加防護后飛機損失率反而提高了,原因很簡單,因為負荷增加降低了飛機的靈活性和航程。后來,工程師們反其道而行之,在沒有槍眼的部位加強防護,因為這些部位被擊中的飛機都沒有返航,事實證明效果良好。
9、合法性:數據安全與隱私保護
大數據本身及其采集、使用過程都極有可能會涉及個人隱私、商業機密、公眾權益和國家信息安全。因此,安全性和合法性問題構成了大數據價值發揮的限制性因素之一。
商業和技術很重要,但商業和技術背后的價值觀更重要。
Google曾將"不作惡"作為自己的公司價值觀;百度為了短期商業利益售賣多個貼吧,公然踐踏公眾隱私,結果遭千夫所指,萬人唾罵。這些都充分反映了公眾對隱私和信息安全的關注和重視。
白宮曾在2014年發表書面聲明稱,大數據創造的社會價值與經濟價值得以遵從該國提倡的“隱私、公正、平等、自主”。中國政府在此方面雖然尚未立法,也從來沒有明確的說法,但民眾的基本權益和訴求理當被審慎考慮。
誠然,安全性、合法性要求限制了大數據的使用和商業價值的充分發揮,但從社會價值的角度來看,是值得的,也是必須的。
10、價值性:投入與收益的平衡
價值密度低是被公認的大數據特征之—,這也在一定程度上限制了大數據的研究和應用。
一方面,因為大數據的低密度價值特征,那么要使其價值達到可用的程度,就必須有足夠規模的數據積累和有效的價值提取。以常規的監控視頻為例,連續24小時的視頻監控中,有用的數據可能僅有數秒。如何優化存儲,并通過強大的機器能力迅速完成數據的加工處理和價值呈現,到目前為止還是大數據面臨的一大難題。另一方面,大數據邊際效用遞增規律的存在,使許多企業、組織的數據無法達到基本的規模要求,從而也使其數據價值無法充分顯現。
同時,前面講到的大數據代表性、真實性、完整性、解釋性上的不足及由此引起的結論誤導,不僅會降低數據的價值,甚至可能產生負面作用。
除此之外,大數據的采集、存儲、加工和使用所耗費的資金和時間成本都是非常高昂的。作為大數據投資主體,應該在投入和收益之間進行合理平衡。當前的確存在那么一種勢力,為了某種目的極力鼓動企業進行大規模的大數據投資,如果不審慎評估,很可能得不償失。
在此講了這么多大數據的局限性,最后再次重申,并非要以此否定大數據的價值;同時,也要再次強調,大數據代表的只是信息,而非智慧。對世界的改造僅憑有限的信息是遠遠不夠的,更需要人類取之不盡、用之不竭的智慧。只有用好了項上這顆六斤四,才能逐步突破大數據的局限性,更好地發揮大數據價值。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn