原創|行業資訊|編輯:況魚杰|2020-12-03 11:13:27.727|閱讀 218 次
概述:就在不久前,整個數據世界還在沸沸揚揚地討論如何創建集中式數據存儲,以最大限度地提高數據的可用性,從而達到高級分析的目的。博客們大聲疾呼反對數據湖,支持組織良好的數據庫,開源社區團結在Hadoop生態系統周圍,大數據技術飛速發展。本文就這個狀況回顧一下推動數據湖采用的一些假設,并注意一下這些假設的穩定性。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
就在不久前,整個數據世界還在沸沸揚揚地討論如何創建集中式數據存儲,以最大限度地提高數據的可用性,從而達到高級分析的目的。博客們大聲疾呼反對數據湖,支持組織良好的數據庫,開源社區團結在Hadoop生態系統周圍,大數據技術飛速發展。本文就這個狀況回顧一下推動數據湖采用的一些假設,并注意一下這些假設的穩定性。
事后看來,這個假設如何?
可以肯定的是,Hadoop中每GB存儲的TCO可以比傳統RDBMS系統的成本低5%甚至更低。但是,即使是最有經驗的企業也很快了解到運營一個企業集群有多難。開源軟件的不斷更新,管理環境的技能稀缺,以及生態系統的相對不成熟,都造成了難以管理的技術故障和依賴性。除此之外,一旦Hadoop完成了三次數據復制,管理員需要快照和副本來克服Hadoop更新的局限性,1TB的RDBMS數據可能會在湖中變成50TB。這些節省下來的錢就這么多了。
亞馬遜、微軟和谷歌急于用托管的、基于云的環境來填補這些生產力的空白,這些環境簡化了管理,使數據科學家更快地提高生產力。接下來,消費模式取代了Hadoop on-pre環境的資本成本,這意味著人們不太愿意簡單地將所有大型數據集傾倒到一個中央環境中。相反,他們根據分析需要加載數據。因此,這就產生了從大型的on-prem數據湖轉移到小型的基于云的數據池塘的效果,這些數據池塘是為目的而建立的。再進一步,新的云倉庫通過基于SQL的工具使訪問和查詢這些數據變得簡單,這進一步向非技術消費者釋放了數據的價值。
事后看來,這個假設是怎樣的?
數據湖的一個關鍵假設是,網絡和處理速度的限制意味著我們無法將日志文件等數據的大副本移動到集群中進行數據分析。Hadoop也是面向批處理的,這意味著這些類型數據的大批量處理是非常不切實際的。事實證明,數據復制和流媒體的改進,以及網絡方面的巨大收益,導致這種情況沒有我們想象的那么真實。
技術的改進意味著企業可以選擇如何訪問數據.也許,他們希望將查詢從事務性系統卸載到云環境中;數據復制和流媒體現在是簡單的解決方案。也許,交易系統是為高性能查詢而構建的;在這種情況下,數據虛擬化功能可以使該數據按需提供。因此,企業現在可以選擇讓數據更多地按需提供給DataOps流程,這意味著并不總是需要將所有企業數據物理地集中在一個位置。
事后看來,這個假設如何?
人們已經厭倦了IT團隊將ETL寫入數據倉庫所花費的時間,并迫切希望簡單地釋放數據科學家對原始數據的處理。有兩個主要的癥結所在。首先,數據科學家往往不能輕易地找到他們要找的數據.其次,一旦他們有了數據,分析負責人很快就會發現,他們的ETL只是被數據糾纏工具所取代,因為數據科學仍然需要清理,如標準化和外鍵匹配。
智能數據目錄已經成為尋找所需數據的關鍵。現在,企業正試圖通過簡單的解決方案,在工作場所建立起用戶在家中享受的谷歌搜索一樣的搜索方式,以查找和訪問數據,而不管保存數據的數據存儲的物理位置在哪里。DataOps流程也已經出現,它是建立基于領域的數據集的一種方式,這些數據集經過精心規劃和管理,可以實現最大的分析生產力。因此,數據科學家應該能夠輕松地找到并信任他們用來發現新的見解的數據,經過深思熟慮的技術和流程的融合應該能夠使數據管道和分析管道快速運行,以支持這些新發現。這個過程可以實現實時分析。
在Qlik尋求現代化的數據分析架構時,這些關鍵的新興現實是他們需要思考的重點:
Qlik的愿景是一個數據素養的世界,每個人都可以使用數據來改善決策并解決他們最具挑戰性的問題。只有Qlik提供端到端的實時數據集成和分析解決方案,以幫助組織訪問所有數據并將其轉化為價值。慧都作為Qlik官方的中國合作伙伴,我們為Qlik的中國用戶提供產品授權與實施、定制分析方案、技術培訓等服務,旨在讓中國企業的每個Qlik用戶都能探索出數據的價值,讓企業形成分析文化。了解更多信息,請咨詢在線客服>>
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn