翻譯|大數據新聞|編輯:況魚杰|2020-12-01 14:34:00.540|閱讀 334 次
概述:很多中小型公司認為,只有大公司才能買得起大數據驅動的解決方案,它只適合海量數據,而且價格昂貴。但是其實這已經不再是事實,有幾場革命改變了這種狀態。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
很多中小型公司認為,只有大公司才能買得起大數據驅動的解決方案,它只適合海量數據,而且價格昂貴。但是其實這已經不再是事實,有幾場革命改變了這種狀態。
第一次革命與成熟度和質量有關。十年前,大數據技術需要一定的努力才能使它發揮作用,或者使所有的部件一起工作,這不是什么秘密。
過去有無數的故事來自開發者,他們浪費了80%的時間,試圖用Spark、Hadoop、Kafka或其他技術克服愚蠢的小毛病。如今,這些技術已經變得足夠可靠,學會了如何相互合作。
看到基礎設施中斷的幾率比抓住內部bug的幾率要大得多。即使是基礎設施問題,在大多數情況下也可以輕描淡寫地容忍,因為大多數大數據處理框架的設計都是容錯的。此外,這些技術在計算上提供了穩定、強大和簡單的抽象,并允許開發人員專注于業務方面的開發。
第二次革命正在發生--這些年發明了無數的開源和專有技術--Apache Pino、Delta Lake、Hudi、Presto、Clickhouse、Snowflake、Upsolver、Serverless等等等等。成千上萬的開發者的創新能量和想法已經轉化為大膽而優秀的解決方案。
一個典型的分析數據平臺(ADP)。它由四個主要層級組成。
每一層都有足夠的選擇,可以滿足任何口味和要求。這些技術中有一半是在過去5年內出現的。
它們的重要意義在于,技術的開發意圖是相互兼容。例如,典型的低成本小型ADP可能包括Apache Spark作為處理組件的基礎,AWS S3或類似的作為數據湖,Clickhouse作為倉庫和OLAP用于低延遲查詢,Grafana用于漂亮的儀表盤(見下圖)。
更復雜的ADP,更強的保障,可以用不同的方式組成。例如,引入Apache Hudi與S3作為數據倉庫,可以保證更大的規模,而Clickhouse仍然是為了低延遲訪問聚合數據(見下圖)。
第三次革命是由云制造的。云服務成為真正的游戲規則改變者。它們將大數據作為一個現成的平臺(大數據即服務)來解決,讓開發者專注于功能開發,讓云來關心基礎設施。
下圖是另一個ADP的例子,它利用無服務器技術的力量,從存儲、處理到演示層。它有同樣的設計理念,但技術被AWS管理服務所取代。
值得一說的是,這里的AWS只是一個例子,同樣的ADP也可以建立在任何其他云服務商之上。
開發者可以選擇特定的技術和無服務器的程度。無服務器的程度越高,它的可組合性就越強,然而,作為一個缺點,它被供應商鎖定的程度就越高。被鎖定在特定的云提供商和無服務器堆棧上的解決方案可能會有一個快速的上市時間跑道。在無服務器技術之間做出明智的選擇可以使解決方案具有成本效益。
不過這個方案對于初創公司來說并不是很有用,因為他們往往會利用典型的10萬美金的云積分,在AWS、GCP和Azure之間跳躍是很普通的生活方式。這個事實必須提前澄清,必須提出更多的云無關技術來代替。通常,工程師會區分以下成本:
我們來逐一解決這些問題。
云技術無疑簡化了工程工作,它有幾個方面的積極影響。
首先是架構和設計決策。無服務器堆棧提供了一套豐富的模式和可重用的組件,為解決方案的架構提供了一個堅實而一致的基礎。
只有一個問題可能會拖慢設計階段的進度--大數據技術的本質是分布式的,所以相關解決方案在設計時必須考慮到可能出現的故障和中斷,以便能夠確保數據的可用性和一致性。作為一種獎勵,解決方案需要較少的努力才能被擴展出來。
第二個是集成和端到端測試。無服務器堆棧允許創建隔離的沙箱,發揮、測試、解決問題,因此減少了開發回環和時間。
另一個優勢是,云實施了解決方案部署過程的自動化。不用說這個功能是任何成功團隊的必備屬性。
云提供商宣稱要解決的主要目標之一是減少監控和維持生產環境的工作量。他們試圖建立某種幾乎零devops參與的理想抽象。不過現實情況有些不同。關于這個想法,通常維護還是需要一些努力的。下表重點介紹了最主要的幾種。
但除此之外,該法案在很大程度上取決于基礎設施和許可證成本。設計階段是極其重要的,因為它提供了一個挑戰特定技術的機會,并提前估計其運行成本。
大數據技術的另一個重要的方面是客戶關心的問題--變革成本。經驗表明,大數據和其他任何技術之間沒有區別。如果解決方案沒有過度設計,那么變革成本完全可以與非大數據堆棧相媲美。不過,大數據也有一個好處,大數據解決方案很自然地被設計成解耦的。正確設計的解決方案不會像單片機一樣,允許在短期內在需要的地方應用局部變更,而且影響生產的風險較小。
綜上所述,大數據是可以很多公司能負擔得起的。它為開發人員提供了新的設計模式和方法,開發人員可以利用它來組建任何分析數據平臺,尊重最強的業務需求,同時具有成本效益。
大數據驅動的解決方案可能是快速成長的初創公司的重要基礎,這些初創公司希望能夠靈活地應用快速變化,并擁有較短的TTM跑道。一旦企業需要更大的數據量,大數據驅動的解決方案可能會隨著業務的發展而擴展。
大數據技術允許在小規模或大規模的情況下實現近實時分析,而傳統的解決方案則在性能上存在困難。
云提供商已經將大數據提升到了一個新的水平,提供了可靠、可擴展和隨時可用的功能。開發具有成本效益的 ADP 并快速交付是前所未有的容易,利用大數據提升您的業務吧!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:analyticsinsight