中國數據存儲服務平臺

創新的Dell EMC流數據處理平臺:應對5G時代挑戰

Hadoop、Spark以及Kafka這一代大數據平臺引領風騷10年以后,迎來5G時代。

5G催生車聯網、智能制造、智慧能源、無線醫療、無線家庭娛樂、無人機等新型應用,人和物、物和物之間的連接產生的數據井噴式海量增長,數據類型也進一步豐富, AR、VR、視頻等非結構化數據的比例進一步提升。

傳統數據處理架構三大弊端

當下許多互聯網公司搭建的大數據處理平臺,往往對實時數據和歷史數據進行嚴格區分,這樣既帶來了數據存儲空間的極大浪費,同時也加大了應用程序開發的負擔。而且依照流程,數據會首先注入到Kafka(一個Message bus),隨后根據這個Message bus分兩條線去處理,或通過Spark Streaming去處理實時數據,或按傳統的ETL方式如Hadoop或Elastic去批處理集中得到批處理結果。

這樣的架構存在三大問題:

一是它把數據根據時間的屬性走向兩條處理邏輯,應用程序的處理邏輯會被寫兩遍;

二是這樣的架構要得到批處理的正確結果才可以做聚合處理,對實時處理平臺而言帶來的是無法忍受的延遲;

三是原始數據在不同的開源項目當中被拷貝了多份,如在Kafka中會有3拷貝,到了Spark Steaming還會有3拷貝,在整個系統和里存在6份甚至是9份拷貝的現象都很普遍。但其帶來容量的需求對客戶來說是一場噩夢,尤其是AI引入之后數據的增速是爆發式的。關鍵的是,Message bus并不是一個存儲系統,在Kafka中的數據并不能保證被長期存儲。而對大數據處理平臺來說,最重要的是先得把數據存下來才談得上發掘出更多的商業價值。

另外,Hadoop只能針對歷史數據做批處理,Spark和Kafka只能對Pub/Sub系統進行梳理。可以說,傳統大數據平臺并不完美。

可以說,傳統單一的計算平臺已經無法應對如此復雜、多樣、海量的數據采集、處理的挑戰。

海量、低時延、非結構化的數據特點將進一步促進數據處理和分析技術的進步,推動流式處理技術的發展。

那么,應對5G和物聯網時代的下一代大數據處理平臺,需要具備哪些能力?

5G時代呼喚新的數據處理平臺

2019年12月初的戴爾科技集團上海研發中心之旅活動中,戴爾科技集團Dell EMC軟件工程總監滕昱首先分析了大數據處理領域近期的三大趨勢。

戴爾科技集團Dell EMC軟件工程總監滕昱

一是在Amazon S3A推出之后,憑借其高可用容量和可擴充性等特點逐漸形成對Hadoop分布式文件系統(HDFS)的取代之勢,流式大數據處理平臺存儲端工作負載顯著增加;加上Hadoop可以直接運行于S3A上,突破了綁定于HDFS上的限制。可以說,2020年將會是從HDFS轉向流存儲的元年。

二是在容器編排戰爭中,Kubernetes贏得了勝利,意味著未來的軟件平臺都將以Kubernetes為基礎,在各種各樣公有云和私有云中自由地進行工作負載的遷移變得更加容易。

三是在計算方面,除了要求準確結果,還需要滿足更多實時計算的需求。一個經典的用例就是銀行實時監控的需求,除了能對線上數據進行實時監控處理,還要同時能調用歷史數據。類似的場景還有IoT和5G,特別是車聯網的連接等越來越多的領域。

為了滿足層出不窮的實時應用場景,同時降低大數據應用平臺的投入,戴爾科技集團決定推出一個 “All in one”的新的大數據處理平臺,即Dell EMC流數據處理平臺(Dell EMC Streaming Data Platform,簡稱“DESDP”)。

起底Dell EMC流數據處理平臺

Dell EMC流數據處理平臺是戴爾科技集團從零開始構建的一套實時流式數據分析與存儲解決方案,旨在為編寫可靠的流式應用程序提供基礎。

借助于該平臺,客戶除了通過諸如S3一類的接口傳輸數據,還可以通過Dell EMC即將提供的Streaming接口去注入數據,計算端不再需要了解數據的來源及傳輸過程,僅需使用SQL或者通用的搜索語法,即可從數據中實時獲得商業價值。

Dell EMC Streaming接口與眾不同的最大特點,是它能接入流數據。

流數據具有四個特點,一是數據實時到達,二是數據到達次序獨立,不受應用系統所控制,三是數據規模宏大且不能預知其最大值,四是數據一經處理,除非特意保存,否則不能被再次取出處理,或者再次提取數據代價昂貴。

從存儲端而言,流數據要求在大并發下實現實時數據低延遲的讀和寫,同時對歷史數據要能高吞吐量的讀,這樣的特性才是一個合格的流存儲接口。

因此,一個成熟的流數據處理平臺,首要的就是能具有同時存儲和處理實時數據的能力,開發者也無需根據數據的時間屬性開發兩套不同的商業邏輯,其次,對于企業而言,只要做好存儲和計算動態的擴容和縮容,應用程序無需根據工作負載大小進行感知,第三,平臺當中的數據一定會被處理而且僅被處理一次,保證大數據處理平臺企業級應用的價值。

1Dell EMC流數據處理平臺架構剖析

分析Dell EMC新的流數據處理平臺架構,中間部分是計算端和流處理端,其上是分為左右兩部分的流數據平臺。

Dell EMC Streaming Data Platform架構

左邊是Dell EMC開發并開源的流式數據存儲引擎Pravega,它作為該平臺的基礎組件實現流存儲的抽象來滿足計算平臺達到實時和歷史數據抽象統一的要求。

數據注入到一定程度后就會放置到持久化存儲中,或者是Isilon 或者是ECS,也可以是今年將推出的全新的對象存儲架構。歷史數據存儲在Tier2的Isilon和ECS上,之后對數據處理引擎也進行了統一處理。

這種兩層的架構解決了存儲端去進行實時和歷史數據的抽象統一。

2Isilon——百分百本地化研發生產的存儲產品

在這里必須給Isilon打個廣告。

上一篇文章曾說過,戴爾科技集團中國研發集團有兩大引以為自豪的產品,一個是VxRail,另一個就是Isilon,而且是百分百本地化研發生產的產品。

談到Isilon的應用場景,戴爾科技集團大中華區企業技術戰略總監許良謀表示,解決數據孤島就是Isilon一個典型的擅長,因為它海納百川,支持各種協議。另外,Isilon還可當作數據的承載,用這樣的方式去解耦,甚至還可以在VMware上做Hadoop,幫助客戶降低成本。這在制造業的優勢尤其明顯。除此之外,Isilon在媒體、生物科技以及基因測序等領域的需求都非常旺盛。

戴爾科技集團全球資深副總裁、大中華區企業解決方案總經理曹志平

戴爾科技集團全球資深副總裁、大中華區企業解決方案總經理曹志平補充說,風靡2018年的電影《哪吒》也是在Isilon平臺上完成的三維動畫渲染;每一次展會上戴爾科技集團Isilon支持播放的自動駕駛的輔助設計系統效果最好,因而受到很多的汽車廠商的青睞,Isilon行業的應用是非常普遍的。

戴爾科技集團中國研發集團上海研發中心總經理陳春曦很風趣:作為一名高科技研發工作者,他自我感覺很高大上,但在他母親眼里他一直就是一個“修電腦“的。《哪吒》上市后,他告訴母親說影片采用的就是他參與研究的成果,令母親對他從此刮目相看,自己在家里的地位也提高了不少。

戴爾科技集團中國研發集團上海研發中心總經理陳春曦

“所以要感謝《哪吒》!” 陳春曦開心地說。

回到Dell EMC新的流數據處理平臺架構,在該圖右邊的計算平臺方面,Dell EMC與開源社區合作,創建和管理Flink集群并集成了Flink的企業特性,以現代流行的開源方式提供運營能力——將內部的Metrics(指標)開源給成熟的硬件供應商,同時大量簡化開發框架。畢竟流處理和實時處理對應用程序開發者來說也是一個新的挑戰。

除了2019年新支持的Flink,Dell EMC今年還將支持Search,把它們的功能帶入流處理世界。

Dell EMC Streaming 平臺應用場景之一

最終,只要寫Flink SQL或Search語義,平臺就可以從這些數據中抓取商業邏輯。這是企業級下一代數據處理平臺最重要特點,也就是前面提到的,客戶只需通過對象存儲接口、文件接口或新的Streaming接口注入數據,在分析端,完全不需要了解下層數據是款如何被存儲和計算一類的各種復雜環節。

一切以客戶為中心

Dell EMC流數據處理平臺并不只針對流數據處理,它可以處理實時數據和歷史數據,目的是取代以Hadoop和Spark、Kafka為代表的現有大數據處理平臺。Dell EMC新的流數據處理平臺是一個揚長避短,或者說是取長補短后達成一個統一的架構。

基于新的架構,Dell EMC在數據注入端和存儲端做到歷史數據和實時數據的統一,而且因為開源,高度的安全得以保證,最終智能地降低了用戶在DevOps上的開銷。

所有這一切創建的Dell EMC流數據處理平臺,終極目標就是為了降低客戶擁抱新平臺的投入,同時提供關鍵的安全隔離、穩定和容易支持的特性,幫助客戶加速數字化轉型。

戴爾科技集團Dell EMC軟件工程總監滕昱

采訪的最后,滕昱表示,“現有技術無法滿足現有用例的需求,就是技術進步的動力。Dell EMC真的是從客戶那里收集這些要求去設計各種新的架構的。”

未經允許不得轉載:存儲在線 » 創新的Dell EMC流數據處理平臺:應對5G時代挑戰
分享到: 更多 (0)
对战牛牛