關(guān)于我們

質量為(wèi)本、客戶為(wèi)根、勇于拼搏、務(wù)實創新(xīn)

< 返回新(xīn)聞公共列表

華為(wèi)雲BigData Pro解讀: 鲲鵬雲容器(qì)助力大數據破繭成蝶

發布時(shí)間(jiān):2019-09-12 09:17:00
大數據之路(lù)順應人(rén)類科技的進步而誕生(shēng),一(yī)直順風(fēng)順水,不到20年時(shí)間(jiān),已滲透到社會生(shēng)産和人(rén)們生(shēng)活的方方面面。



然而,伴随着信息量的指數級增長,大數據也(yě)開始面臨存儲資源告急、算(suàn)力吃緊、數據處理(lǐ)效率無法滿足業務(wù)增長訴求等一(yī)系列問題,導緻唱衰之聲此起彼伏。




而近年來(lái)興起的容器(qì)技術,以其輕量化(huà)、易遷移、擴容快(kuài)等優勢,結合計算(suàn)存儲分(fēn)離的分(fēn)布式架構,可以更好(hǎo)(hǎo)地發揮大數據平台在海量數據集、高并發、實時(shí)分(fēn)析等應用場(chǎng)景下(xià)的優勢。




翩然入世




互聯網、汽車、保險、電力、零售等行業,利用海量信息分(fēn)析用戶特征及行為(wèi)模式,從而制定更貼近用戶的服務(wù)方案、商(shāng)業策略,并進行精準推送。




目前大部分(fēn)數據分(fēn)析都在Hadoop生(shēng)态中進行,Hadoop也(yě)憑借其完善的生(shēng)态,備受用戶歡迎,成為(wèi)主流的開源大數據平台,也(yě)成為(wèi)了(le)大數據的代名詞。




困蛹之境




640.webp (3).jpg


然而,從2006第一(yī)個(gè)Hadoop版本發布算(suàn)起的話(huà),大數據的發展也(yě)經曆了(le)至少13個(gè)年頭,當初引以為(wèi)傲的“計算(suàn)存儲融合”架構以及先進的數據分(fēn)析理(lǐ)念和實踐,也(yě)開始遭受挑戰:



1、 計算(suàn)存儲資源耦合,無法靈活調整存算(suàn)配比,隻能(néng)按固定比例擴容,導緻部分(fēn)資源浪費;
2、 數據中心建設成本高,後期運維成本有高,性價比和靈活度均不如(rú)公有雲方案;

3、 互聯網時(shí)代,數據爆炸式增長,現(xiàn)有數據中心資源不足,極易導緻作(zuò)業擁塞,降低(dī)計算(suàn)效率;

4、 大數據與其它業務(wù)資源池無法共享,需分(fēn)開維護多套,進一(yī)步增加運維成本。
此外,AI、機器(qì)學習、自然語言處理(lǐ)(NLP)等概念的興起,也(yě)對大數據造成沖擊,“大數據已死”的風(fēng)聲開始不絕于耳。



破繭之掙




640.webp (4).jpg



随着5G+雲+AI時(shí)代來(lái)臨,數據變得更多、更複雜、更精細化(huà),大數據不僅沒有死,反而對企業變得前所未有的重要。而亟待我們解決的問題是:如(rú)何用一(yī)種更高效、更實用的解決方案,處理(lǐ)爆炸式增長的數據。




圍繞這(zhè)一(yī)課題,各大公司也(yě)展開了(le)新(xīn)一(yī)輪的技術探索與升級。




首先,基礎網絡飛速發展,網絡傳輸已不再是瓶頸,許多公司開始在大數據的存儲和計算(suàn)分(fēn)離方面做嘗試,效果如(rú)何呢(ne)?IDC中國報(bào)告指出:“解耦計算(suàn)和存儲在大數據部署中被證明是有用的,它提供了(le)更高的資源利用率,更高的靈活性和更低(dī)的成本。”




同時(shí),伴随着容器(qì)技術的成熟及在各行業的深入應用,部分(fēn)企業也(yě)着手于平台的容器(qì)化(huà)改造,希望結合容器(qì)的優勢,為(wèi)大數據平台賦予新(xīn)的力量。




二者結合,我們似乎看到了(le)大數據蛻變的曙光。




化(huà)蝶之旅



640.webp (5).jpg


目前,存算(suàn)分(fēn)離的方案相對已經比較成熟,容器(qì)化(huà)方案還處于探索和小規模應用階段,以Spark為(wèi)例,方案大體(tǐ)上(shàng)分(fēn)為(wèi)2種:



一(yī)種是Spark Standalone,該方案僅對大數據系統做容器(qì)化(huà)部署改造,得益于容器(qì)輕量化(huà)、更細粒度的算(suàn)力管理(lǐ)、任務(wù)隔離等特點,可以将主機劃分(fēn)成更多小顆粒的任務(wù)單元,使主機資源利用率更高,同時(shí)兼顧用戶原有的使用習慣。




但(dàn)此方案需要提前分(fēn)配固定的容器(qì)數量,并保持容器(qì)的持續運行,無法對容器(qì)進行動态管理(lǐ),資源的利用率雖然有所提升,但(dàn)仍存在浪費。



另一(yī)種是Spark On Kubernetes集群方案,該方案使用Kubernetes替代Yarn來(lái)進行統一(yī)的資源編排和調度,技術上(shàng)更貼近主流容器(qì)解決方案,免去了(le)二層調度,可以進一(yī)步提升資源管理(lǐ)效率,相比Standalone方案,實現(xiàn)了(le)對容器(qì)資源的動态管理(lǐ),優化(huà)了(le)資源分(fēn)配。


然而,Kubernetes不屬于Hadoop生(shēng)态組件,與傳統Spark on YARN相比存在一(yī)些(xiē)劣勢,如(rú):缺少任務(wù)隊列、external shuffle service等特性,且性能(néng)較差。因此在應用到生(shēng)産系統時(shí),還要做大量的功能(néng)增強、調度和性能(néng)優化(huà),才能(néng)保持與傳統大數據平台一(yī)緻。



針對客戶容器(qì)化(huà)過程中的問題,華為(wèi)雲計劃推出鲲鵬大數據容器(qì)解決方案,該方案與BigData Pro相結合,将提供一(yī)套更完善的容器(qì)化(huà)大數據解決方案。




BigData Pro是業界首個(gè)鲲鵬大數據解決方案
該方案采用基于公有雲的存算(suàn)分(fēn)離架構,以可無限彈性擴容的鲲鵬算(suàn)力作(zuò)為(wèi)計算(suàn)資源,以支持原生(shēng)多協議(yì)的OBS對象存儲服務(wù)為(wèi)統一(yī)的存儲數據湖,提供“存算(suàn)分(fēn)離、極緻彈性、極緻高效”的全新(xīn)公有雲大數據解決方案,大幅提升了(le)大數據集群的資源利用率,能(néng)有效應對當前大數據行業存在的瓶頸,幫助企業應對5G+雲+智能(néng)時(shí)代的全新(xīn)挑戰,實現(xiàn)企業智能(néng)化(huà)轉型升級。




/template/Home/Zkeys/PC/Static