技術棧是什么
關注:215 發布時間:2021-08-30 16:00:39
相信很多學java的同學都有轉大數據或者學大數據的想法,但是在網上看到大數據的技術棧,就看了一下,比如hadoop,hdfs,mapreduce,hive,卡夫卡,zookeeper,hbase,sqoop,flume,spark,storm,flink等等。
童鞋可能突然慌了,想學java的有ssm,跳羚,春云,mysql等。臺詞很清楚,所以學起來相對簡單,但是大數據就不一樣了。技術棧太多,剛開始可能會被嚇到外面。,博主們把大數據技術棧和java技術棧進行對比,告訴你這些大數據技術棧是為了什么。
架構圖
在我們開始解釋之前,讓我們看一下下圖:
數據連接器模塊
我們按照圖的順序逐一介紹。第一,sqoop(發音:skup)是一個開源工具,主要用于hadoop(hive)和傳統數據庫(mysql、postgresql、……)之間的數據傳輸,可以從一個關系型數據庫(比如mysql、oracle、postgres等)導入數據。)到hadoop hdfs
如果非要比較功能的話,很像阿里的canal組件,用來同步數據。
水道
水槽是一個高度可用、可靠和分布式的系統,用于收集、聚合和傳輸cloudera提供的大量日志。水槽支持定制日志系統中的各種數據發送器,用于收集數據;同時,flume提供了簡單處理數據和到達各種數據接收者(可定制)的能力。
水槽的功能類似于elk(日志實時檢索系統)中的logstash,用于傳輸和處理日志數據。
卡夫卡
卡夫卡是一個高吞吐量的分布式發布訂閱消息系統,可以處理網站中消費者的所有動作流數據。
說白了就是一個mq消息傳遞系統,和java常用的rabbitmq、rocketmq一樣,只是側重點不同??ǚ蚩▽W⒂诟咄掏铝?,能夠處理海量數據。
分布式文件系統
hadoop分布式文件系統(hdfs)是指設計為在商用硬件上運行的分布式文件系統。它與現有的分布式文件系統有許多共同之處。但同時也明顯不同于其他分布式文件系統。hdfs是一個高容錯系統,適合部署在廉價的機器上。hdfs可以提供高吞吐量的數據訪問,非常適合大規模數據集。
像java這樣的項目,不可避免的會涉及到文件上傳和。此時,您要么自己構建分布式文件系統,要么使用第三方。一般來說,gfs、hdfs、lustre、ceph、gridfs、mogilefs、tfs、fastdfs等。如果用第三方,一般會用七牛云,騰訊云oss對象存儲,阿里巴巴云oss對象存儲。
儲備
hive是基于hadoop的數據倉庫工具,用于數據的提取、轉換和加載。它是一種能夠存儲、查詢和分析hadoop中存儲的大規模數據的機制。hive數據倉庫工具可以將結構化數據文件映射成數據庫表,提供sql查詢功能,將sql語句轉換成mapreduce任務執行。
與java相比,有點類似于mysql(不太準確),它不僅可以存儲表結構數據,還可以通過sql查詢這些數據,但不能修改,只能離線操作。
數據庫
hadoop數據庫是一個高度可靠、高性能、面向列和可擴展的分布式存儲系統。通過使用hbase技術,可以在廉價的pc服務器上構建大規模的結構化存儲集群。
糖化血紅蛋白實際上是一種nosql,類似于java中常用的redis,只是它們的底層實現不同。
動物園管理員
zookeeper是一個分布式、開源的分布式應用協調服務,是google chubby的開源實現,是hadoop和hbase的重要組成部分。它是為分布式應用提供一致服務的軟件,功能包括配置維護、域名服務、分布式同步、群組服務等。
zookeer在java里也很有名,基于dubbo的注冊中心一般都是用zookeer實現的。類似的有:尤里卡、執政官等等,都是著名的微服注冊中心。
大數據
hadoop是apache基金會開發的分布式系統基礎設施。用戶可以開發分布式程序,而不知道分布式的底層細節。充分利用集群的力量進行高速計算和存儲。hadoop實現了hadoop分布式文件系統(簡稱hdfs)。
hdfs具有高容錯性的特點,設計用于低成本硬件。而且它提供了訪問應用數據的高吞吐量,適合大數據集的應用。
hdfs放寬)posix的要求,并可以流式訪問文件系統中的數據。hadoop框架的核心設計是hdfs和mapreduce。hdfs為海量數據提供存儲,而mapreduce為海量數據提供計算
從java的角度來看,hadoop和spring cloud有些類似。它們不僅僅是一種特定的技術,而是一個生態圈。hadoop包括hive、mapreduce、hdfs等。所以不要把hadoop僅僅當作一種單一的技術。
數據處理技術
mapreduce、spark、storm/flink都是用來處理數據的,比如數據清理、計算、統計等等。
數據處理
mapreduce是一種大數據并行處理的計算模型、框架和平臺,隱含以下三層含義:
mapreduce是一個基于集群的高性能并行計算平臺(集群基礎設施)。它允許市場上常見的商用服務器形成一個具有數十、數百到數千個節點的分布式并行計算集群。
mapreduce是一個用于并行計算和運行的軟件框架。它提供了一個龐大但設計良好的并行計算軟件框架,可以自動完成計算任務的并行處理,自動劃分計算數據和計算任務,在集群節點上自動分配和執行任務,收集計算結果,并將并行計算中涉及的數據分布式存儲、數據通信、容錯處理等許多系統底層的復雜細節移交給系統,大大減輕了軟件開發人員的負擔。
mapreduce是一種并行編程模型方法。借助函數式編程語言lisp的設計思想,提供了一種簡單方便的并行編程方法。它使用map和reduce函數對基本并行計算任務進行編程,并提供抽象操作和并行編程接口,從而簡單方便地完成大規模數據編程和計算處理
技術的概念一般比較嚴謹復雜。這里mapreduce縮寫為mr,主要功能是處理線下大數據。它可以通過分析大量離線數據來計算我們需要的結果。
火花
apache spark是一款專為大規模數據處理設計的快速通用計算引擎。spark是一個類似hadoop mapreduce的通用并行框架,由加州大學伯克利分校amp實驗室開放。spark具有hadoop mapreduce的優勢。然而,與mapreduce不同,——job的中間輸出結果可以保存在內存中,因此不再需要讀寫hdfs。因此spark可以更好的應用到需要迭代的mapreduce算法中,比如數據挖掘、機器學習等。
spark是一個類似hadoop的開源集群計算環境,但兩者有一些區別。這些有用的差異使spark在某些工作負載中表現更好。換句話說,spark啟用了內存分布式數據集,這不僅可以提供交互式查詢,還可以優化迭代工作負載。
從概念上可以看出,spark不僅僅是一種技術,而是類似于hadoop,有一個成熟的生態系統,比如spark sql和spark streaming,類似于hadoop中的hive和mr。目前spark廣泛用于處理海量數據,因為它既能實現離線數據分析,又能實現實時數據分析。
storm/flink
apache flink是apache software foundation開發的開源流處理框架,其核心是用java和scala編寫的分布式流數據流引擎。flink以并行和流水線方式執行任意流數據程序,flink的流水線運行時系統可以執行批處理和流處理程序。另外,flink的運行時本身也支持迭代算法的執行(storm的功能和上面類似,這里就不啰嗦了)。
spark streaming是一個實時數據處理框架。為什么需要storm/flink?因為實時和實時是有時間差的,看下圖就能看出兩者的區別。
上一篇:applecare換新機條件
下一篇:vivo手機兒童模式在哪
猜你喜歡
-
第一眼給人高冷女生120人支持
美女面對不認識的人一般都很冷淡;如果認識你的美女對你還是冷冰冰的態度,那她們多半是看不起你,甚至鄙視你。無論是在大街上,在商場里,還是在其他公共場所,我們遇到的美女都是極其…
-
天貓sku最多能放多少?刪除和修改的方法34人支持
要說哪個logo平臺最能代表電子商務的發展,那就是淘寶。淘寶上經營店鋪的商家很多,淘寶上購物的用戶也很多。今天要回答的問題是,天貓如何刪除sku?如果要刪除sku庫存數量,可以直接…
-
什么項目投資小賺錢快36人支持
投資要小,錢要快。我想在不違反法律和紀律的情況下,我會向你推薦幾個:1/早餐業務。但是早餐生意很辛苦。不知道你能不能忍。半夜起來煮粥,做饅頭,做饅頭,做茶葉蛋。不過收入還是很…
-
男的左眼跳是什么預兆?33人支持
俗話說“左眼跳財富,右眼跳災難”。這種說法有一定的依據,但不那么準確。風水理論中,左眼皮跳的預兆是什么?今天我就好好給大家講講。眼皮跳暗示的是和十二小時,十神,四神有關。今…
-
昊華輪胎怎么樣41人支持
昨天,以“創新驅動、合作共贏”為主題的第十屆中國(廣饒)國際橡膠輪胎及汽車零部件展覽會在山東省廣饒國際博覽中心開幕,吸引了眾多優秀輪胎企業參展。其中,浩華輪胎展廳氣勢磅…
-
手機殺毒軟件十大排名40人支持
在日常生活中,相信每個人都會遇到這樣的事情。手機老是接一些騷擾電話,騙短信,很煩。需要有一個安全軟件對手機進行全方位的保護。反騷擾垃圾短信、準確攔截詐騙短信、詐騙電話…
-
雞霸是什么意思呢94人支持
作為王者榮耀里第一個單純的英雄,我幾乎不需要任何操作。我見人就用一套技能打,要么你死,要么我活。但是,似乎有一件事,讓人很糾結。到底妲己怎么做傷害最高?讓我們今天討論趙廉。…
-
微信好物圈會成為它體系內的小紅書嗎43人支持
對于微信來說,朋友圈已經失去了往日的光芒。一方面,微商和廣告的不斷侵蝕導致大多數用戶對朋友圈失去興趣。另一方面,隨著媒體的崛起,朋友圈不再是表達自己的唯一窗口。微信團隊…
-
創業小項目推薦14人支持
鑒于越來越多的農民工返鄉,返鄉后該怎么辦?這是很多人都在思考的問題。我特別關注這群農民工,因為我也是農村人。下面推薦幾個小創業項目,我覺得比較適合返鄉農民工選擇創業。農…
-
怎么開好網店?新手怎么經營網店14人支持
2020年上半年對于很多實體店來說無疑是艱難的,但對于很多網商來說確實值得欣喜。據統計,2020年上半年淘寶的銷量比去年增長了40%,所以很多朋友開始對網店有了一些想法。怎樣才…
-
攜程拿去花買不了機票37人支持
現在,大多數人選擇在ctrip.com或去哪里的網上訂票、預訂酒店和機票,所以這兩個平臺對每個人來說都很熟悉。隨著互聯網金融的發展,攜程和qunar.com也推出了一項金融服務,即取花?!?/p>
-
花唄還款日期怎么改26人支持
長期以來,柏華的還款日期固定在每月10日。突然宣布螞蟻柏華可以預約調整還款日期,可以將還款日期改為15日或20日。想必這個消息一出,很多支付寶用戶還是很開心的。就個人而言,有…
熱門十大品牌
- 2021年我國十大黃金品牌排行榜30999人
- 眼鏡品牌十大排行榜前10名26359人
- 十大證券公司排行榜前10名23243人
- 2021年我國雜志排行榜前10名20054人
- 我國十大雜志排行榜前10名16359人
- 2021我國十個宜居城市排行榜前11487人
- 男士褲子品牌十大排行榜前10名11186人
- 2021十大火熱電腦游戲排行榜前11057人
- 十大衛生巾品牌排行榜前十名8848人
- 我國十大襪子品牌排行榜前十名8369人