<fieldset id="gy0wc"></fieldset>
<fieldset id="gy0wc"></fieldset>
  • <ul id="gy0wc"><sup id="gy0wc"></sup></ul>
  • 當前位置:首頁 > 行業知識 > 綜合

    技術棧是什么

    關注:215 發布時間:2021-08-30 16:00:39

    相信很多學java的同學都有轉大數據或者學大數據的想法,但是在網上看到大數據的技術棧,就看了一下,比如hadoop,hdfs,mapreduce,hive,卡夫卡,zookeeper,hbase,sqoop,flume,spark,storm,flink等等。

    童鞋可能突然慌了,想學java的有ssm,跳羚,春云,mysql等。臺詞很清楚,所以學起來相對簡單,但是大數據就不一樣了。技術棧太多,剛開始可能會被嚇到外面。,博主們把大數據技術棧和java技術棧進行對比,告訴你這些大數據技術棧是為了什么。

    架構圖

    在我們開始解釋之前,讓我們看一下下圖:

    數據連接器模塊

    我們按照圖的順序逐一介紹。第一,sqoop(發音:skup)是一個開源工具,主要用于hadoop(hive)和傳統數據庫(mysql、postgresql、……)之間的數據傳輸,可以從一個關系型數據庫(比如mysql、oracle、postgres等)導入數據。)到hadoop hdfs

    如果非要比較功能的話,很像阿里的canal組件,用來同步數據。

    水道

    水槽是一個高度可用、可靠和分布式的系統,用于收集、聚合和傳輸cloudera提供的大量日志。水槽支持定制日志系統中的各種數據發送器,用于收集數據;同時,flume提供了簡單處理數據和到達各種數據接收者(可定制)的能力。

    水槽的功能類似于elk(日志實時檢索系統)中的logstash,用于傳輸和處理日志數據。

    卡夫卡

    卡夫卡是一個高吞吐量的分布式發布訂閱消息系統,可以處理網站中消費者的所有動作流數據。

    說白了就是一個mq消息傳遞系統,和java常用的rabbitmq、rocketmq一樣,只是側重點不同??ǚ蚩▽W⒂诟咄掏铝?,能夠處理海量數據。

    分布式文件系統

    hadoop分布式文件系統(hdfs)是指設計為在商用硬件上運行的分布式文件系統。它與現有的分布式文件系統有許多共同之處。但同時也明顯不同于其他分布式文件系統。hdfs是一個高容錯系統,適合部署在廉價的機器上。hdfs可以提供高吞吐量的數據訪問,非常適合大規模數據集。

    像java這樣的項目,不可避免的會涉及到文件上傳和。此時,您要么自己構建分布式文件系統,要么使用第三方。一般來說,gfs、hdfs、lustre、ceph、gridfs、mogilefs、tfs、fastdfs等。如果用第三方,一般會用七牛云,騰訊云oss對象存儲,阿里巴巴云oss對象存儲。

    儲備

    hive是基于hadoop的數據倉庫工具,用于數據的提取、轉換和加載。它是一種能夠存儲、查詢和分析hadoop中存儲的大規模數據的機制。hive數據倉庫工具可以將結構化數據文件映射成數據庫表,提供sql查詢功能,將sql語句轉換成mapreduce任務執行。

    與java相比,有點類似于mysql(不太準確),它不僅可以存儲表結構數據,還可以通過sql查詢這些數據,但不能修改,只能離線操作。

    數據庫

    hadoop數據庫是一個高度可靠、高性能、面向列和可擴展的分布式存儲系統。通過使用hbase技術,可以在廉價的pc服務器上構建大規模的結構化存儲集群。

    糖化血紅蛋白實際上是一種nosql,類似于java中常用的redis,只是它們的底層實現不同。

    動物園管理員

    zookeeper是一個分布式、開源的分布式應用協調服務,是google chubby的開源實現,是hadoop和hbase的重要組成部分。它是為分布式應用提供一致服務的軟件,功能包括配置維護、域名服務、分布式同步、群組服務等。

    zookeer在java里也很有名,基于dubbo的注冊中心一般都是用zookeer實現的。類似的有:尤里卡、執政官等等,都是著名的微服注冊中心。

    大數據

    hadoop是apache基金會開發的分布式系統基礎設施。用戶可以開發分布式程序,而不知道分布式的底層細節。充分利用集群的力量進行高速計算和存儲。hadoop實現了hadoop分布式文件系統(簡稱hdfs)。

    hdfs具有高容錯性的特點,設計用于低成本硬件。而且它提供了訪問應用數據的高吞吐量,適合大數據集的應用。

    hdfs放寬)posix的要求,并可以流式訪問文件系統中的數據。hadoop框架的核心設計是hdfs和mapreduce。hdfs為海量數據提供存儲,而mapreduce為海量數據提供計算

    從java的角度來看,hadoop和spring cloud有些類似。它們不僅僅是一種特定的技術,而是一個生態圈。hadoop包括hive、mapreduce、hdfs等。所以不要把hadoop僅僅當作一種單一的技術。

    數據處理技術

    mapreduce、spark、storm/flink都是用來處理數據的,比如數據清理、計算、統計等等。

    數據處理

    mapreduce是一種大數據并行處理的計算模型、框架和平臺,隱含以下三層含義:

    mapreduce是一個基于集群的高性能并行計算平臺(集群基礎設施)。它允許市場上常見的商用服務器形成一個具有數十、數百到數千個節點的分布式并行計算集群。

    mapreduce是一個用于并行計算和運行的軟件框架。它提供了一個龐大但設計良好的并行計算軟件框架,可以自動完成計算任務的并行處理,自動劃分計算數據和計算任務,在集群節點上自動分配和執行任務,收集計算結果,并將并行計算中涉及的數據分布式存儲、數據通信、容錯處理等許多系統底層的復雜細節移交給系統,大大減輕了軟件開發人員的負擔。

    mapreduce是一種并行編程模型方法。借助函數式編程語言lisp的設計思想,提供了一種簡單方便的并行編程方法。它使用map和reduce函數對基本并行計算任務進行編程,并提供抽象操作和并行編程接口,從而簡單方便地完成大規模數據編程和計算處理

    技術的概念一般比較嚴謹復雜。這里mapreduce縮寫為mr,主要功能是處理線下大數據。它可以通過分析大量離線數據來計算我們需要的結果。

    火花

    apache spark是一款專為大規模數據處理設計的快速通用計算引擎。spark是一個類似hadoop mapreduce的通用并行框架,由加州大學伯克利分校amp實驗室開放。spark具有hadoop mapreduce的優勢。然而,與mapreduce不同,——job的中間輸出結果可以保存在內存中,因此不再需要讀寫hdfs。因此spark可以更好的應用到需要迭代的mapreduce算法中,比如數據挖掘、機器學習等。

    spark是一個類似hadoop的開源集群計算環境,但兩者有一些區別。這些有用的差異使spark在某些工作負載中表現更好。換句話說,spark啟用了內存分布式數據集,這不僅可以提供交互式查詢,還可以優化迭代工作負載。

    從概念上可以看出,spark不僅僅是一種技術,而是類似于hadoop,有一個成熟的生態系統,比如spark sql和spark streaming,類似于hadoop中的hive和mr。目前spark廣泛用于處理海量數據,因為它既能實現離線數據分析,又能實現實時數據分析。

    storm/flink

    apache flink是apache software foundation開發的開源流處理框架,其核心是用java和scala編寫的分布式流數據流引擎。flink以并行和流水線方式執行任意流數據程序,flink的流水線運行時系統可以執行批處理和流處理程序。另外,flink的運行時本身也支持迭代算法的執行(storm的功能和上面類似,這里就不啰嗦了)。

    spark streaming是一個實時數據處理框架。為什么需要storm/flink?因為實時和實時是有時間差的,看下圖就能看出兩者的區別。

    猜你喜歡

    • 第一眼給人高冷女生

      第一眼給人高冷女生120人支持

      美女面對不認識的人一般都很冷淡;如果認識你的美女對你還是冷冰冰的態度,那她們多半是看不起你,甚至鄙視你。無論是在大街上,在商場里,還是在其他公共場所,我們遇到的美女都是極其…

    • 天貓sku最多能放多少?刪除和修改的方法

      天貓sku最多能放多少?刪除和修改的方法34人支持

      要說哪個logo平臺最能代表電子商務的發展,那就是淘寶。淘寶上經營店鋪的商家很多,淘寶上購物的用戶也很多。今天要回答的問題是,天貓如何刪除sku?如果要刪除sku庫存數量,可以直接…

    • 什么項目投資小賺錢快

      什么項目投資小賺錢快36人支持

      投資要小,錢要快。我想在不違反法律和紀律的情況下,我會向你推薦幾個:1/早餐業務。但是早餐生意很辛苦。不知道你能不能忍。半夜起來煮粥,做饅頭,做饅頭,做茶葉蛋。不過收入還是很…

    • 男的左眼跳是什么預兆?

      男的左眼跳是什么預兆?33人支持

      俗話說“左眼跳財富,右眼跳災難”。這種說法有一定的依據,但不那么準確。風水理論中,左眼皮跳的預兆是什么?今天我就好好給大家講講。眼皮跳暗示的是和十二小時,十神,四神有關。今…

    • 昊華輪胎怎么樣

      昊華輪胎怎么樣41人支持

      昨天,以“創新驅動、合作共贏”為主題的第十屆中國(廣饒)國際橡膠輪胎及汽車零部件展覽會在山東省廣饒國際博覽中心開幕,吸引了眾多優秀輪胎企業參展。其中,浩華輪胎展廳氣勢磅…

    • 手機殺毒軟件十大排名

      手機殺毒軟件十大排名40人支持

      在日常生活中,相信每個人都會遇到這樣的事情。手機老是接一些騷擾電話,騙短信,很煩。需要有一個安全軟件對手機進行全方位的保護。反騷擾垃圾短信、準確攔截詐騙短信、詐騙電話…

    • 雞霸是什么意思呢

      雞霸是什么意思呢94人支持

      作為王者榮耀里第一個單純的英雄,我幾乎不需要任何操作。我見人就用一套技能打,要么你死,要么我活。但是,似乎有一件事,讓人很糾結。到底妲己怎么做傷害最高?讓我們今天討論趙廉。…

    • 微信好物圈會成為它體系內的小紅書嗎

      微信好物圈會成為它體系內的小紅書嗎43人支持

      對于微信來說,朋友圈已經失去了往日的光芒。一方面,微商和廣告的不斷侵蝕導致大多數用戶對朋友圈失去興趣。另一方面,隨著媒體的崛起,朋友圈不再是表達自己的唯一窗口。微信團隊…

    • 創業小項目推薦

      創業小項目推薦14人支持

      鑒于越來越多的農民工返鄉,返鄉后該怎么辦?這是很多人都在思考的問題。我特別關注這群農民工,因為我也是農村人。下面推薦幾個小創業項目,我覺得比較適合返鄉農民工選擇創業。農…

    • 怎么開好網店?新手怎么經營網店

      怎么開好網店?新手怎么經營網店14人支持

      2020年上半年對于很多實體店來說無疑是艱難的,但對于很多網商來說確實值得欣喜。據統計,2020年上半年淘寶的銷量比去年增長了40%,所以很多朋友開始對網店有了一些想法。怎樣才…

    • 攜程拿去花買不了機票

      攜程拿去花買不了機票37人支持

      現在,大多數人選擇在ctrip.com或去哪里的網上訂票、預訂酒店和機票,所以這兩個平臺對每個人來說都很熟悉。隨著互聯網金融的發展,攜程和qunar.com也推出了一項金融服務,即取花?!?/p>

    • 花唄還款日期怎么改

      花唄還款日期怎么改26人支持

      長期以來,柏華的還款日期固定在每月10日。突然宣布螞蟻柏華可以預約調整還款日期,可以將還款日期改為15日或20日。想必這個消息一出,很多支付寶用戶還是很開心的。就個人而言,有…

    主站蜘蛛池模板: 天天爽夜夜爽夜夜爽精品视频| 久久夜色精品国产噜噜麻豆| 亚洲精品无码av天堂| 国产偷亚洲偷欧美偷精品| 亚洲精品一品区二品区三品区| 国产欧美日韩精品专区| 国产精品污视频| 久久丫精品国产亚洲av不卡| 久久精品国产国产精品四凭| 亚洲精品小视频| 国产亚洲美女精品久久久久狼| 久久99精品久久久久久久不卡 | 夜夜精品无码一区二区三区| 国产精品欧美一区二区三区| 久久精品国产影库免费看| 国内精品伊人久久久久av一坑| 最新国产精品精品视频| 午夜精品一区二区三区在线观看| 国产精品福利在线观看免费不卡 | 99久久99久久精品国产片果冻| 91精品国产综合久久精品| 无码人妻精品一区二区三18禁| 中文字幕精品久久久久人妻| 四虎成人精品在永久在线 | 久久99国产精品一区二区| 成人精品一区二区三区中文字幕| 久久亚洲中文字幕精品有坂深雪| 中文国产成人精品久久不卡| 亚洲欧美一级久久精品| 久久国产精品无码网站| 国产亚洲精品成人a v小说| 国产99视频精品专区| 99RE8这里有精品热视频| 99国内精品久久久久久久| 四虎影永久在线观看精品| 欧美精品在线一区| 51精品资源视频在线播放| 国产高清国内精品福利99久久| 国产成人亚洲精品影院| 精品久久久无码中文字幕天天| 久久se精品一区精品二区国产 |