午夜精品人妻久久久-成年美女很黄的网站-在线看片免费人成视久网app-国产精品美女无遮挡一区二区-91精品国产综合久久久久-国产的免费视频又猛又爽又刺激-在线看片免费人成视久网app-久久香蕉国产精品视频-av一区二区三区高清

程序員一定要知道的“大數(shù)據(jù)”基礎(chǔ)知識(shí)


歡迎大家來(lái)到華妹碎碎念欄目!每周五固定更新,你將收獲眾多行業(yè)小知識(shí),希望對(duì)你有幫助哦~
嵌入式和人工智能息息相關(guān),大數(shù)據(jù)又是人工智能的養(yǎng)料來(lái)源 , 沒有大數(shù)據(jù),機(jī)器就無(wú)法學(xué)習(xí);機(jī)器不學(xué)習(xí)就無(wú)法實(shí)現(xiàn)智能 。大數(shù)據(jù)跟人工智能是非常密切的 。每個(gè)行業(yè)都會(huì)產(chǎn)生一些行業(yè)大數(shù)據(jù),而這些行業(yè)大數(shù)據(jù)就會(huì)催生一些人工智能,應(yīng)用在這個(gè)行業(yè)里面 。
每個(gè)公司是不一樣的,譬如說(shuō)阿里巴巴可以用人工智能識(shí)別假貨 。是如何識(shí)別的呢?通過(guò)分析交易過(guò)程當(dāng)中的各種數(shù)據(jù) , 最后得出是假貨的結(jié)論;可以運(yùn)用人工智能分析每個(gè)人平時(shí)看哪一類的信息,然后推送相關(guān)的信息 。不同的公司對(duì)人工智能的運(yùn)用也不相同,在每個(gè)行業(yè)的表現(xiàn)是不一樣的 , 每個(gè)行業(yè)的大數(shù)據(jù)會(huì)催生不同行業(yè)的人工智能技術(shù) 。
所以對(duì)程序員來(lái)說(shuō),僅僅知道或聽過(guò)大數(shù)據(jù)是不夠的,至少要知曉其中大概的原理 , 并且對(duì)常見的大數(shù)據(jù)組件有一定的認(rèn)識(shí) 。
今天這篇文章華妹就給大家分享一下大數(shù)據(jù)的用途,大數(shù)據(jù)的核心處理過(guò)程,以及常見組件的用處 。

大數(shù)據(jù)能做什么
大數(shù)據(jù)涉及的領(lǐng)域很多:
汽車領(lǐng)域的自動(dòng)駕駛;醫(yī)療領(lǐng)域的病情識(shí)別;金融領(lǐng)域的風(fēng)控、量化交易;教育領(lǐng)域的 AI 教育 , 智能識(shí)題;推薦系統(tǒng);疫情篩查等等 , 可以說(shuō),大數(shù)據(jù)就是寶藏 。
嵌入式物聯(lián)網(wǎng)需要學(xué)的東西真的非常多,千萬(wàn)不要學(xué)錯(cuò)了路線和內(nèi)容,導(dǎo)致工資要不上去!
無(wú)償分享大家一個(gè)資料包 , 差不多150多G 。里面學(xué)習(xí)內(nèi)容、面經(jīng)、項(xiàng)目都比較新也比較全!某魚上買估計(jì)至少要好幾十 。
點(diǎn)擊這里找小助理0元領(lǐng)?。旱慊魑鬧欣渡?痔寮純閃烊?

大數(shù)據(jù)計(jì)算原理
大數(shù)據(jù)計(jì)算的核心,其實(shí)就是利用技術(shù)組合起很多便宜的服務(wù)器來(lái)并行處理大量的數(shù)據(jù),實(shí)現(xiàn)大數(shù)據(jù)的分析和計(jì)算 。
一般我們談到大數(shù)據(jù),關(guān)于技術(shù)向都離不開體系及其衍生的工具,體系其核心就是 HDFS 和。
1、HDFS
計(jì)算需要涉及大量的數(shù)據(jù)可能都是 PB 級(jí)別的,普通單機(jī)的磁盤無(wú)法存儲(chǔ)那么多數(shù)據(jù) , 因此就需要分布式文件存儲(chǔ) , 組合起眾多廉價(jià)的服務(wù)器 , 讓每個(gè)服務(wù)器存儲(chǔ)部分?jǐn)?shù)據(jù),對(duì)外展示看起來(lái)卻是一個(gè)文件,這就是分布式文件存儲(chǔ) 。
2、
的原理其實(shí)非常簡(jiǎn)單 , 它包含兩個(gè)過(guò)程:map 和。

程序員一定要知道的“大數(shù)據(jù)”基礎(chǔ)知識(shí)

文章插圖
程序員一定要知道的“大數(shù)據(jù)”基礎(chǔ)知識(shí)

文章插圖
只需定義 map 和的處理邏輯,然后提交給系統(tǒng),然后 map 和的計(jì)算邏輯就會(huì)分發(fā)到我們部署的各個(gè)計(jì)算節(jié)點(diǎn)上 。
每個(gè)被分配到的計(jì)算節(jié)點(diǎn)上就會(huì)運(yùn)行 map 和的代碼邏輯來(lái)處理數(shù)據(jù),并且每個(gè)機(jī)器處理的也只是部分?jǐn)?shù)據(jù) 。
比如這個(gè) map 程序分配了 5 臺(tái)機(jī)器用于輸入數(shù)據(jù)和編輯數(shù)據(jù)的控件是,一同要處理 1 億條數(shù)據(jù),很可能機(jī)器 A 就處理前 2 千萬(wàn)條數(shù)據(jù),機(jī)器 B 處理 2 千萬(wàn)到 4 千萬(wàn)的數(shù)據(jù) , 依次類推 。
然后也有 5 臺(tái) , 分別統(tǒng)計(jì)不同 map 機(jī)器的輸入 。
這樣算力就平攤到多臺(tái)機(jī)器上并行執(zhí)行,效率就快了,時(shí)間就縮短了 。
如果計(jì)算的數(shù)據(jù)量大,也可以通過(guò)更多的機(jī)器來(lái)減少計(jì)算時(shí)間 。

大數(shù)據(jù)相關(guān)組件
了解了大體的核心技術(shù)后,我們?cè)賮?lái)看看相關(guān)的組件 。
1、Hbase
一個(gè)列式存儲(chǔ)的 NoSQL 數(shù)據(jù)庫(kù),底層利用 HDFS 存儲(chǔ) 。
在存儲(chǔ)數(shù)據(jù)量大的情況下也不會(huì)影響讀取寫入的效率用于輸入數(shù)據(jù)和編輯數(shù)據(jù)的控件是,由于列式存儲(chǔ),沒有固定的表結(jié)構(gòu) , 可以動(dòng)態(tài)增加列,非常靈活 。
2、Hive
前面我們提到,要用上這個(gè)計(jì)算框架是要寫代碼的 , 這對(duì)于一些運(yùn)營(yíng)或產(chǎn)品來(lái)說(shuō)成本就有點(diǎn)高 。
于是就出了個(gè) Hive,支持類 SQL 語(yǔ)句,不需要顯示編寫 map 和的代碼,僅僅寫個(gè) SQL,Hive 就可以把這個(gè) SQL 轉(zhuǎn)成對(duì)應(yīng)的代碼,然后執(zhí)行返回結(jié)果 , 降低了使用成本 , 是個(gè)好東西 。
3、Spark
雖然好用,但是因?yàn)樗褂么疟P作為存儲(chǔ)介質(zhì)保存中間結(jié)果,且階段性的計(jì)算每執(zhí)行一次 Map 和計(jì)算都需要重新啟動(dòng)一次作業(yè),在很多需要迭代計(jì)算的作業(yè)中,就非常的不方便 。
因此用Spark 的并行計(jì)算框架來(lái)替換,它的目標(biāo)就是低延遲 , 使用內(nèi)存來(lái)保存中間結(jié)果 。
4、Flume
還有一個(gè)數(shù)據(jù)來(lái)源就是日志,有很多數(shù)據(jù)都會(huì)通過(guò)日志保存在服務(wù)器的磁盤上,而 Flume 就是一個(gè)日志采集工具,負(fù)責(zé)日志的采集,然后輸入到不同的數(shù)據(jù)源中 。

最 后
關(guān)于大數(shù)據(jù)體系的一些基礎(chǔ)知識(shí),了解到這個(gè)地步也就差不多了 。
大家可以結(jié)合下面的圖再來(lái)結(jié)合上面的介紹理解一下 。
原文鏈接:
【程序員一定要知道的“大數(shù)據(jù)”基礎(chǔ)知識(shí)】本文到此結(jié)束,希望對(duì)大家有所幫助 。