程序員一定要知道的“大數(shù)據(jù)”基礎(chǔ)知識(shí) _人工

“
歡迎大家來(lái)到華妹碎碎念欄目！每周五固定更新，你將收獲眾多行業(yè)小知識(shí)，希望對(duì)你有幫助哦~
嵌入式和人工智能息息相關(guān)，大數(shù)據(jù)又是人工智能的養(yǎng)料來(lái)源，沒有大數(shù)據(jù)，機(jī)器就無(wú)法學(xué)習(xí)；機(jī)器不學(xué)習(xí)就無(wú)法實(shí)現(xiàn)智能。大數(shù)據(jù)跟人工智能是非常密切的。每個(gè)行業(yè)都會(huì)產(chǎn)生一些行業(yè)大數(shù)據(jù)，而這些行業(yè)大數(shù)據(jù)就會(huì)催生一些人工智能，應(yīng)用在這個(gè)行業(yè)里面。
每個(gè)公司是不一樣的，譬如說(shuō)阿里巴巴可以用人工智能識(shí)別假貨。是如何識(shí)別的呢？通過(guò)分析交易過(guò)程當(dāng)中的各種數(shù)據(jù) ，最后得出是假貨的結(jié)論；可以運(yùn)用人工智能分析每個(gè)人平時(shí)看哪一類的信息，然后推送相關(guān)的信息。不同的公司對(duì)人工智能的運(yùn)用也不相同，在每個(gè)行業(yè)的表現(xiàn)是不一樣的，每個(gè)行業(yè)的大數(shù)據(jù)會(huì)催生不同行業(yè)的人工智能技術(shù) 。
所以對(duì)程序員來(lái)說(shuō)，僅僅知道或聽過(guò)大數(shù)據(jù)是不夠的，至少要知曉其中大概的原理，并且對(duì)常見的大數(shù)據(jù)組件有一定的認(rèn)識(shí) 。
今天這篇文章華妹就給大家分享一下大數(shù)據(jù)的用途，大數(shù)據(jù)的核心處理過(guò)程，以及常見組件的用處。
“
大數(shù)據(jù)能做什么
大數(shù)據(jù)涉及的領(lǐng)域很多：
汽車領(lǐng)域的自動(dòng)駕駛；醫(yī)療領(lǐng)域的病情識(shí)別；金融領(lǐng)域的風(fēng)控、量化交易；教育領(lǐng)域的 AI 教育，智能識(shí)題；推薦系統(tǒng)；疫情篩查等等，可以說(shuō)，大數(shù)據(jù)就是寶藏。
嵌入式物聯(lián)網(wǎng)需要學(xué)的東西真的非常多，千萬(wàn)不要學(xué)錯(cuò)了路線和內(nèi)容，導(dǎo)致工資要不上去！
無(wú)償分享大家一個(gè)資料包，差不多150多G 。里面學(xué)習(xí)內(nèi)容、面經(jīng)、項(xiàng)目都比較新也比較全！某魚上買估計(jì)至少要好幾十。
點(diǎn)擊這里找小助理0元領(lǐng)?。旱慊魑鬧欣渡?痔寮純閃烊?
“
大數(shù)據(jù)計(jì)算原理
大數(shù)據(jù)計(jì)算的核心，其實(shí)就是利用技術(shù)組合起很多便宜的服務(wù)器來(lái)并行處理大量的數(shù)據(jù)，實(shí)現(xiàn)大數(shù)據(jù)的分析和計(jì)算。
一般我們談到大數(shù)據(jù)，關(guān)于技術(shù)向都離不開體系及其衍生的工具，體系其核心就是 HDFS 和。
1、HDFS
計(jì)算需要涉及大量的數(shù)據(jù)可能都是 PB 級(jí)別的，普通單機(jī)的磁盤無(wú)法存儲(chǔ)那么多數(shù)據(jù) ，因此就需要分布式文件存儲(chǔ) ，組合起眾多廉價(jià)的服務(wù)器，讓每個(gè)服務(wù)器存儲(chǔ)部分?jǐn)?shù)據(jù)，對(duì)外展示看起來(lái)卻是一個(gè)文件，這就是分布式文件存儲(chǔ) 。
2、
的原理其實(shí)非常簡(jiǎn)單，它包含兩個(gè)過(guò)程：map 和。

文章插圖

文章插圖
只需定義 map 和的處理邏輯，然后提交給系統(tǒng)，然后 map 和的計(jì)算邏輯就會(huì)分發(fā)到我們部署的各個(gè)計(jì)算節(jié)點(diǎn)上。
每個(gè)被分配到的計(jì)算節(jié)點(diǎn)上就會(huì)運(yùn)行 map 和的代碼邏輯來(lái)處理數(shù)據(jù)，并且每個(gè)機(jī)器處理的也只是部分?jǐn)?shù)據(jù) 。
比如這個(gè) map 程序分配了 5 臺(tái)機(jī)器用于輸入數(shù)據(jù)和編輯數(shù)據(jù)的控件是，一同要處理 1 億條數(shù)據(jù)，很可能機(jī)器 A 就處理前 2 千萬(wàn)條數(shù)據(jù)，機(jī)器 B 處理 2 千萬(wàn)到 4 千萬(wàn)的數(shù)據(jù) ，依次類推。
然后也有 5 臺(tái) ，分別統(tǒng)計(jì)不同 map 機(jī)器的輸入。
這樣算力就平攤到多臺(tái)機(jī)器上并行執(zhí)行，效率就快了，時(shí)間就縮短了。
如果計(jì)算的數(shù)據(jù)量大，也可以通過(guò)更多的機(jī)器來(lái)減少計(jì)算時(shí)間。
“
大數(shù)據(jù)相關(guān)組件
了解了大體的核心技術(shù)后，我們?cè)賮?lái)看看相關(guān)的組件。
1、Hbase
一個(gè)列式存儲(chǔ)的 NoSQL 數(shù)據(jù)庫(kù)，底層利用 HDFS 存儲(chǔ) 。
在存儲(chǔ)數(shù)據(jù)量大的情況下也不會(huì)影響讀取寫入的效率用于輸入數(shù)據(jù)和編輯數(shù)據(jù)的控件是，由于列式存儲(chǔ)，沒有固定的表結(jié)構(gòu) ，可以動(dòng)態(tài)增加列，非常靈活。
2、Hive
前面我們提到，要用上這個(gè)計(jì)算框架是要寫代碼的，這對(duì)于一些運(yùn)營(yíng)或產(chǎn)品來(lái)說(shuō)成本就有點(diǎn)高。
于是就出了個(gè) Hive，支持類 SQL 語(yǔ)句，不需要顯示編寫 map 和的代碼，僅僅寫個(gè) SQL，Hive 就可以把這個(gè) SQL 轉(zhuǎn)成對(duì)應(yīng)的代碼，然后執(zhí)行返回結(jié)果，降低了使用成本，是個(gè)好東西。
3、Spark
雖然好用，但是因?yàn)樗褂么疟P作為存儲(chǔ)介質(zhì)保存中間結(jié)果，且階段性的計(jì)算每執(zhí)行一次 Map 和計(jì)算都需要重新啟動(dòng)一次作業(yè)，在很多需要迭代計(jì)算的作業(yè)中，就非常的不方便。
因此用Spark 的并行計(jì)算框架來(lái)替換，它的目標(biāo)就是低延遲，使用內(nèi)存來(lái)保存中間結(jié)果。
4、Flume
還有一個(gè)數(shù)據(jù)來(lái)源就是日志，有很多數(shù)據(jù)都會(huì)通過(guò)日志保存在服務(wù)器的磁盤上，而 Flume 就是一個(gè)日志采集工具，負(fù)責(zé)日志的采集，然后輸入到不同的數(shù)據(jù)源中。
“
最后
關(guān)于大數(shù)據(jù)體系的一些基礎(chǔ)知識(shí)，了解到這個(gè)地步也就差不多了。
大家可以結(jié)合下面的圖再來(lái)結(jié)合上面的介紹理解一下。
原文鏈接：
【程序員一定要知道的“大數(shù)據(jù)”基礎(chǔ)知識(shí)】本文到此結(jié)束，希望對(duì)大家有所幫助。