国产精品无码久久久久久久久久,乱色老熟女一区二区三区hd

機器學(xué)習(xí)崗位的面試中通常會對一些常見的機器學(xué)習(xí)算法和思想進行提問，在平時的學(xué)習(xí)過程中可能對算法的理論，注意點，區(qū)別會有一定的認(rèn)識，但是這些知識可能不系統(tǒng) ，在回答的時候未必能在短時間內(nèi)答出自己的認(rèn)識，因此將機器學(xué)習(xí)中常見的原理性問題記錄下來，保持對各個機器學(xué)習(xí)算法原理和特點的熟練度。
算法分類
下面圖片是借用網(wǎng)友做的，很好的總結(jié)了機器學(xué)習(xí)的算法分類：
問答題問1：協(xié)方差和相關(guān)性有什么區(qū)別？
答：相關(guān)性是協(xié)方差的標(biāo)準(zhǔn)化格式。協(xié)方差本身很難做比較。例如：如果我們計算工資（￥）和年齡（歲）的協(xié)方差，因為這兩個變量有不同的度量，所以我們會得到不能做比較的不同的協(xié)方差。為了解決這個問題，我們計算相關(guān)性來得到一個介于-1和1之間的值，就可以忽略它們各自不同的度量。
問2：你認(rèn)為把分類變量當(dāng)成連續(xù)型變量會得到一個更好的預(yù)測模型嗎？
答：為了得到更好的預(yù)測，只有在分類變量在本質(zhì)上是有序的情況下才可以被當(dāng)做連續(xù)型變量來處理。
問3：“買了這個的客戶，也買了…..”亞馬遜的建議是那種算法的結(jié)果？
答：這種推薦引擎的基本想法來源于協(xié)同過濾。協(xié)同過濾算法考慮用于推薦項目的“用戶行為” 。他們利用的是其他用戶的購物行為和針對商品的交易歷史記錄，評分，選擇和購物信息。針對商品的其他用戶的行為和偏好用來推薦項目（商品）給新用戶。在這中情況下，項目（商品）的特征是未知的。
問4：在K-means或者KNN，我們是用歐氏距離來計算最近的鄰居之間的距離，為什么不用曼哈頓距離？
答：我們不用曼哈頓距離，因為它只計算水平或者垂直距離，有維度的限制。另一方面，歐氏距離可以用于任何空間的距離計算問題。因為，數(shù)據(jù)點可以存在于任何空間，歐式距離是更可行的選擇。例如：想象一下國際象棋棋盤，象或者車所有的移動的由曼哈頓距離計算的，因為他們是在各自的水平和垂直方向做的運動。
問5：為什么樸素貝葉斯如此“樸素”？
答：因為它假定所有的特征在數(shù)據(jù)集中的作用是同樣重要和獨立的。正如我們所知，這個假設(shè)在現(xiàn)實世界中是很不真實的，因此說樸素貝葉斯真的很“樸素” 。
問6：我們知道校正R2或者F值是用來評估線性回歸模型的，那么用什么來評估邏輯回歸模型？
答：我們可以使用以下方法：
1 ，由于邏輯回歸是用來預(yù)測概率的，我們可以用AUC-ROC曲線以及混淆矩陣來確定其性能。
2，此外，在邏輯回歸中類似于校正R2 的指標(biāo)是AIC 。AIC是對模型系數(shù)數(shù)量懲罰模型的擬合度量。因此，我們更偏愛有最小的AIC的模型。
3，空偏差指的是只有截距項的模型預(yù)測的響應(yīng) 。數(shù)值越低，模型越好。殘余偏差表示由添加自變量的模型預(yù)測的響應(yīng) 。數(shù)值越低，模型越好。
問7：真陽性率和召回有什么關(guān)系？寫出方程式。
答：真陽性率 == 召回他們有共同的公式（TP/（TP+FN））
問8：你是怎么理解偏差方差的平衡的？
答：從數(shù)學(xué)的角度來看，任何模型出現(xiàn)的誤差可以分為三個部分。分別是：
偏差誤差在量化平均水平之上，預(yù)測值跟實際值相差多遠(yuǎn)時有用。高偏差誤差意味著我們的模型表現(xiàn)不太好，因為沒有抓到重要的趨勢。而另一方面，方差量化了在同一個觀察上進行的預(yù)測是如何彼此不同的。高方差模型會過度擬合你的訓(xùn)練集，而在訓(xùn)練集以外的數(shù)據(jù)上表現(xiàn)很差。
問9：給你一個有1000列和1百萬行的訓(xùn)練數(shù)據(jù)集，這個數(shù)據(jù)集是基于分類問題的。經(jīng)理要求你來降低該數(shù)據(jù)集的維度以減少模型計算時間，但是你的機器內(nèi)存有限，你會怎么做？（你可以自由做各種實際操作假設(shè) 。）
答：你的面試官應(yīng)該非常了解很難在有限的內(nèi)存上處理高緯的數(shù)據(jù) ，以下是你可以使用到的方法：
1，由于我們的RAM很?。?首先要關(guān)閉機器上正在運行的其他程序，包括網(wǎng)頁瀏覽器等，以確保大部分內(nèi)存可以使用。
2，我們可以隨機采樣數(shù)據(jù)集。這意味著，我們可以創(chuàng)建一個較小的數(shù)據(jù)集，比如有1000個變量和30萬行，然后做計算。
3，為了降低維度，我們可以吧數(shù)值變量和分類變量分開，同時刪掉相關(guān)聯(lián)的變量，對于數(shù)據(jù)變量，我們將使用相關(guān)性分析；對于分類變量，我們可以用卡方檢驗。
4，另外，我們還可以使用PAC，并挑選可以解釋在數(shù)據(jù)集中有最大偏差的成分。
5，利用在線學(xué)習(xí)算法，如（在中可用）是一個不錯的選擇。
6，利用（隨機梯度下降法）建立線性模型也很有幫助。
7，我們也可以用我們對業(yè)務(wù)的理解來估計個預(yù)測變量對響應(yīng)變量的影響的大小。但是，這是一個主觀的方法opencv 加載分類器失敗，如果沒有找到有用的預(yù)測變量可能會導(dǎo)致信息的顯著丟失。
問10：全球平均溫度的上升導(dǎo)致世界各地的海盜數(shù)量減少，這是否意味著海盜的數(shù)量減少引起氣候變化？
答：不能夠這樣說，這是一個“因果關(guān)系和相關(guān)性”的經(jīng)典案例。全球平均溫度和海盜數(shù)量之間有可能有相關(guān)性，但基于這些信息，我們不能說因為全球平均氣溫的上升而導(dǎo)致了海盜的消失。我們不能斷定海盜的數(shù)量減少是引起氣候變化的原因，因為可能有其他因素（潛伏或混雜因素）影響這一現(xiàn)象。
問11：給你一個數(shù)據(jù)集，這個數(shù)據(jù)集有缺失值，且這些缺失值分布在高中值有1一個標(biāo)準(zhǔn)偏差的的范圍內(nèi)，百分之多少的數(shù)據(jù)不會受到影響？為什么？
答：大約有32%的數(shù)據(jù)將不會受到缺失值的影響。因為，由于數(shù)據(jù)分布在中位數(shù)附近，讓我們先假設(shè)這是一個正態(tài)分布。我們知道，在一個正態(tài)分布中，約有68%的數(shù)據(jù)位于跟平均值（或者眾數(shù) ，中位數(shù)）1個標(biāo)準(zhǔn)差范圍內(nèi)，那么剩下的約32%的數(shù)據(jù)是不受影響的。因此，約有32%的數(shù)據(jù)將不受缺失值的影響。
問12：有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別
有監(jiān)督學(xué)習(xí)：對具有標(biāo)記的訓(xùn)練樣本進行學(xué)習(xí)，以盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進行分類預(yù)測。（LR，SVM，BP，RF，GBDT）
無監(jiān)督學(xué)習(xí)：對未標(biāo)記的樣本進行訓(xùn)練學(xué)習(xí)，比發(fā)現(xiàn)這些樣本中的結(jié)構(gòu)知識。（，DL）
問13：正則化
答：正則化是針對過擬合而提出的，以為在求解模型最優(yōu)的是一般優(yōu)化最小的經(jīng)驗風(fēng)險，現(xiàn)在在該經(jīng)驗風(fēng)險上加上模型復(fù)雜度這一項（正則化項是模型參數(shù)向量的范數(shù)），并使用一個rate比率來權(quán)衡模型復(fù)雜度比以往經(jīng)驗風(fēng)險的權(quán)重，如果模型復(fù)雜度越高，結(jié)構(gòu)化的經(jīng)驗風(fēng)險會越大，現(xiàn)在的目標(biāo)就變?yōu)榱私Y(jié)構(gòu)經(jīng)驗風(fēng)險的最優(yōu)化，可以防止模型訓(xùn)練過度復(fù)雜，有效的降低過擬合的風(fēng)險。
奧卡姆剃刀原理：能夠很好的解釋已知數(shù)據(jù)并且十分簡單才是最好的模型。
問14：線程分類器與非線性分類器的區(qū)別以及優(yōu)劣
答：如果模型是參數(shù)的線性函數(shù)，并且存在線性分類面，那么就是線性分類器，負(fù)責(zé)不是。常用的線性分類器有:LR ,貝葉斯分類，單層感知器，線性回歸
常見的非線性分類器：決策樹， RF，GBDT，多層感知機
SVM兩種都有（看線性核還是高斯核）
線性分類器速度快，編程方便，但是可能擬合效果不會很好
非線性分類器編程復(fù)雜，但是效果擬合能力強
問15：介紹卷積神經(jīng)網(wǎng)絡(luò)，和 DBN 有什么區(qū)別？
卷積神經(jīng)網(wǎng)絡(luò)的特點是卷積核，CNN中使用了權(quán)共享，通過不斷的上采用和卷積得到不同的特征表示，采樣層又稱為層，基于局部相關(guān)性原理進行亞采樣，在減少數(shù)據(jù)量的同時保持有用的信息。DBN是深度信念網(wǎng)絡(luò)，每一層是一個RBM，整個網(wǎng)絡(luò)可以視為RBM堆疊得到，通常使用無監(jiān)督逐層訓(xùn)練，從第一層開始，每一層利用上一層的輸入進行訓(xùn)練，等各層訓(xùn)練結(jié)束之后再利用BP算法對整個網(wǎng)絡(luò)進行訓(xùn)練。
問16：采用 EM 算法求解的模型有哪些，為什么不用牛頓法或梯度下降法？
用EM算法求解的模型一般有GMM或者協(xié)同過濾，k-means其實也屬于EM 。EM算法一定會收斂，但是可能收斂到局部最優(yōu) 。由于求和的項數(shù)將隨著隱變量的數(shù)目指數(shù)上升，會給梯度計算帶來麻煩。
問17：用 EM 算法推導(dǎo)解釋。
k-means算法是高斯混合聚類在混合成分方差相等，且每個樣本僅指派一個混合成分時候的特例。注意k-means在運行之前需要進行歸一化處理，不然可能會因為樣本在某些維度上過大導(dǎo)致距離計算失效。k-means中每個樣本所屬的類就可以看成是一個隱變量，在E步中，我們固定每個類的中心，通過對每一個樣本選擇最近的類優(yōu)化目標(biāo)函數(shù)，在M步，重新更新每個類的中心點，該步驟可以通過對目標(biāo)函數(shù)求導(dǎo)實現(xiàn)，最終可得新的類中心就是類中樣本的均值。
問18：用過哪些聚類算法，解釋密度聚類算法。
k-means算法，聚類性能的度量一般分為兩類，一類是聚類結(jié)果與某個參考模型比較(外部指標(biāo))，另外是直接考察聚類結(jié)果(內(nèi)部指標(biāo)) 。后者通常有DB指數(shù)和DI，DB指數(shù)是對每個類，找出類內(nèi)平均距離/類間中心距離最大的類，然后計算上述值，并對所有的類求和，越小越好。類似k-means的算法僅在類中數(shù)據(jù)構(gòu)成簇的情況下表現(xiàn)較好，密度聚類算法從樣本密度的角度考察樣本之間的可連接性，并基于可連接樣本不斷擴展聚類蔟得到最終結(jié)果。
(-basedofwith noise)是一種著名的密度聚類算法，基于一組鄰域參數(shù)進行刻畫，包括鄰域，核心對象(鄰域內(nèi)至少包含個對象)，密度直達(dá)(j由i密度直達(dá)，表示j在i的鄰域內(nèi)，且i是一個核心對象)，密度可達(dá)(j由i密度可達(dá)，存在樣本序列使得每一對都密度直達(dá))，密度相連(xi,xj存在k,i,j均有k可達(dá))，先找出樣本中所有的核心對象，然后以任一核心對象作為出發(fā)點，找出由其密度可達(dá)的樣本生成聚類蔟，直到所有核心對象被訪問過為止。
問19：聚類算法中的距離度量有哪些？
聚類算法中的距離度量一般用閩科夫斯基距離，在p取不同的值下對應(yīng)不同的距離，例如p=1的時候?qū)?yīng)曼哈頓距離，p=2的情況下對應(yīng)歐式距離，p=inf的情況下變?yōu)榍斜妊┓蚓嚯x，還有距離，冪距離(閩科夫斯基的更一般形式),余弦相似度，加權(quán)的距離，馬氏距離(類似加權(quán))作為距離度量需要滿足非負(fù)性，同一性，對稱性和直遞性，閩科夫斯基在p>=1的時候滿足讀來那個性質(zhì)，對于一些離散屬性例如{飛機，火車，輪船}則不能直接在屬性值上計算距離，這些稱為無序?qū)傩?，可以用VDM(Value)，屬性u上兩個離散值a,b之間的VDM距離定義為
其中表示在第i個簇中屬性u上a的樣本數(shù)，樣本空間中不同屬性的重要性不同的時候可以采用加權(quán)距離，一般如果認(rèn)為所有屬性重要性相同則要對特征進行歸一化。一般來說距離需要的是相似性度量，距離越大，相似度越小，用于相似性度量的距離未必一定要滿足距離度量的所有性質(zhì)，例如直遞性。比如人馬和人，人馬和馬的距離較近，然后人和馬的距離可能就很遠(yuǎn) 。
問20：解釋貝葉斯公式和樸素貝葉斯分類。
貝葉斯公式
最小化分類錯誤的貝葉斯最優(yōu)分類器等價于最大化后驗概率。
基于貝葉斯公式來估計后驗概率的主要困難在于，條件概率是所有屬性上的聯(lián)合概率，難以從有限的訓(xùn)練樣本直接估計得到。樸素貝葉斯分類器采用了屬性條件獨立性假設(shè)，對于已知的類別，假設(shè)所有屬性相互獨立。這樣，樸素貝葉斯分類則定義為
如果有足夠多的獨立同分布樣本，那么可以根據(jù)每個類中的樣本數(shù)量直接估計出來。在離散情況下先驗概率可以利用樣本數(shù)量估計或者離散情況下根據(jù)假設(shè)的概率密度函數(shù)進行最大似然估計。樸素貝葉斯可以用于同時包含連續(xù)變量和離散變量的情況。如果直接基于出現(xiàn)的次數(shù)進行估計，會出現(xiàn)一項為0而乘積為0的情況，所以一般會用一些平滑的方法，例如拉普拉斯修正，
問21：TF-IDF是什么？
TF指Term ,代表詞頻,IDF代表,叫做逆文檔頻率，這個算法可以用來提取文檔的關(guān)鍵詞，首先一般認(rèn)為在文章中出現(xiàn)次數(shù)較多的詞是關(guān)鍵詞，詞頻就代表了這一項，然而有些詞是停用詞，例如的，是，有這種大量出現(xiàn)的詞，首先需要進行過濾，比如過濾之后再統(tǒng)計詞頻出現(xiàn)了中國，蜜蜂，養(yǎng)殖且三個詞的詞頻幾乎一致，但是中國這個詞出現(xiàn)在其他文章的概率比其他兩個詞要高不少，因此我們應(yīng)該認(rèn)為后兩個詞更能表現(xiàn)文章的主題， IDF就代表了這樣的信息，計算該值需要一個語料庫，如果一個詞在語料庫中出現(xiàn)的概率越小，那么該詞的IDF應(yīng)該越大，一般來說TF計算公式為(某個詞在文章中出現(xiàn)次數(shù)/文章的總詞數(shù))，這樣消除長文章中詞出現(xiàn)次數(shù)多的影響，IDF計算公式為log(語料庫文章總數(shù)/(包含該詞的文章數(shù))+1) 。將兩者乘乘起來就得到了詞的TF-IDF 。傳統(tǒng)的TF-IDF對詞出現(xiàn)的位置沒有進行考慮，可以針對不同位置賦予不同的權(quán)重進行修正，注意這些修正之所以是有效的，正是因為人觀測過了大量的信息，因此建議了一個先驗估計，人將這個先驗估計融合到了算法里面，所以使算法更加的有效。
問22：文本中的余弦距離是什么，有哪些作用？
余弦距離是兩個向量的距離的一種度量方式，其值在-1~1之間，如果為1表示兩個向量同相，0表示兩個向量正交，-1表示兩個向量反向。使用TF-IDF和余弦距離可以尋找內(nèi)容相似的文章，例如首先用TF-IDF找出兩篇文章的關(guān)鍵詞，然后每個文章分別取出k個關(guān)鍵詞(10-20個)，統(tǒng)計這些關(guān)鍵詞的詞頻，生成兩篇文章的詞頻向量，然后用余弦距離計算其相似度。
簡答題1.什么是機器學(xué)習(xí)
簡單的說，機器學(xué)習(xí)就是讓機器從數(shù)據(jù)中學(xué)習(xí)，進而得到一個更加符合現(xiàn)實規(guī)律的模型，
通過對模型的使用使得機器比以往表現(xiàn)的更好，這就是機器學(xué)習(xí) 。
對上面這句話的理解：
數(shù)據(jù)：從現(xiàn)實生活抽象出來的一些事物或者規(guī)律的特征進行數(shù)字化得到。
學(xué)習(xí)：在數(shù)據(jù)的基礎(chǔ)上讓機器重復(fù)執(zhí)行一套特定的步驟（學(xué)習(xí)算法）進行事物特征的萃?。?
得到一個更加逼近于現(xiàn)實的描述（這個描述是一個模型它的本身可能就是一個函數(shù)）。我
們把大概能夠描述現(xiàn)實的這個函數(shù)稱作我們學(xué)到的模型。
更好：我們通過對模型的使用就能更好的解釋世界，解決與模型相關(guān)的問題。
2.機器學(xué)習(xí)與數(shù)據(jù)挖掘的區(qū)別
數(shù)據(jù)挖掘和機器學(xué)習(xí)的區(qū)別和聯(lián)系，周志華有一篇很好的論述《機器學(xué)習(xí)和
數(shù)據(jù)挖掘》可以幫助大家理解。
數(shù)據(jù)挖掘受到很多學(xué)科領(lǐng)域的影響，其中數(shù)據(jù)庫、機器學(xué)習(xí)、統(tǒng)計學(xué)無疑影響
最大。簡言之，對數(shù)據(jù)挖掘而言，數(shù)據(jù)庫提供數(shù)據(jù)管理技術(shù)，機器學(xué)習(xí)和統(tǒng)計學(xué)
提供數(shù)據(jù)分析技術(shù) 。
由于統(tǒng)計學(xué)往往醉心于理論的優(yōu)美而忽視實際的效用，因此，統(tǒng)計學(xué)界提供的
很多技術(shù)通常都要在機器學(xué)習(xí)界進一步研究，變成有效的機器學(xué)習(xí)算法之后才能
再進入數(shù)據(jù)挖掘領(lǐng)域。從這個意義上說，統(tǒng)計學(xué)主要是通過機器學(xué)習(xí)來對數(shù)據(jù)挖
掘發(fā)揮影響，而機器學(xué)習(xí)和數(shù)據(jù)庫則是數(shù)據(jù)挖掘的兩大支撐技術(shù) 。
從數(shù)據(jù)分析的角度來看，絕大多數(shù)數(shù)據(jù)挖掘技術(shù)都來自機器學(xué)習(xí)領(lǐng)域，但機器
學(xué)習(xí)研究往往并不把海量數(shù)據(jù)作為處理對象，因此，數(shù)據(jù)挖掘要對算法進行改造，
使得算法性能和空間占用達(dá)到實用的地步。同時，數(shù)據(jù)挖掘還有自身獨特的內(nèi)容，
即關(guān)聯(lián)分析。
而模式識別和機器學(xué)習(xí)的關(guān)系是什么呢，傳統(tǒng)的模式識別的方法一般分為兩種：
統(tǒng)計方法和句法方法。句法分析一般是不可學(xué)習(xí)的，而統(tǒng)計分析則是發(fā)展了不少機
器學(xué)習(xí)的方法。也就是說，機器學(xué)習(xí)同樣是給模式識別提供了數(shù)據(jù)分析技術(shù) 。
至于，數(shù)據(jù)挖掘和模式識別，那么從其概念上來區(qū)分吧，數(shù)據(jù)挖掘重在發(fā)現(xiàn)知識，
模式識別重在認(rèn)識事物。
機器學(xué)習(xí)的目的是建模隱藏的數(shù)據(jù)結(jié)構(gòu)，然后做識別、預(yù)測、分類等。因此，機器
學(xué)習(xí)是方法，模式識別是目的。
總結(jié)一下吧。只要跟決策有關(guān)系的都能叫 AI(人工智能)，所以說 PR（模式識別）、
DM（數(shù)據(jù)挖掘）、IR（信息檢索）屬于 AI 的具體應(yīng)用應(yīng)該沒有問題。研究的東西則
不太一樣，ML(機器學(xué)習(xí)) 強調(diào)自我完善的過程。，這些學(xué)科都是相通的。
3.什么是機器學(xué)習(xí)的過度擬合現(xiàn)象
如果一味的去提高訓(xùn)練數(shù)據(jù)的預(yù)測能力，所選模型的復(fù)雜度往往會很高，這種現(xiàn)象稱為過擬合，所表現(xiàn)的就是模型訓(xùn)練時候的誤差很?。?但在測試的時候誤差很大
指在模型參數(shù)擬合過程中的問題，由于訓(xùn)練數(shù)據(jù)包含抽樣誤差，訓(xùn)練時，
復(fù)雜的模型將抽樣誤差也考慮在內(nèi) ，將抽樣誤差也進行了很好的擬合。具體表
現(xiàn)就是訓(xùn)練集上效果好，在測試集上效果差。模型泛化能力弱。
4.過度擬合產(chǎn)生的原因
過擬合的第一個原因，就是建模樣本抽取錯誤，包括（但不限于）樣本數(shù)量太少，
抽樣方法錯誤，抽樣時沒有足夠正確考慮業(yè)務(wù)場景或業(yè)務(wù)特點，等等導(dǎo)致抽出
的樣本數(shù)據(jù)不能有效足夠代表業(yè)務(wù)邏輯或業(yè)務(wù)場景；
過擬合的第二個原因，就是樣本里的噪音數(shù)據(jù)干擾過大，大到模型過分記住了噪音
特征，反而忽略了真實的輸入輸出間的關(guān)系；
過擬合的第三個原因，就是在決策樹模型搭建中，如果我們對于決策樹的生長沒有
合理的限制和修剪的話，決策樹的自由生長有可能每片葉子里只包含單純的事件
數(shù)據(jù)(event)或非事件數(shù)據(jù)（no event），可以想象，這種決策樹當(dāng)然可以完
美匹配（擬合）訓(xùn)練數(shù)據(jù)，但是一旦應(yīng)用到新的業(yè)務(wù)真實數(shù)據(jù)時，效果是一塌糊涂。
過擬合的第四個原因，就是建模時的“邏輯假設(shè)”到了模型應(yīng)用時已經(jīng)不能成立了。任
何預(yù)測模型都是在假設(shè)的基礎(chǔ)上才可以搭建和應(yīng)用的，常用的假設(shè)包括：假設(shè)歷
史數(shù)據(jù)可以推測未來，假設(shè)業(yè)務(wù)環(huán)節(jié)沒有發(fā)生顯著變化，假設(shè)建模數(shù)據(jù)與后來的
應(yīng)用數(shù)據(jù)是相似的，等等。如果上述假設(shè)違反了業(yè)務(wù)場景的話，根據(jù)這些假設(shè)搭
建的模型當(dāng)然是無法有效應(yīng)用的。
過擬合的第五個原因，就是建模時使用了太多的輸入變量，這跟上面第二點（噪音數(shù)據(jù)）
有些類似，數(shù)據(jù)挖掘新人常常犯這個錯誤，自己不做分析判斷，把所有的變量交給
軟件或者機器去“撞大運” 。須知，一個穩(wěn)定優(yōu)良的模型一定要遵循建模輸入變量“
少而精”的原則的。
上面的原因都是現(xiàn)象，但是其本質(zhì)只有一個，那就是“業(yè)務(wù)理解錯誤造成的”，無論是抽樣，
還是噪音，還是決策樹，神經(jīng)網(wǎng)絡(luò)等等，如果我們對于業(yè)務(wù)背景和業(yè)務(wù)知識非常了解，
非常透徹的話，一定是可以避免絕大多數(shù)過擬合現(xiàn)象產(chǎn)生的。因為在模型從確定需求，
到思路討論，到搭建，到業(yè)務(wù)應(yīng)用驗證，各個環(huán)節(jié)都是可以用業(yè)務(wù)敏感來防止過擬合
于未然的。
5.如何避免過度擬合
當(dāng)你使用較小的數(shù)據(jù)集進行機器學(xué)習(xí)時，容易產(chǎn)生過度擬合，因此使用較大的數(shù)據(jù)量能避免過度擬合現(xiàn)象。但是當(dāng)你不得不使用小型數(shù)據(jù)集進行建模時候，可以使用被稱為交叉驗證的技術(shù) 。在這種方法中數(shù)據(jù)集被分為兩節(jié)，測試和訓(xùn)練數(shù)據(jù)集，測試數(shù)據(jù)集只測試模型，而在訓(xùn)練數(shù)據(jù)集中，數(shù)據(jù)點被用來建模。
在該技術(shù)中，一個模型通常是被給定有先驗知識的數(shù)據(jù)集（訓(xùn)練數(shù)據(jù)集）進行訓(xùn)練，沒有先驗知識的數(shù)據(jù)集進行測試，交叉驗證的思想是：在訓(xùn)練階段，定義一個數(shù)據(jù)集用來測試模型。
1. ：訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時,如果訓(xùn)練樣本較少,為了防止模型過擬合,
可以作為一種trikc供選擇。
2. early stop結(jié)合cross 使用。
3. 盡可能的擴大，增加訓(xùn)練集的全面性和數(shù)量
6.什么是感應(yīng)式的機器學(xué)習(xí)？
感應(yīng)機器學(xué)習(xí)涉及由實踐進行學(xué)習(xí)的過程，能從一組可觀測到的例子的嘗試推導(dǎo)出普遍性規(guī)則
7.什么是機器學(xué)習(xí)的五個流行的算法？
1，決策樹
2，神經(jīng)網(wǎng)絡(luò)
3，概率網(wǎng)絡(luò)
4，最鄰近法
5，支持向量機
8.機器學(xué)習(xí)有哪些不同的算法技術(shù)？
在機器學(xué)習(xí)中不同類型的算法技術(shù)是：
1，監(jiān)督學(xué)習(xí) 2，非監(jiān)督學(xué)習(xí)
3，半監(jiān)督學(xué)習(xí) 4，轉(zhuǎn)導(dǎo)推理（）
5，學(xué)習(xí)推理（ to Learn）
9.在機器學(xué)習(xí)中，建立假設(shè)或者模型的三個階段指的是什么？
1，建模
2，模型測試
3，模型應(yīng)用
10.什么是監(jiān)督學(xué)習(xí)的標(biāo)準(zhǔn)方法？
監(jiān)督學(xué)習(xí)的標(biāo)準(zhǔn)方法是將一組示例數(shù)據(jù)的分成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集
11.什么是訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集？
在類似于機器學(xué)習(xí)的各個信息科學(xué)相關(guān)領(lǐng)域中，一組數(shù)據(jù)被用來發(fā)現(xiàn)潛在的預(yù)測關(guān)系，
稱為“訓(xùn)練數(shù)據(jù)集” 。訓(xùn)練數(shù)據(jù)集是提供給學(xué)習(xí)者的案例，而試驗數(shù)據(jù)集是用于測試由學(xué)習(xí)
者提出的假設(shè)關(guān)系的準(zhǔn)確度。
12.下面列出機器學(xué)習(xí)的各種方法？
機器學(xué)習(xí)的各種方法如下“
1.概念與分類學(xué)習(xí)（ Vs）。
2.符號與統(tǒng)計學(xué)習(xí)（ Vs）。
3.歸納與分析學(xué)習(xí)（ Vs）。
13.非機器學(xué)習(xí)有哪些類型？
人工智能規(guī)則推理
14.什么是非監(jiān)督學(xué)習(xí)的功能？
1.求數(shù)據(jù)的集群
2. 求出數(shù)據(jù)的低維表達(dá)
3. 查找數(shù)據(jù)有趣的方向
4. 有趣的坐標(biāo)和相關(guān)性
5.發(fā)現(xiàn)顯著的觀測值和數(shù)據(jù)集清理
15.什么是監(jiān)督學(xué)習(xí)的功能？
1.分類 2.語音識別 3.回歸 4.時間序列預(yù)測 5. 注釋字符串
16.什么是算法獨立的機器學(xué)習(xí)？
機器學(xué)習(xí)在基礎(chǔ)數(shù)學(xué)領(lǐng)域獨立于任何特定分類器或者學(xué)習(xí)算法，被稱為算法獨立的機器學(xué)習(xí) 。
17.人工智能與機器學(xué)習(xí)的區(qū)別？
基于經(jīng)驗數(shù)據(jù)的特性而設(shè)計和開發(fā)的算法被稱為機器學(xué)習(xí) 。而人工智能不但包
括機器學(xué)習(xí) ，還包括諸如知識表示，自然語言處理，規(guī)劃，機器人技術(shù)等其它方法。
18.在機器學(xué)習(xí)中分類器指的是什么？
在機器學(xué)習(xí)中，分類器是指輸入離散或連續(xù)特征值的向量，并輸出單個離散值或者類型的系統(tǒng) 。
19.樸素貝葉斯方法的優(yōu)勢是什么？
樸素貝葉斯分類器將會比判別模型，譬如邏輯回歸收斂得更快，因此你只需要
更少的訓(xùn)練數(shù)據(jù) 。其主要缺點是它學(xué)習(xí)不了特征間的交互關(guān)系。
20.在哪些領(lǐng)域使用模式識別技術(shù)？
模式識別被應(yīng)用在：
1計算機視覺 2.語言識別 3.統(tǒng)計 4.數(shù)據(jù)挖掘 5. 非正式檢索 6. 生物信息學(xué) 。
21.什么是遺傳編程？
遺傳編程的機器學(xué)習(xí)中兩種常用的方法之一。該模型是基于測試，并在一系列的
結(jié)果當(dāng)中，獲取最佳選擇。
22.在機器學(xué)習(xí)中歸納邏輯程序設(shè)計是指什么？
歸納邏輯程序設(shè)計（ILP）是利用邏輯程序設(shè)計表達(dá)的背景知識和實例，它是機器學(xué)習(xí)的一個分支。
23.在機器學(xué)習(xí)中，模型的選擇是指？
在不同的數(shù)學(xué)模型中，選擇用于描述相同的數(shù)據(jù)集的模型的過程被稱為模型選擇。
模型選擇被應(yīng)用于統(tǒng)計，機器學(xué)習(xí)和數(shù)據(jù)挖掘的等相關(guān)領(lǐng)域。
24.用于監(jiān)督學(xué)習(xí)校準(zhǔn)兩種方法是什么？
在監(jiān)督學(xué)習(xí)中，用于預(yù)測良好概率的兩種方法是：
1 ，普拉特校準(zhǔn) 2，保序回歸。
這些方法被設(shè)計為二元分類，而且有意義的。
25. 什么方法通常用于防止過擬合？
當(dāng)有足夠的數(shù)據(jù)進行等滲回歸時，這通常被用來防止過擬合問題。
26.規(guī)則學(xué)習(xí)的啟發(fā)式方法和決策樹的啟發(fā)式方法之間的區(qū)別是什么？
決策樹的啟發(fā)式方法評價的是一系列不相交的集合的平均質(zhì)量；然而規(guī)則學(xué)習(xí)的
啟發(fā)式方法僅僅評價在候選規(guī)則覆蓋下的實例集。
27.什么是感知機器學(xué)習(xí)？
在機器學(xué)習(xí)，感知器是一種輸入到幾個可能的非二進制輸出的監(jiān)督分類算法。
28.貝葉斯邏輯程序的兩個組成部分是什么？
貝葉斯邏輯程序由兩部分組成。第一成分由一組貝葉斯條款組成opencv 加載分類器失敗，能捕捉特定
域的定性結(jié)構(gòu) 。第二組分是定量的，它能對域的量化信息進行編碼。
29.什么是貝葉斯網(wǎng)絡(luò)？
貝葉斯網(wǎng)絡(luò)是用來表示一組變量之間為概率關(guān)系的圖像模型。
30.為什么基于實例的學(xué)習(xí)算法有時也被稱為懶惰學(xué)習(xí)算法？
基于實例的學(xué)習(xí)算法也被稱為懶惰學(xué)習(xí)算法，因為它們延緩誘導(dǎo)或泛化過程，直到分類完成。
31.支持向量機能處理哪兩種分類方法？
1.結(jié)合二分類法
2. 修改二進制納入多類學(xué)習(xí)法。
32.什么是集成學(xué)習(xí)？
為了解決特定的計算程序，如分類器或?qū)＜抑R等多種模式，進行戰(zhàn)略性生產(chǎn)
和組合。這個過程被稱為集成學(xué)習(xí) 。
33.為什么集成學(xué)習(xí)被應(yīng)用？
集成學(xué)習(xí)能提高模型的分類，預(yù)測，函數(shù)逼近等方面的精度。
34.什么使用集成學(xué)習(xí)？
當(dāng)你構(gòu)建一個更準(zhǔn)確，相互獨立的分類器時，使用集成學(xué)習(xí) 。
35.什么是集成方法的兩種范式？
集成方法的兩種范式是：
1. 連續(xù)集成方法
2. 并行集成方法。
36.什么是集成方法的一般原則，在集成方法中套袋（）和爆發(fā)（）指的是什么？
集成方法的一般原則是要結(jié)合定的學(xué)習(xí)算法多種預(yù)測模型，相對于單一模型，
其有更強的健壯性。套袋是一種能提高易變的預(yù)測或分類方案集成方法。爆發(fā)方
法被依次用來減少組合模型的偏差。爆發(fā)和裝袋都可以通過降低方差減少誤差。
37.什么是集成方法分類錯誤的偏置方差分解？
學(xué)習(xí)算法的期望誤差可以分解為偏差和方差。偏置項衡量由學(xué)習(xí)方法產(chǎn)生的平
均分類器與目標(biāo)函數(shù)是否匹配。
38.在集成方法中什么是增量合成方法？
增量學(xué)習(xí)方法是一種從新數(shù)據(jù)進行學(xué)習(xí) ，并能應(yīng)用于后續(xù)由現(xiàn)有的數(shù)據(jù)集生成的分類器的算法。
39.PCA，KPCA和ICE如何使用？
PCA（主成分分析）， KPCA（基于內(nèi)核主成分分析）和ICA（獨立成分分析）是用
于降維的重要特征提取技術(shù) 。
40.在機器學(xué)習(xí)中降維是什么意思？
在機器學(xué)習(xí)和統(tǒng)計應(yīng)用中，降維是指在計算時減少隨機變量數(shù)目的處理過程，并
且可以分為特征選擇和特征提取。
41.什么是支持向量機？
支持向量機是一種監(jiān)督學(xué)習(xí)算法，適用于分類和回歸分析。
42.關(guān)系評價技術(shù)的組成部分是什么？
關(guān)系評價技術(shù)的重要組成部分如下：
1.數(shù)據(jù)采集2. 地面實況采集3. 交叉驗證技術(shù)4. 查詢類型5. 評分標(biāo)準(zhǔn)6. 顯著性檢驗。
43.連續(xù)監(jiān)督學(xué)習(xí)有什么不同方法？
連續(xù)監(jiān)督學(xué)習(xí)問題的不同解決辦法如下：
1.滑動窗口方法
2. 復(fù)發(fā)性推拉窗
3. 隱藏馬爾科夫模型
4. 最大熵馬爾科夫模型
5. 條件隨機域
6. 圖變換網(wǎng)絡(luò)
44.在機器人技術(shù)和信息處理技術(shù)的哪些方面會相繼出現(xiàn)預(yù)測問題？
在機器人技術(shù)和信息處理技術(shù)中，相繼出現(xiàn)預(yù)測問題的是：
1.模仿學(xué)習(xí) 2. 結(jié)構(gòu)預(yù)測 3. 基于模型的強化學(xué)習(xí)
45.什么是批量統(tǒng)計學(xué)習(xí)？
統(tǒng)計學(xué)習(xí)技術(shù)允許根據(jù)一組觀察到的數(shù)據(jù)進行學(xué)習(xí)功能和預(yù)測，這可以對無法觀
察和未知的數(shù)據(jù)進行預(yù)測。這些技術(shù)提供的學(xué)習(xí)預(yù)測器對未來未知數(shù)據(jù)的預(yù)測提供性能保證。
46什么是PAC學(xué)習(xí)？
可能近似正確模型 (PAC) 學(xué)習(xí)是一個已經(jīng)被引入到分析學(xué)習(xí)算法和統(tǒng)計效率的學(xué)習(xí)框架。
47有哪些不同的類別可以分為序列學(xué)習(xí)過程？
1.序列預(yù)測 2. 序列生成 3. 序列識別 4. 順序決定.
48什么是序列學(xué)習(xí)？
序列學(xué)習(xí)是一種以合乎邏輯的方式進行教學(xué)和學(xué)習(xí)的方法。
49.機器學(xué)習(xí)的兩種技術(shù)是什么？
機器學(xué)習(xí)的兩種技術(shù)是：
1.遺傳編程
2.歸納學(xué)習(xí)
50.你在日常工作中看到的機器學(xué)習(xí)的一個流行應(yīng)用是什么？
各大電商網(wǎng)站上已部署好的推薦引擎使用的是機器學(xué)習(xí) 。
【技巧就是機會人工智能行業(yè)：求職面試最強50問答】本文到此結(jié)束，希望對大家有所幫助。

技巧就是機會 人工智能行業(yè)：求職面試最強50問答

技巧就是機會人工智能行業(yè)：求職面試最強50問答