午夜精品人妻久久久-成年美女很黄的网站-在线看片免费人成视久网app-国产精品美女无遮挡一区二区-91精品国产综合久久久久-国产的免费视频又猛又爽又刺激-在线看片免费人成视久网app-久久香蕉国产精品视频-av一区二区三区高清

技巧就是機會 人工智能行業(yè):求職面試最強50問答

機器學(xué)習(xí)崗位的面試中通常會對一些常見的機器學(xué)習(xí)算法和思想進行提問,在平時的學(xué)習(xí)過程中可能對算法的理論,注意點 , 區(qū)別會有一定的認(rèn)識,但是這些知識可能不系統(tǒng) , 在回答的時候未必能在短時間內(nèi)答出自己的認(rèn)識,因此將機器學(xué)習(xí)中常見的原理性問題記錄下來,保持對各個機器學(xué)習(xí)算法原理和特點的熟練度 。
算法分類
下面圖片是借用網(wǎng)友做的,很好的總結(jié)了機器學(xué)習(xí)的算法分類:
問答題問1:協(xié)方差和相關(guān)性有什么區(qū)別?
答:相關(guān)性是協(xié)方差的標(biāo)準(zhǔn)化格式 。協(xié)方差本身很難做比較 。例如:如果我們計算工資(¥)和年齡(歲)的協(xié)方差 , 因為這兩個變量有不同的度量 , 所以我們會得到不能做比較的不同的協(xié)方差 。為了解決這個問題,我們計算相關(guān)性來得到一個介于-1和1之間的值 , 就可以忽略它們各自不同的度量 。
問2:你認(rèn)為把分類變量當(dāng)成連續(xù)型變量會得到一個更好的預(yù)測模型嗎?
答:為了得到更好的預(yù)測,只有在分類變量在本質(zhì)上是有序的情況下才可以被當(dāng)做連續(xù)型變量來處理 。
問3:“買了這個的客戶,也買了…..”亞馬遜的建議是那種算法的結(jié)果?
答:這種推薦引擎的基本想法來源于協(xié)同過濾 。協(xié)同過濾算法考慮用于推薦項目的“用戶行為” 。他們利用的是其他用戶的購物行為和針對商品的交易歷史記錄,評分,選擇和購物信息 。針對商品的其他用戶的行為和偏好用來推薦項目(商品)給新用戶 。在這中情況下,項目(商品)的特征是未知的 。
問4:在K-means或者KNN,我們是用歐氏距離來計算最近的鄰居之間的距離,為什么不用曼哈頓距離?
答:我們不用曼哈頓距離,因為它只計算水平或者垂直距離,有維度的限制 。另一方面,歐氏距離可以用于任何空間的距離計算問題 。因為,數(shù)據(jù)點可以存在于任何空間,歐式距離是更可行的選擇 。例如:想象一下國際象棋棋盤,象或者車所有的移動的由曼哈頓距離計算的 , 因為他們是在各自的水平和垂直方向做的運動 。
問5:為什么樸素貝葉斯如此“樸素”?
答:因為它假定所有的特征在數(shù)據(jù)集中的作用是同樣重要和獨立的 。正如我們所知 , 這個假設(shè)在現(xiàn)實世界中是很不真實的 , 因此說樸素貝葉斯真的很“樸素” 。
問6:我們知道校正R2或者F值是用來評估線性回歸模型的 , 那么用什么來評估邏輯回歸模型?
答:我們可以使用以下方法:
1 , 由于邏輯回歸是用來預(yù)測概率的,我們可以用AUC-ROC曲線以及混淆矩陣來確定其性能 。
2,此外,在邏輯回歸中類似于校正R2 的指標(biāo)是AIC 。AIC是對模型系數(shù)數(shù)量懲罰模型的擬合度量 。因此,我們更偏愛有最小的AIC的模型 。
3,空偏差指的是只有截距項的模型預(yù)測的響應(yīng) 。數(shù)值越低,模型越好 。殘余偏差表示由添加自變量的模型預(yù)測的響應(yīng) 。數(shù)值越低 , 模型越好 。
問7:真陽性率和召回有什么關(guān)系?寫出方程式 。
答:真陽性率 == 召回 他們有共同的公式(TP/(TP+FN))
問8:你是怎么理解偏差方差的平衡的?
答:從數(shù)學(xué)的角度來看,任何模型出現(xiàn)的誤差可以分為三個部分 。分別是:
偏差誤差在量化平均水平之上 , 預(yù)測值跟實際值相差多遠(yuǎn)時有用 。高偏差誤差意味著我們的模型表現(xiàn)不太好 , 因為沒有抓到重要的趨勢 。而另一方面,方差量化了在同一個觀察上進行的預(yù)測是如何彼此不同的 。高方差模型會過度擬合你的訓(xùn)練集,而在訓(xùn)練集以外的數(shù)據(jù)上表現(xiàn)很差 。
問9:給你一個有1000列和1百萬行的訓(xùn)練數(shù)據(jù)集,這個數(shù)據(jù)集是基于分類問題的 。經(jīng)理要求你來降低該數(shù)據(jù)集的維度以減少模型計算時間,但是你的機器內(nèi)存有限 , 你會怎么做?(你可以自由做各種實際操作假設(shè) 。)
答:你的面試官應(yīng)該非常了解很難在有限的內(nèi)存上處理高緯的數(shù)據(jù) , 以下是你可以使用到的方法:
1,由于我們的RAM很?。?首先要關(guān)閉機器上正在運行的其他程序,包括網(wǎng)頁瀏覽器等,以確保大部分內(nèi)存可以使用 。
2,我們可以隨機采樣數(shù)據(jù)集 。這意味著,我們可以創(chuàng)建一個較小的數(shù)據(jù)集 , 比如有1000個變量和30萬行,然后做計算 。
3,為了降低維度,我們可以吧數(shù)值變量和分類變量分開 , 同時刪掉相關(guān)聯(lián)的變量,對于數(shù)據(jù)變量,我們將使用相關(guān)性分析;對于分類變量 , 我們可以用卡方檢驗 。
4,另外,我們還可以使用PAC,并挑選可以解釋在數(shù)據(jù)集中有最大偏差的成分 。
5,利用在線學(xué)習(xí)算法,如(在中可用)是一個不錯的選擇 。
6,利用 (隨機梯度下降法)建立線性模型也很有幫助 。
7,我們也可以用我們對業(yè)務(wù)的理解來估計個預(yù)測變量對響應(yīng)變量的影響的大小 。但是,這是一個主觀的方法opencv 加載分類器失敗,如果沒有找到有用的預(yù)測變量可能會導(dǎo)致信息的顯著丟失 。
問10:全球平均溫度的上升導(dǎo)致世界各地的海盜數(shù)量減少,這是否意味著海盜的數(shù)量減少引起氣候變化?
答:不能夠這樣說,這是一個“因果關(guān)系和相關(guān)性”的經(jīng)典案例 。全球平均溫度和海盜數(shù)量之間有可能有相關(guān)性,但基于這些信息,我們不能說因為全球平均氣溫的上升而導(dǎo)致了海盜的消失 。我們不能斷定海盜的數(shù)量減少是引起氣候變化的原因,因為可能有其他因素(潛伏或混雜因素)影響這一現(xiàn)象 。
問11:給你一個數(shù)據(jù)集 , 這個數(shù)據(jù)集有缺失值 , 且這些缺失值分布在高中值有1一個標(biāo)準(zhǔn)偏差的的范圍內(nèi),百分之多少的數(shù)據(jù)不會受到影響?為什么?
答:大約有32%的數(shù)據(jù)將不會受到缺失值的影響 。因為,由于數(shù)據(jù)分布在中位數(shù)附近,讓我們先假設(shè)這是一個正態(tài)分布 。我們知道 , 在一個正態(tài)分布中,約有68%的數(shù)據(jù)位于跟平均值(或者眾數(shù) , 中位數(shù))1個標(biāo)準(zhǔn)差范圍內(nèi),那么剩下的約32%的數(shù)據(jù)是不受影響的 。因此,約有32%的數(shù)據(jù)將不受缺失值的影響 。
問12:有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別
有監(jiān)督學(xué)習(xí):對具有標(biāo)記的訓(xùn)練樣本進行學(xué)習(xí),以盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進行分類預(yù)測 。(LR,SVM,BP,RF,GBDT)
無監(jiān)督學(xué)習(xí):對未標(biāo)記的樣本進行訓(xùn)練學(xué)習(xí),比發(fā)現(xiàn)這些樣本中的結(jié)構(gòu)知識 。(,DL)
問13:正則化
答:正則化是針對過擬合而提出的,以為在求解模型最優(yōu)的是一般優(yōu)化最小的經(jīng)驗風(fēng)險,現(xiàn)在在該經(jīng)驗風(fēng)險上加上模型復(fù)雜度這一項(正則化項是模型參數(shù)向量的范數(shù)) , 并使用一個rate比率來權(quán)衡模型復(fù)雜度比以往經(jīng)驗風(fēng)險的權(quán)重,如果模型復(fù)雜度越高,結(jié)構(gòu)化的經(jīng)驗風(fēng)險會越大 , 現(xiàn)在的目標(biāo)就變?yōu)榱私Y(jié)構(gòu)經(jīng)驗風(fēng)險的最優(yōu)化,可以防止模型訓(xùn)練過度復(fù)雜,有效的降低過擬合的風(fēng)險 。
奧卡姆剃刀原理:能夠很好的解釋已知數(shù)據(jù)并且十分簡單才是最好的模型 。
問14:線程分類器與非線性分類器的區(qū)別以及優(yōu)劣
答:如果模型是參數(shù)的線性函數(shù),并且存在線性分類面 , 那么就是線性分類器,負(fù)責(zé)不是 。常用的線性分類器有:LR ,貝葉斯分類,單層感知器 , 線性回歸
常見的非線性分類器:決策樹 , RF,GBDT,多層感知機
SVM兩種都有(看線性核還是高斯核)
線性分類器速度快,編程方便 , 但是可能擬合效果不會很好
非線性分類器編程復(fù)雜,但是效果擬合能力強
問15:介紹卷積神經(jīng)網(wǎng)絡(luò),和 DBN 有什么區(qū)別?
卷積神經(jīng)網(wǎng)絡(luò)的特點是卷積核,CNN中使用了權(quán)共享,通過不斷的上采用和卷積得到不同的特征表示 , 采樣層又稱為層,基于局部相關(guān)性原理進行亞采樣,在減少數(shù)據(jù)量的同時保持有用的信息 。DBN是深度信念網(wǎng)絡(luò),每一層是一個RBM,整個網(wǎng)絡(luò)可以視為RBM堆疊得到 , 通常使用無監(jiān)督逐層訓(xùn)練,從第一層開始,每一層利用上一層的輸入進行訓(xùn)練 , 等各層訓(xùn)練結(jié)束之后再利用BP算法對整個網(wǎng)絡(luò)進行訓(xùn)練 。
問16:采用 EM 算法求解的模型有哪些,為什么不用牛頓法或梯度下降法?
用EM算法求解的模型一般有GMM或者協(xié)同過濾,k-means其實也屬于EM 。EM算法一定會收斂 , 但是可能收斂到局部最優(yōu) 。由于求和的項數(shù)將隨著隱變量的數(shù)目指數(shù)上升,會給梯度計算帶來麻煩 。
問17:用 EM 算法推導(dǎo)解釋。
k-means算法是高斯混合聚類在混合成分方差相等,且每個樣本僅指派一個混合成分時候的特例 。注意k-means在運行之前需要進行歸一化處理,不然可能會因為樣本在某些維度上過大導(dǎo)致距離計算失效 。k-means中每個樣本所屬的類就可以看成是一個隱變量,在E步中,我們固定每個類的中心,通過對每一個樣本選擇最近的類優(yōu)化目標(biāo)函數(shù),在M步,重新更新每個類的中心點,該步驟可以通過對目標(biāo)函數(shù)求導(dǎo)實現(xiàn),最終可得新的類中心就是類中樣本的均值 。
問18:用過哪些聚類算法,解釋密度聚類算法 。
k-means算法,聚類性能的度量一般分為兩類 , 一類是聚類結(jié)果與某個參考模型比較(外部指標(biāo)),另外是直接考察聚類結(jié)果(內(nèi)部指標(biāo)) 。后者通常有DB指數(shù)和DI,DB指數(shù)是對每個類,找出類內(nèi)平均距離/類間中心距離最大的類 , 然后計算上述值,并對所有的類求和,越小越好 。類似k-means的算法僅在類中數(shù)據(jù)構(gòu)成簇的情況下表現(xiàn)較好,密度聚類算法從樣本密度的角度考察樣本之間的可連接性,并基于可連接樣本不斷擴展聚類蔟得到最終結(jié)果 。
(-basedofwith noise)是一種著名的密度聚類算法,基于一組鄰域參數(shù)進行刻畫,包括鄰域 , 核心對象(鄰域內(nèi)至少包含個對象),密度直達(dá)(j由i密度直達(dá),表示j在i的鄰域內(nèi),且i是一個核心對象),密度可達(dá)(j由i密度可達(dá),存在樣本序列使得每一對都密度直達(dá)),密度相連(xi,xj存在k,i,j均有k可達(dá)),先找出樣本中所有的核心對象 , 然后以任一核心對象作為出發(fā)點,找出由其密度可達(dá)的樣本生成聚類蔟,直到所有核心對象被訪問過為止 。
問19:聚類算法中的距離度量有哪些?
聚類算法中的距離度量一般用閩科夫斯基距離 , 在p取不同的值下對應(yīng)不同的距離,例如p=1的時候?qū)?yīng)曼哈頓距離,p=2的情況下對應(yīng)歐式距離,p=inf的情況下變?yōu)榍斜妊┓蚓嚯x,還有距離,冪距離(閩科夫斯基的更一般形式),余弦相似度,加權(quán)的距離,馬氏距離(類似加權(quán))作為距離度量需要滿足非負(fù)性,同一性,對稱性和直遞性,閩科夫斯基在p>=1的時候滿足讀來那個性質(zhì),對于一些離散屬性例如{飛機,火車,輪船}則不能直接在屬性值上計算距離,這些稱為無序?qū)傩?,可以用VDM(Value),屬性u上兩個離散值a,b之間的VDM距離定義為
其中表示在第i個簇中屬性u上a的樣本數(shù),樣本空間中不同屬性的重要性不同的時候可以采用加權(quán)距離,一般如果認(rèn)為所有屬性重要性相同則要對特征進行歸一化 。一般來說距離需要的是相似性度量,距離越大,相似度越小 , 用于相似性度量的距離未必一定要滿足距離度量的所有性質(zhì),例如直遞性 。比如人馬和人,人馬和馬的距離較近 , 然后人和馬的距離可能就很遠(yuǎn) 。
問20:解釋貝葉斯公式和樸素貝葉斯分類 。
貝葉斯公式
最小化分類錯誤的貝葉斯最優(yōu)分類器等價于最大化后驗概率 。
基于貝葉斯公式來估計后驗概率的主要困難在于,條件概率是所有屬性上的聯(lián)合概率 , 難以從有限的訓(xùn)練樣本直接估計得到 。樸素貝葉斯分類器采用了屬性條件獨立性假設(shè),對于已知的類別 , 假設(shè)所有屬性相互獨立 。這樣,樸素貝葉斯分類則定義為
如果有足夠多的獨立同分布樣本,那么可以根據(jù)每個類中的樣本數(shù)量直接估計出來 。在離散情況下先驗概率可以利用樣本數(shù)量估計或者離散情況下根據(jù)假設(shè)的概率密度函數(shù)進行最大似然估計 。樸素貝葉斯可以用于同時包含連續(xù)變量和離散變量的情況 。如果直接基于出現(xiàn)的次數(shù)進行估計 , 會出現(xiàn)一項為0而乘積為0的情況,所以一般會用一些平滑的方法,例如拉普拉斯修正,
問21:TF-IDF是什么?
TF指Term ,代表詞頻,IDF代表,叫做逆文檔頻率,這個算法可以用來提取文檔的關(guān)鍵詞,首先一般認(rèn)為在文章中出現(xiàn)次數(shù)較多的詞是關(guān)鍵詞,詞頻就代表了這一項,然而有些詞是停用詞,例如的,是,有這種大量出現(xiàn)的詞,首先需要進行過濾,比如過濾之后再統(tǒng)計詞頻出現(xiàn)了中國,蜜蜂,養(yǎng)殖且三個詞的詞頻幾乎一致,但是中國這個詞出現(xiàn)在其他文章的概率比其他兩個詞要高不少,因此我們應(yīng)該認(rèn)為后兩個詞更能表現(xiàn)文章的主題 , IDF就代表了這樣的信息,計算該值需要一個語料庫,如果一個詞在語料庫中出現(xiàn)的概率越小 , 那么該詞的IDF應(yīng)該越大,一般來說TF計算公式為(某個詞在文章中出現(xiàn)次數(shù)/文章的總詞數(shù)),這樣消除長文章中詞出現(xiàn)次數(shù)多的影響,IDF計算公式為log(語料庫文章總數(shù)/(包含該詞的文章數(shù))+1) 。將兩者乘乘起來就得到了詞的TF-IDF 。傳統(tǒng)的TF-IDF對詞出現(xiàn)的位置沒有進行考慮,可以針對不同位置賦予不同的權(quán)重進行修正 , 注意這些修正之所以是有效的,正是因為人觀測過了大量的信息,因此建議了一個先驗估計 , 人將這個先驗估計融合到了算法里面,所以使算法更加的有效 。
問22:文本中的余弦距離是什么 , 有哪些作用?
余弦距離是兩個向量的距離的一種度量方式,其值在-1~1之間,如果為1表示兩個向量同相,0表示兩個向量正交,-1表示兩個向量反向 。使用TF-IDF和余弦距離可以尋找內(nèi)容相似的文章,例如首先用TF-IDF找出兩篇文章的關(guān)鍵詞,然后每個文章分別取出k個關(guān)鍵詞(10-20個),統(tǒng)計這些關(guān)鍵詞的詞頻,生成兩篇文章的詞頻向量,然后用余弦距離計算其相似度 。
簡答題1.什么是機器學(xué)習(xí)
簡單的說,機器學(xué)習(xí)就是讓機器從數(shù)據(jù)中學(xué)習(xí),進而得到一個更加符合現(xiàn)實規(guī)律的模型,
通過對模型的使用使得機器比以往表現(xiàn)的更好 , 這就是機器學(xué)習(xí) 。
對上面這句話的理解:
數(shù)據(jù):從現(xiàn)實生活抽象出來的一些事物或者規(guī)律的特征進行數(shù)字化得到 。
學(xué)習(xí):在數(shù)據(jù)的基礎(chǔ)上讓機器重復(fù)執(zhí)行一套特定的步驟(學(xué)習(xí)算法)進行事物特征的萃?。?
得到一個更加逼近于現(xiàn)實的描述(這個描述是一個模型它的本身可能就是一個函數(shù)) 。我
們把大概能夠描述現(xiàn)實的這個函數(shù)稱作我們學(xué)到的模型 。
更好:我們通過對模型的使用就能更好的解釋世界 , 解決與模型相關(guān)的問題 。
2.機器學(xué)習(xí)與數(shù)據(jù)挖掘的區(qū)別
數(shù)據(jù)挖掘和機器學(xué)習(xí)的區(qū)別和聯(lián)系 , 周志華有一篇很好的論述《機器學(xué)習(xí)和
數(shù)據(jù)挖掘》可以幫助大家理解 。
數(shù)據(jù)挖掘受到很多學(xué)科領(lǐng)域的影響,其中數(shù)據(jù)庫、機器學(xué)習(xí)、統(tǒng)計學(xué)無疑影響
最大 。簡言之,對數(shù)據(jù)挖掘而言,數(shù)據(jù)庫提供數(shù)據(jù)管理技術(shù),機器學(xué)習(xí)和統(tǒng)計學(xué)
提供數(shù)據(jù)分析技術(shù) 。
由于統(tǒng)計學(xué)往往醉心于理論的優(yōu)美而忽視實際的效用,因此 , 統(tǒng)計學(xué)界提供的
很多技術(shù)通常都要在機器學(xué)習(xí)界進一步研究,變成有效的機器學(xué)習(xí)算法之后才能
再進入數(shù)據(jù)挖掘領(lǐng)域 。從這個意義上說,統(tǒng)計學(xué)主要是通過機器學(xué)習(xí)來對數(shù)據(jù)挖
掘發(fā)揮影響,而機器學(xué)習(xí)和數(shù)據(jù)庫則是數(shù)據(jù)挖掘的兩大支撐技術(shù) 。
從數(shù)據(jù)分析的角度來看,絕大多數(shù)數(shù)據(jù)挖掘技術(shù)都來自機器學(xué)習(xí)領(lǐng)域,但機器
學(xué)習(xí)研究往往并不把海量數(shù)據(jù)作為處理對象,因此 , 數(shù)據(jù)挖掘要對算法進行改造,
使得算法性能和空間占用達(dá)到實用的地步 。同時,數(shù)據(jù)挖掘還有自身獨特的內(nèi)容 , 
即關(guān)聯(lián)分析 。
而模式識別和機器學(xué)習(xí)的關(guān)系是什么呢,傳統(tǒng)的模式識別的方法一般分為兩種:
統(tǒng)計方法和句法方法 。句法分析一般是不可學(xué)習(xí)的,而統(tǒng)計分析則是發(fā)展了不少機
器學(xué)習(xí)的方法 。也就是說 , 機器學(xué)習(xí)同樣是給模式識別提供了數(shù)據(jù)分析技術(shù) 。
至于,數(shù)據(jù)挖掘和模式識別 , 那么從其概念上來區(qū)分吧,數(shù)據(jù)挖掘重在發(fā)現(xiàn)知識,
模式識別重在認(rèn)識事物 。
機器學(xué)習(xí)的目的是建模隱藏的數(shù)據(jù)結(jié)構(gòu),然后做識別、預(yù)測、分類等 。因此,機器
學(xué)習(xí)是方法 , 模式識別是目的 。
總結(jié)一下吧 。只要跟決策有關(guān)系的都能叫 AI(人工智能),所以說 PR(模式識別)、
DM(數(shù)據(jù)挖掘)、IR(信息檢索) 屬于 AI 的具 體應(yīng)用應(yīng)該沒有問題 。研究的東西則
不太一樣,ML(機器學(xué)習(xí)) 強調(diào)自我完善的過程 。 , 這些學(xué)科都是相通的 。
3.什么是機器學(xué)習(xí)的過度擬合現(xiàn)象
如果一味的去提高訓(xùn)練數(shù)據(jù)的預(yù)測能力,所選模型的復(fù)雜度往往會很高,這種現(xiàn)象稱為過擬合 , 所表現(xiàn)的就是模型訓(xùn)練時候的誤差很?。?但在測試的時候誤差很大
指在模型參數(shù)擬合過程中的問題,由于訓(xùn)練數(shù)據(jù)包含抽樣誤差 , 訓(xùn)練時,
復(fù)雜的模型將抽樣誤差也考慮在內(nèi) , 將抽樣誤差也進行了很好的擬合 。具體表
現(xiàn)就是訓(xùn)練集上效果好,在測試集上效果差 。模型泛化能力弱 。
4.過度擬合產(chǎn)生的原因
過擬合的第一個原因,就是建模樣本抽取錯誤 , 包括(但不限于)樣本數(shù)量太少,
抽樣方法錯誤,抽樣時沒有足夠正確考慮業(yè)務(wù)場景或業(yè)務(wù)特點 , 等等導(dǎo)致抽出
的樣本數(shù)據(jù)不能有效足夠代表業(yè)務(wù)邏輯或業(yè)務(wù)場景;
過擬合的第二個原因,就是樣本里的噪音數(shù)據(jù)干擾過大,大到模型過分記住了噪音
特征 , 反而忽略了真實的輸入輸出間的關(guān)系;
過擬合的第三個原因,就是在決策樹模型搭建中,如果我們對于決策樹的生長沒有
合理的限制和修剪的話 , 決策樹的自由生長有可能每片葉子里只包含單純的事件
數(shù)據(jù)(event)或非事件數(shù)據(jù)(no event),可以想象,這種決策樹當(dāng)然可以完
美匹配(擬合)訓(xùn)練數(shù)據(jù),但是一旦應(yīng)用到新的業(yè)務(wù)真實數(shù)據(jù)時 , 效果是一塌糊涂 。
過擬合的第四個原因 , 就是建模時的“邏輯假設(shè)”到了模型應(yīng)用時已經(jīng)不能成立了 。任
何預(yù)測模型都是在假設(shè)的基礎(chǔ)上才可以搭建和應(yīng)用的,常用的假設(shè)包括:假設(shè)歷
史數(shù)據(jù)可以推測未來,假設(shè)業(yè)務(wù)環(huán)節(jié)沒有發(fā)生顯著變化,假設(shè)建模數(shù)據(jù)與后來的
應(yīng)用數(shù)據(jù)是相似的 , 等等 。如果上述假設(shè)違反了業(yè)務(wù)場景的話 , 根據(jù)這些假設(shè)搭
建的模型當(dāng)然是無法有效應(yīng)用的 。
過擬合的第五個原因 , 就是建模時使用了太多的輸入變量,這跟上面第二點(噪音數(shù)據(jù))
有些類似,數(shù)據(jù)挖掘新人常常犯這個錯誤,自己不做分析判斷,把所有的變量交給
軟件或者機器去“撞大運” 。須知 , 一個穩(wěn)定優(yōu)良的模型一定要遵循建模輸入變量“
少而精”的原則的 。
上面的原因都是現(xiàn)象,但是其本質(zhì)只有一個,那就是“業(yè)務(wù)理解錯誤造成的”,無論是抽樣,
還是噪音,還是決策樹,神經(jīng)網(wǎng)絡(luò)等等 , 如果我們對于業(yè)務(wù)背景和業(yè)務(wù)知識非常了解,
非常透徹的話,一定是可以避免絕大多數(shù)過擬合現(xiàn)象產(chǎn)生的 。因為在模型從確定需求,
到思路討論,到搭建,到業(yè)務(wù)應(yīng)用驗證,各個環(huán)節(jié)都是可以用業(yè)務(wù)敏感來防止過擬合
于未然的 。
5.如何避免過度擬合
當(dāng)你使用較小的數(shù)據(jù)集進行機器學(xué)習(xí)時,容易產(chǎn)生過度擬合,因此使用較大的數(shù)據(jù)量能避免過度擬合現(xiàn)象 。但是當(dāng)你不得不使用小型數(shù)據(jù)集進行建模時候,可以使用被稱為交叉驗證的技術(shù) 。在這種方法中數(shù)據(jù)集被分為兩節(jié),測試和訓(xùn)練數(shù)據(jù)集,測試數(shù)據(jù)集只測試模型,而在訓(xùn)練數(shù)據(jù)集中 , 數(shù)據(jù)點被用來建模 。
在該技術(shù)中 , 一個模型通常是被給定有先驗知識的數(shù)據(jù)集(訓(xùn)練數(shù)據(jù)集)進行訓(xùn)練 , 沒有先驗知識的數(shù)據(jù)集進行測試,交叉驗證的思想是:在訓(xùn)練階段,定義一個數(shù)據(jù)集用來測試模型 。
1. :訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時,如果訓(xùn)練樣本較少,為了防止模型過擬合,
可以作為一種trikc供選擇 。
2. early stop結(jié)合cross 使用 。
3. 盡可能的擴大,增加訓(xùn)練集的全面性和數(shù)量
6.什么是感應(yīng)式的機器學(xué)習(xí)?
感應(yīng)機器學(xué)習(xí)涉及由實踐進行學(xué)習(xí)的過程,能從一組可觀測到的例子的嘗試推導(dǎo)出普遍性規(guī)則
7.什么是機器學(xué)習(xí)的五個流行的算法?
1,決策樹
2,神經(jīng)網(wǎng)絡(luò)
3,概率網(wǎng)絡(luò)
4,最鄰近法
5,支持向量機
8.機器學(xué)習(xí)有哪些不同的算法技術(shù)?
在機器學(xué)習(xí)中不同類型的算法技術(shù)是:
1,監(jiān)督學(xué)習(xí) 2,非監(jiān)督學(xué)習(xí)
3,半監(jiān)督學(xué)習(xí) 4,轉(zhuǎn)導(dǎo)推理()
5,學(xué)習(xí)推理( to Learn)
9.在機器學(xué)習(xí)中,建立假設(shè)或者模型的三個階段指的是什么?
1,建模
2,模型測試
3,模型應(yīng)用
10.什么是監(jiān)督學(xué)習(xí)的標(biāo)準(zhǔn)方法?
監(jiān)督學(xué)習(xí)的標(biāo)準(zhǔn)方法是將一組示例數(shù)據(jù)的分成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集
11.什么是訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集?
在類似于機器學(xué)習(xí)的各個信息科學(xué)相關(guān)領(lǐng)域中,一組數(shù)據(jù)被用來發(fā)現(xiàn)潛在的預(yù)測關(guān)系,
稱為“訓(xùn)練數(shù)據(jù)集” 。訓(xùn)練數(shù)據(jù)集是提供給學(xué)習(xí)者的案例 , 而試驗數(shù)據(jù)集是用于測試由學(xué)習(xí)
者提出的假設(shè)關(guān)系的準(zhǔn)確度 。
12.下面列出機器學(xué)習(xí)的各種方法?
機器學(xué)習(xí)的各種方法如下“
1.概念與分類學(xué)習(xí)( Vs) 。
2.符號與統(tǒng)計學(xué)習(xí)( Vs) 。
3.歸納與分析學(xué)習(xí)( Vs) 。
13.非機器學(xué)習(xí)有哪些類型?
人工智能 規(guī)則推理
14.什么是非監(jiān)督學(xué)習(xí)的功能?
1.求數(shù)據(jù)的集群
2. 求出數(shù)據(jù)的低維表達(dá)
3. 查找數(shù)據(jù)有趣的方向
4. 有趣的坐標(biāo)和相關(guān)性
5.發(fā)現(xiàn)顯著的觀測值和數(shù)據(jù)集清理
15.什么是監(jiān)督學(xué)習(xí)的功能?
1.分類 2.語音識別 3.回歸 4.時間序列預(yù)測 5. 注釋字符串
16.什么是算法獨立的機器學(xué)習(xí)?
機器學(xué)習(xí)在基礎(chǔ)數(shù)學(xué)領(lǐng)域獨立于任何特定分類器或者學(xué)習(xí)算法,被稱為算法獨立的機器學(xué)習(xí) 。
17.人工智能與機器學(xué)習(xí)的區(qū)別?
基于經(jīng)驗數(shù)據(jù)的特性而設(shè)計和開發(fā)的算法被稱為機器學(xué)習(xí) 。而人工智能不但包
括機器學(xué)習(xí) , 還包括諸如知識表示 , 自然語言處理 , 規(guī)劃 , 機器人技術(shù)等其它方法 。
18.在機器學(xué)習(xí)中分類器指的是什么?
在機器學(xué)習(xí)中 , 分類器是指輸入離散或連續(xù)特征值的向量,并輸出單個離散值或者類型的系統(tǒng) 。
19.樸素貝葉斯方法的優(yōu)勢是什么?
樸素貝葉斯分類器將會比判別模型,譬如邏輯回歸收斂得更快,因此你只需要
更少的訓(xùn)練數(shù)據(jù) 。其主要缺點是它學(xué)習(xí)不了特征間的交互關(guān)系 。
20.在哪些領(lǐng)域使用模式識別技術(shù)?
模式識別被應(yīng)用在:
1計算機視覺 2.語言識別 3.統(tǒng)計 4.數(shù)據(jù)挖掘 5. 非正式檢索 6. 生物信息學(xué) 。
21.什么是遺傳編程?
遺傳編程的機器學(xué)習(xí)中兩種常用的方法之一 。該模型是基于測試,并在一系列的
結(jié)果當(dāng)中,獲取最佳選擇 。
22.在機器學(xué)習(xí)中歸納邏輯程序設(shè)計是指什么?
歸納邏輯程序設(shè)計(ILP)是利用邏輯程序設(shè)計表達(dá)的背景知識和實例,它是機器學(xué)習(xí)的一個分支 。
23.在機器學(xué)習(xí)中 , 模型的選擇是指?
在不同的數(shù)學(xué)模型中 , 選擇用于描述相同的數(shù)據(jù)集的模型的過程被稱為模型選擇 。
模型選擇被應(yīng)用于統(tǒng)計,機器學(xué)習(xí)和數(shù)據(jù)挖掘的等相關(guān)領(lǐng)域 。
24.用于監(jiān)督學(xué)習(xí)校準(zhǔn)兩種方法是什么?
在監(jiān)督學(xué)習(xí)中,用于預(yù)測良好概率的兩種方法是:
1 , 普拉特校準(zhǔn) 2,保序回歸 。
這些方法被設(shè)計為二元分類,而且有意義的 。
25. 什么方法通常用于防止過擬合?
當(dāng)有足夠的數(shù)據(jù)進行等滲回歸時,這通常被用來防止過擬合問題 。
26.規(guī)則學(xué)習(xí)的啟發(fā)式方法和決策樹的啟發(fā)式方法之間的區(qū)別是什么?
決策樹的啟發(fā)式方法評價的是一系列不相交的集合的平均質(zhì)量;然而規(guī)則學(xué)習(xí)的
啟發(fā)式方法僅僅評價在候選規(guī)則覆蓋下的實例集 。
27.什么是感知機器學(xué)習(xí)?
在機器學(xué)習(xí),感知器是一種輸入到幾個可能的非二進制輸出的監(jiān)督分類算法 。
28.貝葉斯邏輯程序的兩個組成部分是什么?
貝葉斯邏輯程序由兩部分組成 。第一成分由一組貝葉斯條款組成opencv 加載分類器失敗,能捕捉特定
域的定性結(jié)構(gòu) 。第二組分是定量的,它能對域的量化信息進行編碼 。
29.什么是貝葉斯網(wǎng)絡(luò)?
貝葉斯網(wǎng)絡(luò)是用來表示一組變量之間為概率關(guān)系的圖像模型 。
30.為什么基于實例的學(xué)習(xí)算法有時也被稱為懶惰學(xué)習(xí)算法?
基于實例的學(xué)習(xí)算法也被稱為懶惰學(xué)習(xí)算法,因為它們延緩誘導(dǎo)或泛化過程,直到分類完成 。
31.支持向量機能處理哪兩種分類方法?
1.結(jié)合二分類法
2. 修改二進制納入多類學(xué)習(xí)法 。
32.什么是集成學(xué)習(xí)?
為了解決特定的計算程序,如分類器或?qū)<抑R等多種模式,進行戰(zhàn)略性生產(chǎn)
和組合 。這個過程被稱為集成學(xué)習(xí) 。
33.為什么集成學(xué)習(xí)被應(yīng)用?
集成學(xué)習(xí)能提高模型的分類,預(yù)測,函數(shù)逼近等方面的精度 。
34.什么使用集成學(xué)習(xí)?
當(dāng)你構(gòu)建一個更準(zhǔn)確 , 相互獨立的分類器時,使用集成學(xué)習(xí) 。
35.什么是集成方法的兩種范式?
集成方法的兩種范式是:
1. 連續(xù)集成方法
2. 并行集成方法 。
36.什么是集成方法的一般原則 , 在集成方法中套袋()和爆發(fā)()指的是什么?
集成方法的一般原則是要結(jié)合定的學(xué)習(xí)算法多種預(yù)測模型,相對于單一模型,
其有更強的健壯性 。套袋是一種能提高易變的預(yù)測或分類方案集成方法 。爆發(fā)方
法被依次用來減少組合模型的偏差 。爆發(fā)和裝袋都可以通過降低方差減少誤差 。
37.什么是集成方法分類錯誤的偏置方差分解?
學(xué)習(xí)算法的期望誤差可以分解為偏差和方差 。偏置項衡量由學(xué)習(xí)方法產(chǎn)生的平
均分類器與目標(biāo)函數(shù)是否匹配 。
38.在集成方法中什么是增量合成方法?
增量學(xué)習(xí)方法是一種從新數(shù)據(jù)進行學(xué)習(xí) , 并能應(yīng)用于后續(xù)由現(xiàn)有的數(shù)據(jù)集生成的分類器的算法 。
39.PCA,KPCA和ICE如何使用?
PCA(主成分分析) , KPCA(基于內(nèi)核主成分分析)和ICA(獨立成分分析)是用
于降維的重要特征提取技術(shù) 。
40.在機器學(xué)習(xí)中降維是什么意思?
在機器學(xué)習(xí)和統(tǒng)計應(yīng)用中,降維是指在計算時減少隨機變量數(shù)目的處理過程,并
且可以分為特征選擇和特征提取 。
41.什么是支持向量機?
支持向量機是一種監(jiān)督學(xué)習(xí)算法,適用于分類和回歸分析 。
42.關(guān)系評價技術(shù)的組成部分是什么?
關(guān)系評價技術(shù)的重要組成部分如下:
1.數(shù)據(jù)采集2. 地面實況采集3. 交叉驗證技術(shù)4. 查詢類型5. 評分標(biāo)準(zhǔn)6. 顯著性檢驗 。
43.連續(xù)監(jiān)督學(xué)習(xí)有什么不同方法?
連續(xù)監(jiān)督學(xué)習(xí)問題的不同解決辦法如下:
1.滑動窗口方法
2. 復(fù)發(fā)性推拉窗
3. 隱藏馬爾科夫模型
4. 最大熵馬爾科夫模型
5. 條件隨機域
6. 圖變換網(wǎng)絡(luò)
44.在機器人技術(shù)和信息處理技術(shù)的哪些方面會相繼出現(xiàn)預(yù)測問題?
在機器人技術(shù)和信息處理技術(shù)中 , 相繼出現(xiàn)預(yù)測問題的是:
1.模仿學(xué)習(xí) 2. 結(jié)構(gòu)預(yù)測 3. 基于模型的強化學(xué)習(xí)
45.什么是批量統(tǒng)計學(xué)習(xí)?
統(tǒng)計學(xué)習(xí)技術(shù)允許根據(jù)一組觀察到的數(shù)據(jù)進行學(xué)習(xí)功能和預(yù)測,這可以對無法觀
察和未知的數(shù)據(jù)進行預(yù)測 。這些技術(shù)提供的學(xué)習(xí)預(yù)測器對未來未知數(shù)據(jù)的預(yù)測提供性能保證 。
46什么是PAC學(xué)習(xí)?
可能近似正確模型 (PAC) 學(xué)習(xí)是一個已經(jīng)被引入到分析學(xué)習(xí)算法和統(tǒng)計效率的學(xué)習(xí)框架 。
47有哪些不同的類別可以分為序列學(xué)習(xí)過程?
1.序列預(yù)測 2. 序列生成 3. 序列識別 4. 順序決定.
48什么是序列學(xué)習(xí)?
序列學(xué)習(xí)是一種以合乎邏輯的方式進行教學(xué)和學(xué)習(xí)的方法 。
49.機器學(xué)習(xí)的兩種技術(shù)是什么?
機器學(xué)習(xí)的兩種技術(shù)是:
1.遺傳編程
2.歸納學(xué)習(xí)
50.你在日常工作中看到的機器學(xué)習(xí)的一個流行應(yīng)用是什么?
各大電商網(wǎng)站上已部署好的推薦引擎使用的是機器學(xué)習(xí) 。
【技巧就是機會 人工智能行業(yè):求職面試最強50問答】本文到此結(jié)束,希望對大家有所幫助 。