夜夜爽一区二区三区精品,精品一区二区三区免费毛片爱,日本美女一区二区三区,色窝窝无码一区二区三区色欲

美林數(shù)據(jù)
ABOUT US
美林數(shù)據(jù)技術(shù)股份有限公司(簡稱:美林數(shù)據(jù),NEEQ:831546)是國內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務(wù)提供商。

美林數(shù)據(jù)技術(shù)專家團隊|機器學習中樣本不平衡問題的實用解決方法

2021-12-23 10:44:00
近些年,隨著智能化應(yīng)用概念在各個行業(yè)的普及、智能應(yīng)用項目的落地實踐,作為智能應(yīng)用的基礎(chǔ)技術(shù)-機器學習,也得到了廣泛的應(yīng)用并取得了不錯的效果。與此同時,在實際的項目應(yīng)用中也經(jīng)歷了各種各樣的難題,如數(shù)據(jù)分散難統(tǒng)一、輸出結(jié)果滯后、數(shù)據(jù)不準確等,其中樣本不平衡就是一個典型的數(shù)據(jù)問題。
機器學習
樣本不平衡問題是指在進行模式分類時,樣本中某一類數(shù)據(jù)遠多于其他類數(shù)據(jù)而造成對少數(shù)類判別不準確的問題,而實際應(yīng)用中數(shù)量較少的樣本往往包含著關(guān)鍵的信息。例如在設(shè)備故障預測中的故障樣本,產(chǎn)品質(zhì)量分析中的不合格樣本,用戶流失預警中的流失用戶,竊電識別中的竊電用戶,醫(yī)療診斷中的病例樣本等等,都是在智能化應(yīng)用分析過程中需要重點關(guān)注的對象。
對于樣本不平衡分類問題的解決,我們目前嘗試過5個方向:
1、改變數(shù)據(jù)分布,降低不平衡度,包括采樣的方法(過采樣算法、欠采樣算法)和數(shù)據(jù)合成的方法;
2、優(yōu)化算法,分析已有算法在面對不平衡數(shù)據(jù)的缺陷,改進算法或者提出新算法來提升少數(shù)類的分類準確率,主要包括代價敏感和集成學習;
3、引入先驗知識,在建模的過程中的樣本生成、模型設(shè)計、模型訓練階段引入先驗知識,提升模型準確性;
4、遷移學習,利用其它領(lǐng)域相似的數(shù)據(jù)和知識對本領(lǐng)域內(nèi)模型進行優(yōu)化;
5、調(diào)整業(yè)務(wù)目標,嘗試改變看問題的角度,調(diào)整業(yè)務(wù)的目標或?qū)I(yè)務(wù)問題進行轉(zhuǎn)換。

01、改變數(shù)據(jù)分布
數(shù)據(jù)集
?通過采樣的方式  
采樣方法是通過對訓練集進行處理使其從不平衡的數(shù)據(jù)集變成平衡的數(shù)據(jù)集,在大部分情況下會對最終的結(jié)果帶來提升。采樣分為過采樣和欠采樣,其中過采樣是把小眾類復制多份,而欠采樣則是從大眾類中剔除一些樣本,或者說只從大眾類中選取部分樣本。
?數(shù)據(jù)合成方式
數(shù)據(jù)合成是通過少量可用的樣本生成更多的樣本,即從原始數(shù)據(jù)分布的角度來進行的,生成和真實數(shù)據(jù)分布相似的數(shù)據(jù),達到樣本增強的目的。主要的樣本增強方法包含:SMOTE平滑、GAN生成對抗網(wǎng)絡(luò)模型等。
SMOTE平滑主要應(yīng)用在小型數(shù)據(jù)集上來獲得新的樣本,實現(xiàn)方式是隨機選擇一個樣本,計算它與其它樣本的距離,得到K近鄰,從K近鄰中隨機選擇多個樣本構(gòu)建出新樣本。
GAN生成對抗網(wǎng)絡(luò)模型:主要包括了兩個部分,即生成器 generator 與判別器 discriminator。生成器主要用來學習真實數(shù)據(jù)分布從而讓自身生成的數(shù)據(jù)更加真實,以騙過判別器。判別器則需要對接收的數(shù)據(jù)進行真假判別。在整個過程中,生成器努力地讓生成的數(shù)據(jù)更加真實,而判別器則努力地去識別出數(shù)據(jù)的真假,這個過程相當于一個二人博弈,隨著時間的推移,生成器和判別器在不斷地進行對抗,最終兩個網(wǎng)絡(luò)達到了一個動態(tài)均衡:生成器生成的數(shù)據(jù)像接近于真實數(shù)據(jù)分布,而判別器識別不出真假數(shù)據(jù),從而達到構(gòu)建更多新樣本的目的。
例如,在用戶竊電識別模型中,數(shù)據(jù)庫中查實的竊電用戶量整體較少,如果直接構(gòu)建模型會導致模型泛化性能低,易過擬合,無法使模型更精準的學習到竊電用戶的特性。那么為了保障模型的準確率,我們可以基于查實的竊電用戶數(shù)據(jù),針對不同竊電手段數(shù)據(jù)通過采用SMOTE平滑方法對數(shù)據(jù)進行樣本增強,獲取到更多符合原始數(shù)據(jù)分布的樣本,讓智能模型充分學習到竊電用戶的特性,有效地提高模型的泛化性能和抗干擾能力。該模型采用數(shù)據(jù)樣本增強后,竊電用戶識別模型準確率從70%提升至86%,為項目帶來實質(zhì)性的提升。
需要注意的是,通過采樣的方式增加樣本適用于樣本量有一定基礎(chǔ)的情況,對于樣本數(shù)據(jù)本身較小,或樣本極度不均衡的情況如異常樣本只有個位數(shù),使用起來意義并不大。數(shù)據(jù)合成的方法在一些領(lǐng)域使用較多,如在電信行業(yè)的流失行為預測、電網(wǎng)領(lǐng)域的用戶畫像,圖像識別等,但是在工業(yè)領(lǐng)域,如產(chǎn)品的加工過工程,設(shè)備的故障產(chǎn)生,數(shù)據(jù)之間都就有很強的關(guān)聯(lián)性,數(shù)據(jù)之間存在內(nèi)在的物理關(guān)系,而數(shù)據(jù)合成的方法只關(guān)注了數(shù)據(jù)的分布特征,而忽略了數(shù)據(jù)之間的強關(guān)聯(lián)關(guān)系,因此往往導致生成數(shù)據(jù)脫離現(xiàn)實情況。

02、優(yōu)化算法
從算法層面,在模型設(shè)計與訓練中采用傾向性策略以緩解樣本的不平衡程度,主要包括代價敏感和集成學習。代價敏感通過修改損失函數(shù)使得模型更加重視少數(shù)類,集成學習通過將多個分類器的結(jié)果集成提高整體分類準確度。
?從評價指標的角度   
對于數(shù)據(jù)極端不平衡時,這時候就不能觀察模型準確率這個指標了。我們可以通過觀察訓練結(jié)果的精準率和召回率,這樣做有兩個好處:一是可以了解算法對于數(shù)據(jù)的敏感程度;二是可以明確采取哪種評價指標更合適。針對機器學習中的樣本不平衡問題,建議更多采用PR(Precision-Recall曲線),而非ROC曲線,如果采用ROC曲線來作為評價指標,很容易因為AUC值高而忽略實際對少量樣本的效果其實并不理想的情況。
當然在實際的應(yīng)用中,也應(yīng)結(jié)合業(yè)務(wù)需要來確定評價指標的選擇。例如,在流失預警場景中,應(yīng)根據(jù)現(xiàn)場維護人員的數(shù)據(jù)量,決定是采用召回率作為主要評價指標還是以精準率作為主要指標。另外,在工業(yè)應(yīng)用中,如果將模型作為輔助手段用于質(zhì)量預警時,主要考慮的模型的準確性,要確保每次給出的結(jié)果是準確的,在設(shè)備故障判斷時,要確保召回率,不能漏掉任何一個故障。
?代價敏感法    
代價敏感法核心思想是在算法實現(xiàn)過程中,對于分類中不同樣本數(shù)量的類別分別賦予不同的權(quán)重(一般思路分類中的小樣本量類別權(quán)重高,大樣本量類別權(quán)重低),通過這種方式使模型更加重視小樣本類,然后進行計算和建模。
?集成學習   
集成方法指的是在每次生成訓練集時使用所有分類中的小樣本量,同時從分類中的大樣本量中隨機抽取數(shù)據(jù)來與小樣本量合并構(gòu)成訓練集,這樣反復多次會得到很多訓練集和訓練模型。最后在應(yīng)用時,使用組合方法(例如投票、加權(quán)投票等)產(chǎn)生分類預測結(jié)果。如果計算資源充足,并且對于模型的時效性要求不高的話,這種方法比較合適。

03、引入先驗知識
利用先驗知識,將業(yè)務(wù)知識、機理規(guī)則等引入機器學習的樣本生成、模型設(shè)計、模型訓練等階段也是解決樣本不平衡問題的一個思路。先驗知識可以快速推廣到只包含少量監(jiān)督信息樣本的新任務(wù)。在數(shù)據(jù)挖掘模型構(gòu)建的過程中,充分利用先驗知識的相關(guān)規(guī)則可以提升模型效果,先驗知識主要從兩個方面發(fā)揮價值:
數(shù)據(jù):利用先驗知識來增強監(jiān)督經(jīng)驗,例如可以使用先驗知識判斷傳感器采集數(shù)據(jù)的范圍,對于超過范圍的異常數(shù)據(jù)剔除處理,避免因為數(shù)據(jù)采集錯誤干擾到模型訓練。
模型:利用先驗知識減少假設(shè)空間的大小,如齒輪點蝕、剝落斷齒等局部故障,故障部位進入嚙合時系統(tǒng)受到?jīng)_擊激勵,故障齒輪每轉(zhuǎn)一圈,系統(tǒng)受一次沖擊,這種現(xiàn)象是周期性的,可基于此特性來設(shè)計模型。
如在配變重過載預測模型構(gòu)建過程中,模型階段通過先驗知識縮小了預測空間,充分考慮配變負載率近2年P(guān)earson相關(guān)系數(shù)判定近2年的變化趨勢,篩選相關(guān)系數(shù)高的配變,利用先驗知識預測未來周期內(nèi)負載率,將負載率明顯過低的設(shè)備進行剔除,減少樣本的不平衡度,提升模型的泛化能力。
值得注意得是:在利用先驗知識的同時,一定要保障先驗知識的準確性,如果先驗知識存在誤差,必然導致模型的誤差增大,影響模型準確率。

04、遷移學習
既然當前領(lǐng)域的樣例數(shù)據(jù)獲取難度比較大,那么可不可以使用相似領(lǐng)域的數(shù)據(jù)和知識來代替呢?實際生活中有很多這樣的例子,比如學會吹笛子,就比較容易學吹簫、葫蘆絲等管弦樂器,學會了C語言,在學一些其它編程語言會簡單很多,這其實就是遷移學習的思想。從相關(guān)領(lǐng)域中遷移標注數(shù)據(jù)或者知識結(jié)構(gòu)、完成或改進目標領(lǐng)域的學習效果。
遷移學習
一般地,有三種常見的遷移方式:
一是基于實例的遷移,對已有的其它領(lǐng)域大樣本進行有效的權(quán)重分配,讓其它領(lǐng)域的樣本與目標域的樣本分布特征接近;
二是基于特征的遷移,分為基于特征選擇的遷移和基于特征映射的遷移。基于特征選擇的遷移學習算法,關(guān)注的是如何找出源領(lǐng)域與目標領(lǐng)域之間共同的特征表示,然后利用這些特征進行知識遷移;基于特征映射的遷移學習算法,將源領(lǐng)域和目標領(lǐng)域的數(shù)據(jù)從原始特征空間映射到新的特征空間中去,在該空間中,源領(lǐng)域數(shù)據(jù)與的目標領(lǐng)域的數(shù)據(jù)分布相同;
三是基于共享參數(shù)的遷移,其主要研究的是如何找到源數(shù)據(jù)和目標數(shù)據(jù)的空間模型之間的共同參數(shù)或者先驗分布。
在齒輪、軸承類機械設(shè)備故障預測過程中,實際工況下,由于設(shè)備長期處于正常服役狀態(tài),正常樣本豐富,故障樣本非常少,經(jīng)常面臨數(shù)據(jù)嚴重不平衡的問題。對于齒輪、軸承這類簡單的機械,相同類型的部件其在發(fā)生故障時表現(xiàn)的特征往往具有很強的相似性。這時可以用遷移學習的方法,具體的實現(xiàn)方法一方面通過數(shù)據(jù)分布變換將要遷移的數(shù)據(jù)的分布狀況轉(zhuǎn)換為目標數(shù)據(jù)的分布狀況。
齒輪、軸承類機械設(shè)備故障預測
另一方面將兩個領(lǐng)域的數(shù)據(jù)特征進行空間變換,使其具備相同的特征分布。假如采集的是震動信號,根據(jù)目標數(shù)據(jù)時域下的幅值分布將公共的震動信號轉(zhuǎn)換成與目標分布相似的信號,再利用時頻變換,將時域空間下的特征映射到頻域下(注意盡可能使用相對指標,而不是絕對指標),然后再進行零件故障預測模型的構(gòu)建。
此外,遷移學習在落地應(yīng)用中往往受幾個方面的影響,一是不同的應(yīng)用場景,數(shù)據(jù)之間的影響關(guān)系差異非常大,數(shù)據(jù)之間的相互關(guān)系往往會發(fā)生變化,導致不能完全遷移。二是目標的表征變量較多的情況下,做特征的映射本身就是一個大工程,實現(xiàn)起來并不容易,適合特征比較少的場景。

05、調(diào)整業(yè)務(wù)目標
以上的方式都不適用的情況下該怎么辦呢?這時就需要放大招了——調(diào)整業(yè)務(wù)目標。一般對于樣本極不均衡現(xiàn)象分類預測問題我們可以將其轉(zhuǎn)換為回歸問題或異常檢測問題。
?分類變回歸  
在實際的項目中,還有一種方法來實現(xiàn)預測的目標,那就是將分類預測問題轉(zhuǎn)換為回歸預測問題。采用回歸預測+業(yè)務(wù)規(guī)則相結(jié)合的方法實現(xiàn)預測的目的。例如在一個產(chǎn)品質(zhì)量預測項目中,原來的目標是構(gòu)建產(chǎn)品是否合格的預測模型,但是在模型的構(gòu)建過程中發(fā)現(xiàn)不合格產(chǎn)品占比非常少,只有極個別的樣本,用來構(gòu)建產(chǎn)品不合格模型基礎(chǔ)條件不夠。
這時就可以轉(zhuǎn)變?yōu)轭A測產(chǎn)品檢測指標的方法,這種方法是在不合格產(chǎn)品數(shù)量占比較少的情況下轉(zhuǎn)而預測產(chǎn)品檢測過程中的評判指標。相對來說,產(chǎn)品檢測過程中的檢測指標樣本的積累會比不合格產(chǎn)品的樣本積累要更容易。很顯然,對于產(chǎn)品檢測指標的預測是屬于回歸預測的范疇,可采用機器學習中回歸類預測方法來實現(xiàn)。對于回歸模型預測的結(jié)果,可以結(jié)合現(xiàn)有的業(yè)務(wù)規(guī)則進行判斷,從而達到預測產(chǎn)品是否合格的目的。
?分類變異常檢測   
第二種做法是使用非監(jiān)督式的學習方法,將此類問題看做是單分類或異常檢測問題。這類方法的重點不在于找出類間的差別,而是為其中一類進行建模。例如在設(shè)備故障診斷項目中,沒有異常數(shù)據(jù),那我們就為正常情況圈定一個范圍,在新數(shù)據(jù)判斷時在這個范圍內(nèi)的就認為是正常數(shù)據(jù),不在這個范圍內(nèi)的我們就認為就是異常數(shù)據(jù),需要重點關(guān)注的。當然在實際應(yīng)用中模型也會不斷的迭代更新,判斷的效果會越來越準。

本文介紹了實際項目中我們嘗試的幾種樣本不平衡問題的解決方法,希望上述的某種方法能夠幫助你解決目前遇到的問題或者能為你帶來一些解題思路。
而上述這些方法也只是眾多樣本不平衡問題解決方法中的冰山一角,這里建議大家多閱讀一些這方面的文章,你可能從中獲取一些更有趣更有效的方法。當然樣本不平衡問題的解決更多的還要結(jié)合現(xiàn)場的環(huán)境和遇到的問題,靈活的選擇應(yīng)對方法,沒有一種方案可以解決一切問題。

服務(wù)熱線
400-608-2558
咨詢熱線
15502965860-
美林數(shù)據(jù)
微信掃描二維碼,立即在線咨詢
夜夜爽一区二区三区精品,精品一区二区三区免费毛片爱,日本美女一区二区三区,色窝窝无码一区二区三区色欲

  • <center id="vcica"><optgroup id="vcica"></optgroup></center>
  • 主站蜘蛛池模板: 日韩图片一区| 亚洲一区二区免费看| 国产精品国产福利国产秒拍| 久久国产精品久久久久久电车| 亚洲国产欧美在线人成| 欧美日韩一区在线播放| 欧美日本久久| 美乳少妇欧美精品| 亚洲一区www| 亚洲国产精品美女| 最近中文字幕mv在线一区二区三区四区| 国产乱子伦一区二区三区国色天香| 欧美国产日韩在线观看| 久久激情中文| 久久久久久久精| 欧美成人在线免费视频| 欧美日韩一区三区| 欧美激情网友自拍| 欧美日韩中文另类| 国产日韩欧美夫妻视频在线观看| 欧美精品在线免费观看| 国产精品久久久久毛片软件 | 亚洲在线观看免费视频| 亚洲九九精品| 亚洲国产精品久久久久婷婷老年| 日韩视频在线一区| 亚洲欧美日韩一区| 乱人伦精品视频在线观看| 欧美精品福利在线| 欧美福利在线观看| 国产精品久久中文| 一区二区自拍| 在线精品国产欧美| 亚洲最快最全在线视频| 一本久久综合亚洲鲁鲁| 亚洲精品欧美极品| 国产有码一区二区| 亚洲美女在线看| 欧美一区1区三区3区公司| 欧美电影免费观看高清| 欧美精品一区二区三区久久久竹菊 |