全球快訊:?機器學(xué)習(xí)數(shù)據(jù)不滿足同分布,怎么整?
機器學(xué)習(xí)作為一門科學(xué),不可避免的是,科學(xué)本身是基于歸納得到經(jīng)驗總結(jié),必然存在歷史經(jīng)驗不適用未來的情況(科學(xué)必可證偽)。這里很應(yīng)景地講一個小故事--By 哲學(xué)家羅素:
農(nóng)場有一群火雞,農(nóng)夫每天來給它們喂食。經(jīng)過長期觀察后,一只火雞(火雞中的科學(xué)雞)得出結(jié)論,“每天早上農(nóng)夫來到雞舍,我就有吃的”,之后每天的經(jīng)歷都在證實它的這個結(jié)論。但是有一天,農(nóng)夫來到雞舍,沒有帶來食物而是把它烤了,因為這天是圣誕節(jié),做成了圣誕節(jié)火雞。
通過有限的觀察,得出自以為正確的規(guī)律性結(jié)論的,結(jié)局如是此。以這角度,我們?nèi)タ碅I/機器學(xué)習(xí)的應(yīng)用,也能看到很多類似的例子。
(資料圖片)
機器學(xué)習(xí)是研究怎樣使用計算機模擬或?qū)崿F(xiàn)人類學(xué)習(xí)活動的科學(xué),是基于一系列假設(shè)(基本的如,獨立同分布假設(shè))歸納得到經(jīng)驗,進行預(yù)測的過程。
也不可避免的,機器學(xué)習(xí)中也可能出現(xiàn)預(yù)測的數(shù)據(jù)與訓(xùn)練數(shù)據(jù)不滿足同分布,歷史數(shù)據(jù)經(jīng)驗不那么適用了!導(dǎo)致預(yù)測效果變差或失效的情況。這就類似我們考試的時候,發(fā)現(xiàn)這類型的題目我沒有見過,歇菜了...
一、什么是數(shù)據(jù)不滿足同分布實際預(yù)測與訓(xùn)練數(shù)據(jù)不滿足同分布的問題,也就是數(shù)據(jù)集偏移(Dataset shift),是機器學(xué)習(xí)一個很重要的問題。
從貝葉斯定理可得P(y,x) = P(y|x) * P(x) = P(x|y) * P(y),當(dāng)輸入空間的邊緣概率分布P(x) , 輸出空間的標簽分布P(y) 以及表示該機器學(xué)習(xí)任務(wù)的條件概率分布 P(y|x) 之中,有任一項因素發(fā)生偏移導(dǎo)致訓(xùn)練數(shù)據(jù)與預(yù)測數(shù)據(jù) P(y,x)造成差異,即為數(shù)據(jù)集偏移現(xiàn)象。
不同因素對應(yīng)著如下三種情況得數(shù)據(jù)偏移:
Covariate shift:協(xié)變量偏移(統(tǒng)計學(xué)中的協(xié)變量即機器學(xué)習(xí)中的特征的概念), 指的是輸入空間的邊緣概率分布P(x),也就輸入特征x分布變化導(dǎo)致的偏移。這個應(yīng)該是最為常見的,比如圖像識別任務(wù)中,訓(xùn)練時輸入的人臉圖像數(shù)據(jù)沒戴口罩,而預(yù)測的時候出現(xiàn)了很多戴口罩人臉的圖像。再如反欺詐識別中,實際預(yù)測欺詐用戶的欺詐行為發(fā)生升級改變,與訓(xùn)練數(shù)據(jù)的行為特征有差異的情況。
Prior probability shift:先驗偏移,指的是標簽分布P(Y) 差異導(dǎo)致的。比如反欺詐識別中,線上某段時間欺詐用戶的比例 對比 訓(xùn)練數(shù)據(jù) 突然變得很大的情況。
Concept shift:映射關(guān)系偏移,指P(y|x) 分布變化,也就是x-> y的映射關(guān)系發(fā)生變化。比如農(nóng)場的火雞,本來x是【 早上/農(nóng)夫/來到/雞舍】對應(yīng)著 y是【火雞被喂食】,但是圣誕節(jié)那天這層關(guān)系突然變了,x還是【 早上/農(nóng)夫/來到/雞舍】但對應(yīng)著 y是【火雞被烤了】..hah,留下心疼的口水..
二、為什么數(shù)據(jù)不滿足同分布可能導(dǎo)致數(shù)據(jù)不滿足同分布的兩個常見的原因是:
(1)樣本選擇偏差(Sample Selection Bias) :分布上的差異是由于訓(xùn)練數(shù)據(jù)是通過有偏見的方法獲得的。比如金融領(lǐng)域的信貸客群是通過某種渠道/規(guī)則獲得的,后面我們新增加營銷渠道獲客 或者 放寬了客戶準入規(guī)則。這樣就會直接導(dǎo)致實際客群樣本比歷史訓(xùn)練時點的客群樣本更加多樣了(分布差異)。
(2)不平穩(wěn)環(huán)境(Non-stationary Environments):由于時間上的或空間上的變化導(dǎo)致訓(xùn)練與測試環(huán)境不同。比如金融領(lǐng)域,預(yù)測用戶是否會償還貸款的任務(wù)。有一小類用戶在經(jīng)濟環(huán)境好的時候有能力償還債務(wù),但是由于疫情或其他的影響,宏觀經(jīng)濟環(huán)境不太景氣,如今就無法償還了。
三、如何檢測數(shù)據(jù)滿足同分布可能我們模型在訓(xùn)練、驗證及測試集表現(xiàn)都不錯,但一到OOT(時間外樣本)或者線上預(yù)測的時候,效果就掉下來了。這時我們就不能簡單說是模型復(fù)雜導(dǎo)致過擬合了,也有可能是預(yù)測數(shù)據(jù)的分布變化導(dǎo)致的效果變差。我們可以通過如下常用方式檢測數(shù)據(jù)分布有沒有變化:
3.1 統(tǒng)計指標的方法通過統(tǒng)計指標去檢測分布差異是很直接的,我們通常用群體穩(wěn)定性指標(Population Stability Index,PSI), 衡量未來的樣本(如測試集)及訓(xùn)練樣本評分的分布比例是否保持一致,以評估數(shù)據(jù)/模型的穩(wěn)定性(按照經(jīng)驗值,PSI<0.1分布差異是比較小的。)。同理,PSI也可以細化衡量特征值的分布差異,評估數(shù)據(jù)特征層面的穩(wěn)定性。PSI指標計算公式為 SUM(各分數(shù)段的 (實際占比 - 預(yù)期占比)* ln(實際占比 / 預(yù)期占比) ),介紹可見:指標。其他的方法如 KS檢驗,KDE (核密度估計)分布圖等方法可見參考鏈接[2]
3.2 異常(新穎)點檢測的方法可以通過訓(xùn)練數(shù)據(jù)集訓(xùn)練一個模型(如 oneclass-SVM),利用模型判定哪些數(shù)據(jù)樣本的不同于訓(xùn)練集分布(異常概率)。異常檢測方法可見:異常檢測算法速覽
3.3 分類的方法混合訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)(測試數(shù)據(jù)可得情況),將訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分別標注為’1‘和’0‘標簽,進行分類,若一個模型,可以以一個較好的精度將訓(xùn)練實例與測試實例區(qū)分開,說明訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的特征值分布有較大差異,存在協(xié)變量偏移。
相應(yīng)的對這個分類模型貢獻度比較高的特征,也就是分布偏差比較大的特征。分類較準確的樣本(簡單樣本)也就是分布偏差比較大的樣本。
四、如何解決數(shù)據(jù)不滿足同分布4.1 增加數(shù)據(jù)增加數(shù)據(jù)是王道,訓(xùn)練數(shù)據(jù)只要足夠大,什么場面沒見過,測試數(shù)據(jù)的效果自然也可以保證。
如上面的例子,作為一只農(nóng)場中的科學(xué)雞,如果觀察到完整周期、全場景的數(shù)據(jù),或者被灌輸一些先驗知識,就能更為準確預(yù)測火雞的命運。
但是現(xiàn)實情況可能多少比較無奈,可能業(yè)務(wù)場景的原因限制,并不一定可以搞得到更多數(shù)據(jù),諸如聯(lián)邦學(xué)習(xí)、數(shù)據(jù)增強等方法也是同樣的思路。
4.2 數(shù)據(jù)增強在現(xiàn)實情況沒法新增數(shù)據(jù)的時候,數(shù)據(jù)增強(Data Augmentation)是一個備選方案,在不實質(zhì)性的增加數(shù)據(jù)的情況下,從原始數(shù)據(jù)加工出更多的表示,提高原數(shù)據(jù)的數(shù)量及質(zhì)量,以接近于更多數(shù)據(jù)量產(chǎn)生的價值。
其原理是通過對原始數(shù)據(jù)融入先驗知識,加工出更多數(shù)據(jù)的表示,有助于模型判別數(shù)據(jù)中統(tǒng)計噪聲,加強本體特征的學(xué)習(xí),減少模型過擬合,提升泛化能力。具體可見:數(shù)據(jù)增強方法
4.3 選擇數(shù)據(jù)我們可以選擇和待預(yù)測樣本分布比較一致的數(shù)據(jù)做模型訓(xùn)練,使得在待預(yù)測樣本的效果變得更好。
這個方法看起來有點投機,這在一些數(shù)據(jù)波動大的數(shù)據(jù)競賽中很經(jīng)常出現(xiàn),直接用全量訓(xùn)練樣本的結(jié)果不一定會好,而我們更改下數(shù)據(jù)集劃分split的隨機種子(如暴力for循環(huán)遍歷一遍各個隨機種子的效果),或者 人工選擇與線上待預(yù)測樣本業(yè)務(wù)類型、 時間相近的樣本集用于訓(xùn)練模型(或者 提高這部分樣本的學(xué)習(xí)權(quán)重),線上數(shù)據(jù)的預(yù)測效果就提升了。
4.4 半監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)是介于傳統(tǒng)監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間,其思想是通過在模型訓(xùn)練中直接引入無標記樣本,以充分捕捉數(shù)據(jù)整體潛在分布,以改善如傳統(tǒng)無監(jiān)督學(xué)習(xí)過程盲目性、監(jiān)督學(xué)習(xí)在訓(xùn)練樣本不足導(dǎo)致的學(xué)習(xí)效果不佳的問題。
通過半監(jiān)督學(xué)習(xí),訓(xùn)練時候可以充分捕捉數(shù)據(jù)整體潛在分布,同理也可以緩解預(yù)測數(shù)據(jù)分布有差異的問題。半監(jiān)督分類常用的做法是,通過業(yè)務(wù)含義或者模型選擇出一些雖然無標簽的樣本,并打上大概率的某個標簽(偽標簽)加入到訓(xùn)練數(shù)據(jù)中,驗證待預(yù)測樣本的效果有沒有變好。
經(jīng)典的如金融信貸領(lǐng)域的拒絕推斷方法(參考鏈接[6]),我們可以從貸款被拒絕的用戶中(這部分用戶是貸款的時候直接被拒絕了,沒有"是否違約"的標簽),通過現(xiàn)有信貸違約模型(申請評分卡)預(yù)測這部分拒絕用戶的違約概率,并把模型認為大概率違約的用戶作為壞樣本加入到訓(xùn)練樣本中,以提升模型的泛化效果。
4.5 特征選擇對于常見的協(xié)變量偏移,用特征選擇是一個不錯的方法。我們可以分析各個特征在分布穩(wěn)定性(如PSI值)的情況,篩選掉分布差異比較大的特征。需要注意的是,這里適用的是篩掉特征重要性一般且穩(wěn)定性差的特征。如果重要特征的分布差距也很大,這就難搞了,還是回頭搞搞數(shù)據(jù)或者整整其他的強特征。特征選擇方法可見:python特征選擇
4.6 均衡學(xué)習(xí)均衡學(xué)習(xí)適用與標簽分布差異(先驗偏移)導(dǎo)致的數(shù)據(jù)集偏移。均衡學(xué)習(xí)的方法可以歸結(jié)為:通過某種方法,使得不同類別的樣本對于模型學(xué)習(xí)中的Loss(或梯度)貢獻是比較均衡的,以消除模型對不同類別的偏向性,學(xué)習(xí)到更為本質(zhì)的決策。
比如原反欺詐訓(xùn)練樣本中,好壞樣本的比例是1000:1,但到了預(yù)測,有時實際的好壞樣本的比例是10:1。這時如果沒有通過均衡學(xué)習(xí),直接從訓(xùn)練樣本學(xué)習(xí)到模型,會先天認為欺詐壞樣本的概率就是很低的,導(dǎo)致很多欺詐壞樣本的漏判。
不均衡的任務(wù)中,一方面可以通過代價敏感、采樣等方法做均衡學(xué)習(xí);另一方面也可以通過合適指標(如AUC),減少非均衡樣本的影響去判定模型的效果。具體可見:一文解決樣本不均衡(全)
最后,機器學(xué)習(xí)是一門注重實踐的科學(xué),在實踐中驗證效果,不斷探索原理。
僅以此文致敬我們的數(shù)據(jù)科學(xué)雞啊。
參考鏈接:
1、理解數(shù)據(jù)集偏移 https://zhuanlan.zhihu.com/p/449101154
2、訓(xùn)練/測試集分布不一致解法總結(jié)
3、訓(xùn)練集和測試集的分布差距太大有好的處理方法嗎 https://www.zhihu.com/question/265829982/answer/1770310534
4、訓(xùn)練集與測試集之間的數(shù)據(jù)偏移(dataset shift or drifting) https://zhuanlan.zhihu.com/p/304018288
5、數(shù)據(jù)集偏移&領(lǐng)域偏移 Dataset Shift&Domain Shift https://zhuanlan.zhihu.com/p/195704051
6、如何量化樣本偏差對信貸風(fēng)控模型的影響?https://zhuanlan.zhihu.com/p/350616539
-推薦閱讀-
深度學(xué)習(xí)系列
1、一文概覽神經(jīng)網(wǎng)絡(luò)模型2、一文搞定深度學(xué)習(xí)建模預(yù)測全流程(Python)3、一文弄懂CNN及圖像識別(Python)機器學(xué)習(xí)系列1、一文解決樣本不均衡(全)2、一文全覽機器學(xué)習(xí)建模流程(Python代碼)3、一文速覽機器學(xué)習(xí)的類別(Python代碼)...更多原創(chuàng)文章,請關(guān)注個人博客:https://github.com/aialgorithm/Blog關(guān)注【算法進階】領(lǐng)福利回復(fù)【課程】:即可免費領(lǐng)取Python、機器學(xué)習(xí)、AI 等精品課程資料大全回復(fù)【加群】:可提問咨詢、共享資源...與群內(nèi)伙伴一起交流,共同進步或掃碼,備注“加群”