剪枝
在決策樹(shù)學(xué)習(xí)過(guò)程中,為了盡可能正確分類訓(xùn)練樣本,結(jié)點(diǎn)劃分過(guò)程將不斷重復(fù),有時(shí)會(huì)造成決策樹(shù)分支過(guò)多,從而把訓(xùn)練集自身的一些特點(diǎn)當(dāng)作所有數(shù)據(jù)都具有的一般性質(zhì),即出現(xiàn)過(guò)擬合。剪枝是主動(dòng)去掉一些分支來(lái)降低過(guò)擬合的風(fēng)險(xiǎn),是決策樹(shù)學(xué)習(xí)算法對(duì)付過(guò)擬合的主要手段。只有少量問(wèn)題有此類算法。
決策樹(shù)剪枝的基本策略有預(yù)剪枝(prepruning)和后剪枝(postpruning)。預(yù)剪枝是指在決策樹(shù)生成過(guò)程中,對(duì)每個(gè)結(jié)點(diǎn)在劃分前先進(jìn)行估計(jì),若當(dāng)前結(jié)點(diǎn)的劃分不能帶來(lái)決策樹(shù)泛化性能提升,則停止劃分并將當(dāng)前結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn)。后剪枝則是先從訓(xùn)練集生成一棵完整的決策樹(shù),然后自底向上地對(duì)非葉結(jié)點(diǎn)進(jìn)行考察,若將此結(jié)點(diǎn)對(duì)應(yīng)的子樹(shù)替換為葉結(jié)點(diǎn)能夠帶來(lái)決策樹(shù)泛化能力的提升,則將此樹(shù)替換為葉結(jié)點(diǎn)。常用的后剪枝策略包括:降低錯(cuò)誤剪枝(reduced error pruning,REP)、悲觀錯(cuò)誤剪枝(pessimistic error pruning,PEP)、基于錯(cuò)誤剪枝(error based pruning,EBP)、代價(jià)復(fù)雜度剪枝(cost complexity pruning,CCP)和最小錯(cuò)誤剪枝(minimum error pruning,MEP)等。
通常后剪枝決策樹(shù)比預(yù)剪枝決策樹(shù)保留更多的分支。在一般情形下,后剪枝決策樹(shù)的欠擬合風(fēng)險(xiǎn)很小,其泛化性能往往優(yōu)于預(yù)剪枝決策樹(shù)。但是,后剪枝過(guò)程是在生成完整決策樹(shù)之后進(jìn)行的,并且要自底向上地對(duì)樹(shù)中的所有非葉結(jié)點(diǎn)進(jìn)行逐一考察,因此其訓(xùn)練時(shí)間開(kāi)銷比未剪枝決策樹(shù)和預(yù)剪枝決策樹(shù)都要大得多。
免責(zé)聲明:本站詞條系由網(wǎng)友創(chuàng)建、編輯和維護(hù),內(nèi)容僅供參考。
以上內(nèi)容均為商業(yè)內(nèi)容展示,僅供參考,不具備專業(yè)問(wèn)題解決服務(wù),
如果您需要解決具體問(wèn)題(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域的專業(yè)人士。
如您發(fā)現(xiàn)詞條內(nèi)容涉嫌侵權(quán),請(qǐng)通過(guò) [email protected] 與我們聯(lián)系進(jìn)行刪除處理!

