यादृच्छिक वन का मूल्यांकन करें: OOB बनाम CV


13

जब हम एक यादृच्छिक वन की गुणवत्ता का आकलन करते हैं, उदाहरण के लिए एयूसी का उपयोग करते हुए, क्या इन मात्राओं को आउट ऑफ बैग नमूने पर या क्रॉस सत्यापन के होल्ड आउट पर गणना करना अधिक उपयुक्त है?

मैंने सुना है कि OOB नमूनों पर इसकी गणना करने से अधिक निराशावादी मूल्यांकन मिलता है, लेकिन मुझे ऐसा क्यों नहीं दिखता।

जवाबों:


12

नोट: जबकि मुझे लगता है कि मेरा उत्तर शायद सही है, मुझे इस तथ्य के कारण भी संदेह है कि मैंने इस समस्या के बारे में 30-60 मिनट तक इस प्रश्न को पढ़ने के बाद ही इस समस्या के बारे में सोचकर यह सब बनाया। इसलिए आप बेहतर तरीके से संदेह करते हैं और इसकी छानबीन करते हैं और मेरी संभवतः अति विश्वासपूर्ण लेखन शैली से मूर्ख नहीं बनते हैं (मुझे बड़े शब्दों और फैंसी ग्रीक प्रतीकों का उपयोग करने का मतलब यह नहीं है कि मैं सही हूं)।

सारांश

यह सिर्फ एक सारांश है। सभी विवरण वर्गों में उल्लेख कर रहे हैं और नीचे।§1§2

चलो वर्गीकरण के मामले को मानते हैं (प्रतिगमन के लिए भी बढ़ाया जा सकता है, लेकिन संक्षिप्तता के लिए छोड़ दें)। अनिवार्य रूप से, हमारा लक्ष्य पेड़ों के जंगल की त्रुटि का अनुमान लगाना है। आउट-ऑफ-बैग त्रुटि और के-फोल्ड क्रॉस-सत्यापन दोनों हमें यह बताने की कोशिश करते हैं कि:

  • जंगल सही वर्गीकरण देता है (k- गुना क्रॉस-वैधीकरण इसे इस तरह से देखता है)।

जो कि संभावना के समान है:

  • जंगल के पेड़ों का बहुमत वोट सही वोट है (OOBE इसे इस तरह से देखता है)।

और दोनों समान हैं। अंतर केवल इतना है कि के-फोल्ड क्रॉस-वैरिफिकेशन और ओओबीई विभिन्न प्रकार के लर्निंग सैंपल ग्रहण करते हैं। उदाहरण के लिए:

  • 10-गुना क्रॉस-सत्यापन में, सीखने का सेट 90% है, जबकि परीक्षण सेट 10% है।
  • हालाँकि, OOBE में यदि प्रत्येक बैग में नमूने हैं, जैसे कि पूरे नमूनों में नमूनों की कुल संख्या, तो इसका अर्थ है कि सीखने का सेट व्यावहारिक रूप से लगभग 66% (दो तिहाई) है और परीक्षण सेट लगभग 33% है ( एक तिहाई)।nn=

इसलिए मेरे विचार में ओओबीई वन की त्रुटि का केवल एक निर्णायक अनुमान है, क्योंकि यह आम तौर पर के-गुना क्रॉस-सत्यापन (जहां 10 तह आम है) के साथ आमतौर पर किए गए नमूनों की एक छोटी संख्या से प्रशिक्षित होता है।

उसके कारण, मुझे यह भी लगता है कि 2 गुना क्रॉस-सत्यापन ओओबीई की तुलना में वन की त्रुटि का अधिक निराशावादी अनुमान है, और ओओबीई के लिए लगभग समान निराशावादी होने के लिए 3-गुना क्रॉस-सत्यापन है।

1. आउट-ऑफ-बैग त्रुटि को समझना

1.1 बैगिंग पर आम दृश्य

RF में प्रत्येक पेड़ को नमूनों की एक सूची द्वारा उगाया जाता है जो कि प्रतिस्थापन के साथ सीखने के सेट से यादृच्छिक रूप से खींचे जाते हैं । इस तरह, कई नमूनों में डुप्लिकेट हो सकते हैं, और यदितो यह पाया जा सकता है में नमूने के लगभग एक 3 अंत में की सूची में नहीं किया जा रहा की संभावना है नमूने है कि किसी दिए गए पेड़ (विकसित करने के लिए उपयोग किया जाता है इन बाहर के बैग के नमूने हैं यह विशिष्ट पेड़ है। यह प्रक्रिया प्रत्येक पेड़ के लिए स्वतंत्र रूप से दोहराई जाती है, इसलिए प्रत्येक पेड़ में अलग-अलग नमूनों का एक अलग सेट होता है।nXnn=|X|Xn

1.2। बैगिंग पर एक और दृश्य

अब, चलो एक समान विवरण खोजने की उम्मीद के साथ थोड़ा अलग तरीके से फिर से वर्णन करते हैं जो कि निपटने के लिए उम्मीद से सरल है।

मैं यह कहकर करता हूं कि ट्री को सेट किए गए नमूनों द्वारा सेट किया गया है सेट । हालाँकि, यह बिल्कुल सही नहीं है क्योंकि सेट में डुप्लिकेट किए गए नमूने नहीं हैं (यह इस तरह काम करता है), जबकि दूसरे हाथ में- नमूनों की सूची में डुप्लिकेट हो सकते हैं।tXtXXtn

इसलिए, हम यह कह सकते हैं कि एक पेड़ को नमूनों विश्लेषण द्वारा उगाया जाता है और कई संख्याओं में यादृच्छिक रूप से चुने गए डुप्लिकेट्स को , अर्थात् से खींचा जाता है। , ऐसा: tXt XtXt,1,Xt,2,,Xt,rXt

|Xt|+i=1r|Xt,i|=n

यह देखना तुच्छ है कि सेट के इस संग्रह से , हम की एक सूची परिभाषित कर सकते हैं बस प्रत्येक सेट में तत्वों जोड़कर -कई नमूने डुप्लिकेट वाले एक सरणी के लिए । इस तरह, किसी के लिए , वहाँ कम से कम एक मूल्य मौजूद है ऐसा है कि ।C={Xt,Xt,1,,Xt,r}nCiCa1pnia[p]Ci

हम यह भी देख सकते हैं कि की सूची सरणी में नमूने जीतना का सामान्यीकरण है के रूप में मैं धारा 1 में परिभाषित यह देखने के लिए कि के कुछ विशिष्ट परिभाषा के लिए मामूली बात है है कि मैं इस खंड में परिभाषित किया है ( ), सरणी में नमूनों की सूची बिल्कुल हो सकता है समान रूप धारा 1 में परिभाषित नमूनों की सूची में।naXt§2a

1.3। सरलीकरण बैगिंग

सरणी में नमूनों द्वारा बढ़ते पेड़ बजाय , हम उन्हें उन उदाहरणों की डुप्लीकेशन-मुक्त सूची द्वारा विकसित करेंगे, जो केवल में पाए जाते हैं ।taXt

मेरा मानना ​​है कि, यदि काफी बड़ा है, तो एक ट्री जिसे में नमूनों का विश्लेषण करके उगाया जाता है, वह दूसरे ट्री समान है जो कि सरणी में नमूनों से उगाया जाता ।ntXtta

मेरा कारण यह है कि, में नमूनों की नकल की संभावना समान सेट में अन्य नमूनों में समान रूप से होने की संभावना है। इसका मतलब यह है कि, जब हम कुछ विभाजन के सूचना लाभ (आईजी) को मापते हैं, तो आईजी समान रहेगा क्योंकि एन्ट्रोपियां भी समान रहेंगी।Xt

और मेरा मानना ​​है कि एन्ट्रापी किसी दिए गए विभाजन के लिए व्यवस्थित रूप से नहीं बदलेगी, क्योंकि कुछ उप-सेट में एक विशिष्ट लेबल वाले नमूने के अनुभवजन्य रूप से मापा जाने की संभावना (निर्णय विभाजन को लागू करने के बाद) भी नहीं बदलेगी।

और मेरे विचार में संभावनाएं नहीं बदलनी चाहिए कारण यह है कि सभी समान रूप से प्रतियों में दोहराए जाने की संभावना है ।Xtd

1.4 आउट-ऑफ-बैग त्रुटियों को मापना

Let ट्री के आउट-ऑफ-बैग नमूने हो । Ie । फिर एकल ट्री की त्रुटि है: और साथ जंगल की कुल त्रुटि कई पेड़ है: जो हो सकता है अनुभवजन्य रूप से मापा जाने की संभावना के रूप में सोचा गया कि एक जंगल में सभी पेड़ों का बहुमत वोट एक सही वोट हैOttOt=XXtt

total x in Ot correctly classified by t|Ot|
nt
t=1nttotal x in Ot correctly classified by tt=1nt|Ot|

2. के-गुना क्रॉस-वेलिडेशन को समझना

सबसे पहले हम सीखने के सेट को कई समान-आकार वाले विभाजन अर्थात् । Ie , और किसी भी , (यह वह है जो का अर्थ है)।XnkK={K1,K2,,Knk}K1K2Knk=XKi,KjKKiKj=

Let परीक्षण तह हो, और तह सीखने का सेट हो।KtK{Kt}

चलो कुछ पेड़ का उपयोग कर बनाया गया है की एक जंगल हो सीखने सेट के रूप में।fK{Kt}

फिर, वन की k- गुना क्रॉस-मान्यता है: Σ n कश्मीर टी = 1 कुल  एक्स  में  कश्मीर टी  सही ढंग से वर्गीकृत  f

t=1nktotal x in Kt correctly classified by ft=1nk|Kt|

यह भी संभावना है कि वन किसी भी इनपुट नमूने को सही ढंग से वर्गीकृत करता है।f

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.