नोट: जबकि मुझे लगता है कि मेरा उत्तर शायद सही है, मुझे इस तथ्य के कारण भी संदेह है कि मैंने इस समस्या के बारे में 30-60 मिनट तक इस प्रश्न को पढ़ने के बाद ही इस समस्या के बारे में सोचकर यह सब बनाया। इसलिए आप बेहतर तरीके से संदेह करते हैं और इसकी छानबीन करते हैं और मेरी संभवतः अति विश्वासपूर्ण लेखन शैली से मूर्ख नहीं बनते हैं (मुझे बड़े शब्दों और फैंसी ग्रीक प्रतीकों का उपयोग करने का मतलब यह नहीं है कि मैं सही हूं)।
सारांश
यह सिर्फ एक सारांश है। सभी विवरण वर्गों में उल्लेख कर रहे हैं और नीचे।§1§2
चलो वर्गीकरण के मामले को मानते हैं (प्रतिगमन के लिए भी बढ़ाया जा सकता है, लेकिन संक्षिप्तता के लिए छोड़ दें)। अनिवार्य रूप से, हमारा लक्ष्य पेड़ों के जंगल की त्रुटि का अनुमान लगाना है। आउट-ऑफ-बैग त्रुटि और के-फोल्ड क्रॉस-सत्यापन दोनों हमें यह बताने की कोशिश करते हैं कि:
- जंगल सही वर्गीकरण देता है (k- गुना क्रॉस-वैधीकरण इसे इस तरह से देखता है)।
जो कि संभावना के समान है:
- जंगल के पेड़ों का बहुमत वोट सही वोट है (OOBE इसे इस तरह से देखता है)।
और दोनों समान हैं। अंतर केवल इतना है कि के-फोल्ड क्रॉस-वैरिफिकेशन और ओओबीई विभिन्न प्रकार के लर्निंग सैंपल ग्रहण करते हैं। उदाहरण के लिए:
- 10-गुना क्रॉस-सत्यापन में, सीखने का सेट 90% है, जबकि परीक्षण सेट 10% है।
- हालाँकि, OOBE में यदि प्रत्येक बैग में नमूने हैं, जैसे कि पूरे नमूनों में नमूनों की कुल संख्या, तो इसका अर्थ है कि सीखने का सेट व्यावहारिक रूप से लगभग 66% (दो तिहाई) है और परीक्षण सेट लगभग 33% है ( एक तिहाई)।nn=
इसलिए मेरे विचार में ओओबीई वन की त्रुटि का केवल एक निर्णायक अनुमान है, क्योंकि यह आम तौर पर के-गुना क्रॉस-सत्यापन (जहां 10 तह आम है) के साथ आमतौर पर किए गए नमूनों की एक छोटी संख्या से प्रशिक्षित होता है।
उसके कारण, मुझे यह भी लगता है कि 2 गुना क्रॉस-सत्यापन ओओबीई की तुलना में वन की त्रुटि का अधिक निराशावादी अनुमान है, और ओओबीई के लिए लगभग समान निराशावादी होने के लिए 3-गुना क्रॉस-सत्यापन है।
1. आउट-ऑफ-बैग त्रुटि को समझना
1.1 बैगिंग पर आम दृश्य
RF में प्रत्येक पेड़ को नमूनों की एक सूची द्वारा उगाया जाता है जो कि प्रतिस्थापन के साथ सीखने के सेट से यादृच्छिक रूप से खींचे जाते हैं । इस तरह, कई नमूनों में डुप्लिकेट हो सकते हैं, और यदितो यह पाया जा सकता है में नमूने के लगभग एक 3 अंत में की सूची में नहीं किया जा रहा की संभावना है नमूने है कि किसी दिए गए पेड़ (विकसित करने के लिए उपयोग किया जाता है इन बाहर के बैग के नमूने हैं यह विशिष्ट पेड़ है। यह प्रक्रिया प्रत्येक पेड़ के लिए स्वतंत्र रूप से दोहराई जाती है, इसलिए प्रत्येक पेड़ में अलग-अलग नमूनों का एक अलग सेट होता है।nXnn=|X|Xn
1.2। बैगिंग पर एक और दृश्य
अब, चलो एक समान विवरण खोजने की उम्मीद के साथ थोड़ा अलग तरीके से फिर से वर्णन करते हैं जो कि निपटने के लिए उम्मीद से सरल है।
मैं यह कहकर करता हूं कि ट्री को सेट किए गए नमूनों द्वारा सेट किया गया है सेट । हालाँकि, यह बिल्कुल सही नहीं है क्योंकि सेट में डुप्लिकेट किए गए नमूने नहीं हैं (यह इस तरह काम करता है), जबकि दूसरे हाथ में- नमूनों की सूची में डुप्लिकेट हो सकते हैं।tXt⊆XXtn
इसलिए, हम यह कह सकते हैं कि एक पेड़ को नमूनों विश्लेषण द्वारा उगाया जाता है और कई संख्याओं में यादृच्छिक रूप से चुने गए डुप्लिकेट्स को , अर्थात् से खींचा जाता है। , ऐसा:
tXt XtXt,1,Xt,2,…,Xt,r⊆Xt
|Xt|+∑i=1r|Xt,i|=n
यह देखना तुच्छ है कि सेट के इस संग्रह से , हम की एक सूची परिभाषित कर सकते हैं बस प्रत्येक सेट में तत्वों जोड़कर -कई नमूने डुप्लिकेट वाले एक सरणी के लिए । इस तरह, किसी के लिए , वहाँ कम से कम एक मूल्य मौजूद है ऐसा है कि ।C={Xt,Xt,1,…,Xt,r}nCi∈Ca1≤p≤nia[p]∈Ci
हम यह भी देख सकते हैं कि की सूची सरणी में नमूने जीतना का सामान्यीकरण है के रूप में मैं धारा 1 में परिभाषित यह देखने के लिए कि के कुछ विशिष्ट परिभाषा के लिए मामूली बात है है कि मैं इस खंड में परिभाषित किया है ( ), सरणी में नमूनों की सूची बिल्कुल हो सकता है समान रूप धारा 1 में परिभाषित नमूनों की सूची में।naXt§2a
1.3। सरलीकरण बैगिंग
सरणी में नमूनों द्वारा बढ़ते पेड़ बजाय , हम उन्हें उन उदाहरणों की डुप्लीकेशन-मुक्त सूची द्वारा विकसित करेंगे, जो केवल में पाए जाते हैं ।taXt
मेरा मानना है कि, यदि काफी बड़ा है, तो एक ट्री जिसे में नमूनों का विश्लेषण करके उगाया जाता है, वह दूसरे ट्री समान है जो कि सरणी में नमूनों से उगाया जाता ।ntXtt′a
मेरा कारण यह है कि, में नमूनों की नकल की संभावना समान सेट में अन्य नमूनों में समान रूप से होने की संभावना है। इसका मतलब यह है कि, जब हम कुछ विभाजन के सूचना लाभ (आईजी) को मापते हैं, तो आईजी समान रहेगा क्योंकि एन्ट्रोपियां भी समान रहेंगी।Xt
और मेरा मानना है कि एन्ट्रापी किसी दिए गए विभाजन के लिए व्यवस्थित रूप से नहीं बदलेगी, क्योंकि कुछ उप-सेट में एक विशिष्ट लेबल वाले नमूने के अनुभवजन्य रूप से मापा जाने की संभावना (निर्णय विभाजन को लागू करने के बाद) भी नहीं बदलेगी।
और मेरे विचार में संभावनाएं नहीं बदलनी चाहिए कारण यह है कि सभी समान रूप से प्रतियों में दोहराए जाने की संभावना है ।Xtd
1.4 आउट-ऑफ-बैग त्रुटियों को मापना
Let ट्री के आउट-ऑफ-बैग नमूने हो । Ie । फिर एकल ट्री की त्रुटि है:
और साथ जंगल की कुल त्रुटि कई पेड़ है:
जो हो सकता है अनुभवजन्य रूप से मापा जाने की संभावना के रूप में सोचा गया कि एक जंगल में सभी पेड़ों का बहुमत वोट एक सही वोट है ।OttOt=X∖Xtt
total x in Ot correctly classified by t|Ot|
nt∑ntt=1total x in Ot correctly classified by t∑ntt=1|Ot|
2. के-गुना क्रॉस-वेलिडेशन को समझना
सबसे पहले हम सीखने के सेट को कई समान-आकार वाले विभाजन अर्थात् । Ie , और किसी भी , (यह वह है जो का अर्थ है)।XnkK={K1,K2,…,Knk}K1∪K2∪…∪Knk=XKi,Kj∈KKi∩Kj=∅
Let परीक्षण तह हो, और तह सीखने का सेट हो।KtK∖{Kt}
चलो कुछ पेड़ का उपयोग कर बनाया गया है की एक जंगल हो सीखने सेट के रूप में।fK∖{Kt}
फिर, वन की k- गुना क्रॉस-मान्यता है:
Σ n कश्मीर टी = 1 कुल एक्स में कश्मीर टी सही ढंग से वर्गीकृत चf
∑nkt=1total x in Kt correctly classified by f∑nkt=1|Kt|
यह भी संभावना है कि वन किसी भी इनपुट नमूने को सही ढंग से वर्गीकृत करता है।f