रैंडम फ़ॉरेस्ट में, प्रत्येक पेड़ को डेटा के एक अद्वितीय बूस्टर नमूना के समानांतर में उगाया जाता है। क्योंकि प्रत्येक बूस्टअप सैंपल में लगभग 63% अनोखी टिप्पणियों के होने की उम्मीद है, यह लगभग 37% टिप्पणियों को छोड़ देता है, जिसका उपयोग पेड़ के परीक्षण के लिए किया जा सकता है।
अब, ऐसा लगता है कि स्टोचैस्टिक बूस्टिंग में, आरएफ में एक के समान एक अनुमान भी है:
अगर bag.fraction 0 से अधिक सेट किया गया है (0.5 की सिफारिश की गई है), gbm भविष्यवाणिय प्रदर्शन में सुधार के एक आउट-ऑफ-बैग अनुमान की गणना करता है। यह उन प्रतिगमन पर कमी का मूल्यांकन करता है जो अगले प्रतिगमन पेड़ का चयन करने में उपयोग नहीं किए जाते हैं।
स्रोत: रिडवे (2007) , खंड 3.3 (पृष्ठ 8)।
मुझे यह समझने में परेशानी है कि यह कैसे काम करता है / वैध है। कहो कि मैं अनुक्रम में एक पेड़ जोड़ रहा हूं। मैं मूल डेटा सेट के यादृच्छिक सदस्यता पर इस पेड़ को बढ़ा रहा हूं। मैं इस एकल पेड़ को उन टिप्पणियों पर परीक्षण कर सकता था जो इसे विकसित करने के लिए उपयोग नहीं किए गए थे। माना। लेकिन , चूंकि बूस्टिंग अनुक्रमिक है, इसलिए मैं उन पेड़ों के पूरे अनुक्रम का उपयोग कर रहा हूं जो उन वाम-टिप्पणियों के लिए एक भविष्यवाणी प्रदान करते हैं। और, इस बात की अधिक संभावना है कि पूर्ववर्ती पेड़ों में से कई ने पहले से ही इन टिप्पणियों को देखा है। तो मॉडल वास्तव में आरएफ के साथ अनदेखी टिप्पणियों पर प्रत्येक दौर में परीक्षण नहीं किया जा रहा है, है ना?
तो, यह कैसे "आउट-ऑफ-बैग" त्रुटि अनुमान कहा जाता है? मेरे लिए, यह किसी भी बैग का "आउट" प्रतीत नहीं होता है क्योंकि टिप्पणियों को पहले ही देखा जा चुका है?