मैं यादृच्छिक जंगलों के लिए काफी नया हूं। अतीत में, मैंने हमेशा किसी भी ओवरफिटिंग का पता लगाने के लिए फिट बनाम ट्रेन के खिलाफ फिट बनाम टेस्ट की सटीकता की तुलना की है। लेकिन मैंने अभी यहाँ पढ़ा है कि:
"यादृच्छिक जंगलों में, परीक्षण सेट त्रुटि का निष्पक्ष अनुमान प्राप्त करने के लिए क्रॉस-मान्यता या एक अलग परीक्षण सेट की आवश्यकता नहीं है। यह रन के दौरान आंतरिक रूप से अनुमानित है ..."
उपरोक्त छोटे पैराग्राफ को आउट-ऑफ-बैग (ओब) त्रुटि अनुमान अनुभाग के तहत पाया जा सकता है । यह आउट ऑफ बैग एरर कॉन्सेप्ट मेरे लिए पूरी तरह से नया है और थोड़ा भ्रमित करना यह है कि मेरे मॉडल में OOB त्रुटि 35% (या 65% सटीकता) कैसे है, लेकिन फिर भी, अगर मैं अपने डेटा पर क्रॉस सत्यापन लागू करता हूं (सिर्फ एक साधारण होल्डआउट) विधि) और फिट बनाम ट्रेन के खिलाफ दोनों फिट बनाम परीक्षण की तुलना करें मुझे क्रमशः 65% सटीकता और 96% सटीकता प्राप्त होती है। मेरे अनुभव में, यह ओवरफिटिंग माना जाता है, लेकिन ओओबी मेरे फिट बनाम टेस्ट त्रुटि की तरह 35% त्रुटि रखता है । क्या मैं ओवरफिट कर रहा हूं? क्या मुझे बेतरतीब जंगलों में ओवरफिटिंग की जांच के लिए क्रॉस वैरिफिकेशन का भी इस्तेमाल करना चाहिए?
संक्षेप में, मुझे यकीन नहीं है कि क्या मुझे परीक्षण सेट त्रुटि की निष्पक्ष त्रुटि प्राप्त करने के लिए ओओबी पर भरोसा करना चाहिए जब मेरी फिट बनाम ट्रेन इंगित करती है कि मैं ओवरफिट कर रहा हूं!