थैला त्रुटि से बाहर यादृच्छिक जंगलों में सीवी अनावश्यक बनाता है?


15

मैं यादृच्छिक जंगलों के लिए काफी नया हूं। अतीत में, मैंने हमेशा किसी भी ओवरफिटिंग का पता लगाने के लिए फिट बनाम ट्रेन के खिलाफ फिट बनाम टेस्ट की सटीकता की तुलना की है। लेकिन मैंने अभी यहाँ पढ़ा है कि:

"यादृच्छिक जंगलों में, परीक्षण सेट त्रुटि का निष्पक्ष अनुमान प्राप्त करने के लिए क्रॉस-मान्यता या एक अलग परीक्षण सेट की आवश्यकता नहीं है। यह रन के दौरान आंतरिक रूप से अनुमानित है ..."

उपरोक्त छोटे पैराग्राफ को आउट-ऑफ-बैग (ओब) त्रुटि अनुमान अनुभाग के तहत पाया जा सकता है । यह आउट ऑफ बैग एरर कॉन्सेप्ट मेरे लिए पूरी तरह से नया है और थोड़ा भ्रमित करना यह है कि मेरे मॉडल में OOB त्रुटि 35% (या 65% सटीकता) कैसे है, लेकिन फिर भी, अगर मैं अपने डेटा पर क्रॉस सत्यापन लागू करता हूं (सिर्फ एक साधारण होल्डआउट) विधि) और फिट बनाम ट्रेन के खिलाफ दोनों फिट बनाम परीक्षण की तुलना करें मुझे क्रमशः 65% सटीकता और 96% सटीकता प्राप्त होती है। मेरे अनुभव में, यह ओवरफिटिंग माना जाता है, लेकिन ओओबी मेरे फिट बनाम टेस्ट त्रुटि की तरह 35% त्रुटि रखता है । क्या मैं ओवरफिट कर रहा हूं? क्या मुझे बेतरतीब जंगलों में ओवरफिटिंग की जांच के लिए क्रॉस वैरिफिकेशन का भी इस्तेमाल करना चाहिए?

संक्षेप में, मुझे यकीन नहीं है कि क्या मुझे परीक्षण सेट त्रुटि की निष्पक्ष त्रुटि प्राप्त करने के लिए ओओबी पर भरोसा करना चाहिए जब मेरी फिट बनाम ट्रेन इंगित करती है कि मैं ओवरफिट कर रहा हूं!


OOB का उपयोग हाइपर-मापदंडों के निर्धारण के लिए किया जा सकता है। मेरे अलावा, मेरे लिए, किसी मॉडल के प्रदर्शन का अनुमान लगाने के लिए, किसी को क्रॉस-मान्यता का उपयोग करना चाहिए।
16

@ मेटमैटिका जब आप हाइपर-मापदंडों के बारे में बात करते हैं तो आप वास्तव में किस बारे में बात कर रहे हैं? विषय में मेरे ज्ञान की कमी के लिए खेद है
jgozal

पेड़ों की संख्या और प्रत्येक पुनरावृत्ति में बेतरतीब ढंग से चुनी गई विशेषताओं का
मेटेरियट

मुझे यह एक पूरी तरह से अलग सवाल पता है लेकिन आप एक त्रुटि से प्रत्येक पुनरावृत्ति पर पेड़ों की संख्या और सुविधाओं के नमूने का निर्धारण कैसे करते हैं?
jgozal

1
हो सकता है कि यह मदद कर सकता है: आंकड़े . stackexchange.com/a/112052/78313 सामान्य तौर पर मैंने आरएफ में ऐसा अंतर कभी नहीं देखा है!
मेटारियट

जवाबों:


21
  • प्रशिक्षण त्रुटि (के रूप में predict(model, data=train)) आम तौर पर बेकार है। जब तक आप (गैर-मानक) पेड़ों की छंटाई नहीं करते हैं, यह एल्गोरिथ्म के डिजाइन से बहुत ऊपर नहीं हो सकता है । बेतरतीब जंगल निर्णय पेड़ों के बूटस्ट्रैप एकत्रीकरण का उपयोग करते हैं, जिन्हें बुरी तरह से ओवरफिट माना जाता है। यह 1-निकटतम-पड़ोसी क्लासिफायर के लिए प्रशिक्षण त्रुटि की तरह है।

  • हालाँकि, एल्गोरिथ्म आउट-ऑफ-बैग त्रुटि अनुमान की गणना करने का एक बहुत ही सुंदर तरीका प्रदान करता है जो अनिवार्य रूप से कुल मॉडल के त्रुटि का एक बूटस्ट्रैप अनुमान है)। आउट-ऑफ-द-बैग त्रुटि भविष्यवाणियों को एकत्र करने के लिए अनुमानित त्रुटि है1 पेड़ों के कुछ अंश जो उस विशेष मामले के बिना प्रशिक्षित किए गए थे।
    आउट-ऑफ-बैग त्रुटि के लिए एकत्र किए गए मॉडल केवल स्वतंत्र होंगे, अगर इनपुट डेटा पंक्तियों के बीच कोई निर्भरता नहीं है। प्रत्येक पंक्ति = एक स्वतंत्र मामला, कोई पदानुक्रमित डेटा संरचना / कोई क्लस्टरिंग / कोई दोहराया माप नहीं।

    तो आउट-ऑफ-द-बैग त्रुटि बिल्कुल वैसी ही नहीं है (क्रॉस एग्रीगेशन त्रुटि के रूप में एकत्रीकरण के लिए कम पेड़, अधिक प्रशिक्षण मामले प्रतियां), लेकिन व्यावहारिक उद्देश्यों के लिए यह काफी करीब है।

  • ओवरफिटिंग का पता लगाने के लिए देखने के लिए क्या समझदारी होगी, बाहरी सत्यापन के साथ आउट-ऑफ-बैग त्रुटि की तुलना करना। हालांकि, जब तक आप अपने डेटा में क्लस्टरिंग के बारे में नहीं जानते हैं, एक "सरल" क्रॉस सत्यापन त्रुटि एक ही आशावादी पूर्वाग्रह से ग्रस्त हो जाएगी, क्योंकि आउट-ऑफ-बैग त्रुटि: विभाजन बहुत समान सिद्धांतों के अनुसार किया जाता है।
    आपको इसका पता लगाने के लिए एक अच्छी तरह से डिज़ाइन किए गए परीक्षण प्रयोग के लिए त्रुटि के साथ आउट-ऑफ-बैग या क्रॉस सत्यापन की तुलना करने की आवश्यकता होगी।


11

आउट-ऑफ-बैग त्रुटि उपयोगी है, और अन्य प्रदर्शन आकलन प्रोटोकॉल (जैसे क्रॉस-मान्यता) की जगह ले सकती है, लेकिन देखभाल के साथ उपयोग किया जाना चाहिए।

क्रॉस-मान्यता की तरह, आउट-ऑफ-बैग नमूनों का उपयोग करने वाले प्रदर्शन का आकलन उन आंकड़ों का उपयोग करके किया जाता है जो सीखने के लिए उपयोग नहीं किए गए थे। यदि डेटा को एक तरह से संसाधित किया गया है जो नमूनों में जानकारी स्थानांतरित करता है, तो अनुमान (शायद) पक्षपाती होगा। सरल उदाहरण जो दिमाग में आते हैं वे फीचर चयन या लापता मूल्य प्रतिरूपण कर रहे हैं। दोनों मामलों में (और विशेष रूप से सुविधा चयन के लिए) डेटा पूरे डेटा सेट से जानकारी का उपयोग करके रूपांतरित किया जाता है, अनुमान को पूर्वाग्रहित करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.