[संपादित 21.7.15 8:31 AM CEST]
मुझे लगता है कि आपने वर्गीकरण के लिए आरएफ का उपयोग किया था। क्योंकि इस मामले में, एल्गोरिथ्म केवल एक ही लक्ष्य वर्ग के शुद्ध टर्मिनल नोड्स के साथ पूरी तरह से विकसित पेड़ पैदा करता है।
predict(model, data=X_train)
कोडिंग की यह रेखा एक कुत्ते की तरह है [~ 66%] अपनी पूंछ। किसी भी प्रशिक्षण नमूने की भविष्यवाणी स्वयं प्रशिक्षण नमूने की श्रेणी है। यदि प्रति नोड 5 या उससे कम नमूने हैं या यदि नोड शुद्ध है तो प्रतिगमन आरएफ के लिए। यहां भविष्यवाणी त्रुटि छोटी होगी, लेकिन 0% नहीं।
मशीन लर्निंग में हम अक्सर बड़ी परिकल्पना के साथ काम करते हैं। इसका मतलब यह है कि हमारे प्रशिक्षण सेट की डेटा संरचना के लिए हमेशा बहुत कुछ गलत नहीं होगा परिकल्पना / स्पष्टीकरण / मॉडल। शास्त्रीय आंकड़ों में परिकल्पना स्थान अक्सर छोटा होता है और इसलिए प्रत्यक्ष मॉडल-फिट कुछ ग्रहण किए गए प्रायिकता सिद्धांत के अनुसार जानकारीपूर्ण है। मशीन लर्निंग में मॉडल के पूर्वाग्रह से संबंधित सीधा-सीधा फिट बैठता है । पूर्वाग्रह मॉडल की "अनम्यता" है। ऐसा नहीं होतावैसे भी सामान्यीकरण शक्ति (नई घटनाओं की भविष्यवाणी करने की क्षमता) का एक अनुमान प्रदान करते हैं। एल्गोरिदमिक मॉडल के लिए क्रॉस-वैलिडेशन लगभग सामान्यीकरण शक्ति का सबसे अच्छा उपकरण है, क्योंकि कोई सिद्धांत तैयार नहीं किया गया है। हालांकि, यदि स्वतंत्र नमूना लेने की मॉडल धारणा विफल हो जाती है, तो मॉडल किसी भी तरह बेकार हो सकता है, भले ही एक अच्छी तरह से निष्पादित क्रॉस-सत्यापन का सुझाव दिया गया हो। अंत में, सबसे मजबूत प्रमाण विभिन्न मूल के एक नंबर बाह्य परीक्षण-सेट की संतोषजनक भविष्यवाणी करना है।
सीवी पर वापस: आउट-ऑफ-बैग अक्सर एक स्वीकृत प्रकार का सीवी होता है। मैं व्यक्तिगत रूप से कहूंगा कि OOB-CV 5-गुना-CV के समान परिणाम प्रदान करता है, लेकिन यह एक बहुत छोटा उपद्रव है। यदि तुलना करने के लिए आइए आरएफ को एसवीएम से कहें, तो ओओबी-सीवी उपयोगी नहीं है क्योंकि हम एसवीएम को बैग करने से बचेंगे। इसके बजाय, SVM और RF दोनों को समान क्रॉस-वैरिफिकेशन स्कीम में एम्बेड किया जाएगा, जैसे प्रत्येक दोहराने के लिए मिलान विभाजन के साथ 10-गुना 10-दोहराएं। इंजीनियरिंग के किसी भी कदम को अक्सर क्रॉस-वैलिड करने की आवश्यकता होगी। यदि चीजों को साफ रखने के लिए संपूर्ण डेटा पाइप-लाइन को सीवी में एम्बेड किया जा सकता है।
यदि आप अपने मॉडल को अपने टेस्ट-सेट (या क्रॉस-वैलिडेशन) के साथ ट्यून करते हैं, तो आप फिर से अपनी परिकल्पना का स्थान बना रहे हैं और मान्य भविष्यवाणी का प्रदर्शन अधिक आशावादी है। इसके बजाय आपको ट्यून करने के लिए कैलिब्रेशन-सेट (या कैलिब्रेशन सीवी-लूप) की आवश्यकता होगी और आपके अंतिम इष्टतम मॉडल का आकलन करने के लिए एक परीक्षण सत्यापन सेट (या सत्यापन सीवी-लूप) होगा।
चरम अर्थ में, आपका सत्यापन स्कोर तभी निष्पक्ष होगा, जब आप इस परिणाम पर कार्य करेंगे, जब आप इसे देखेंगे। यह मान्यता का विरोधाभास है, क्यों हम एक ज्ञान प्राप्त करेंगे जो केवल सच है यदि आप इस पर कार्य नहीं करते हैं। व्यवहार में समुदाय स्वेच्छा से कुछ प्रकाशन पूर्वाग्रह को स्वीकार करता है, जहां उन शोधकर्ताओं को जिन्हें यादृच्छिक पर अधिक-आशावादी सत्यापन मिला है, उन लोगों की तुलना में प्रकाशित करने की अधिक संभावना है, जो बिना किसी अति-निराशावादी मान्यता के अच्छे हैं। इसलिए कभी-कभी क्यों दूसरों के मॉडल को पुन: पेश नहीं किया जा सकता है।