क्या उच्चतम सटीकता प्राप्त करने के लिए यादृच्छिक वन प्रतिगमन में एक बीज निर्धारित करना 'उचित' है?


11

मेरे पास एक यादृच्छिक वन प्रतिगमन है जो कि skl का उपयोग करके बनाया गया है और मैं ध्यान देता हूं कि मैं अलग-अलग मूल्यों को यादृच्छिक बीज सेट करने के आधार पर अलग-अलग परिणाम देता हूं।

अगर मैं यह जानने के लिए LOOCV का उपयोग करता हूं कि कौन सा बीज सबसे अच्छा काम करता है, तो क्या यह एक वैध तरीका है?


1
लोग प्रतियोगिताओं में ऐसा करते हैं। हालांकि शिक्षा के लिए जो औचित्यपूर्ण होगा।
फायरबग

2
एक चरम स्थिति के बारे में सोचें: हम एक खेल खेलते हैं: हम दो डाइस रोल करते हैं और हम में से जो उच्च राशि जीतता है। लेकिन वास्तव में मुझे दो बार पासा पलटने की अनुमति है। क्या यह उचित है आप? मुझे यह बताना चाहिए कि यादृच्छिक बीजों को स्थापित करना प्रजनन योग्य अनुसंधान का एक अभिन्न अंग है और इसे हमेशा किया जाना चाहिए । इसका मतलब यह नहीं है कि हमें "अनुकूल बीज" खोजने तक कई अलग-अलग बीजों की कोशिश करनी चाहिए।
us --r11852

@ us @r11852 वर्तमान में स्वीकृत उत्तर पर मेरी टिप्पणी से आप क्या समझते हैं? मुझे यकीन नहीं है अगर यह किमी के साथ यादृच्छिक पुनरारंभ की तुलना में किसी भी अलग है। किसी को नहीं लगता है कि हमें इसके पहले रन को स्वीकार करने के लिए मजबूर किया जाना चाहिए जो हम करते हैं, इस बिंदु पर कि यादृच्छिक पुनरारंभ आर में मानक फ़ंक्शन के लिए बनाया गया है। जब तक कि आप मॉडल को मॉडल के बजाय 100 किमी तक चलने का विचार करते हैं।
जेएलडी

नहीं-यह वास्तविक यादृच्छिकता पर ओवरफिटिंग की बहुत परिभाषा की तरह लगता है।
मार्क व्हाइट

@ कॉनकोन: मैं उचित सत्यापन की आवश्यकता के बारे में आपकी बात का पूरा समर्थन करता हूं। मैंने कहा कि मुझे लगता है कि दो उपयोग-मामलों में एक मुख्य अंतर है: के-मीन्स (या सामान्य रूप से स्टोकेस्टिक अनुकूलन) के मामले में हम मापदंडों के "इष्टतम सेट" की तलाश करते हैं जबकि सीवी के लिए हम "प्रतिनिधि सेट" की देखभाल करते हैं। "। शुरुआती मामले में हम यह दिखाने का प्रयास करते हैं कि "हम कितने अच्छे हो सकते हैं" जबकि बाद के मामले में "हम कितने अच्छे होंगे"।
us --r11852

जवाबों:


11

जवाब है नहीं

आपका मॉडल आपके द्वारा उपयोग किए जाने वाले प्रत्येक बीज के लिए एक अलग परिणाम देता है। यह मॉडल के गैर-निर्धारक प्रकृति का परिणाम है। एक विशिष्ट बीज का चयन करके जो सत्यापन सेट पर प्रदर्शन को अधिकतम करता है इसका मतलब है कि आपने "व्यवस्था" को चुना है जो इस सेट को सबसे अच्छी तरह से फिट करता है। हालांकि, यह गारंटी नहीं देता है कि इस बीज वाला मॉडल एक अलग परीक्षण सेट पर बेहतर प्रदर्शन करेगा । इसका सीधा सा अर्थ है कि आपने सत्यापन सेट पर मॉडल को ओवरफिट कर दिया है ।

यह प्रभाव वह कारण है जो आप कई लोगों को देखते हैं जो सार्वजनिक परीक्षण सेट पर प्रतियोगिताओं (जैसे कग्गल) में उच्च रैंक करते हैं, छिपे हुए परीक्षण सेट पर गिर जाते हैं। इस दृष्टिकोण को किसी भी तरह से सही दृष्टिकोण नहीं माना जाता है।


4
हां, यही कारण है कि क्रॉस-वैलिडेशन इतनी मजबूत तकनीक है और यह भी कि लोग एक सत्यापन और एक परीक्षण सेट (मॉडल चयन को आधार बनाने के लिए और एक निष्पक्ष मूल्यांकन प्राप्त करने के लिए) का उपयोग करते हैं।
जिब २०११

1
मैं आश्वस्त नहीं हूं। Nonconvex अनुकूलन के साथ यादृच्छिक पुनरारंभ करना नियमित है क्योंकि विभिन्न बीजों से बहुत अलग मॉडल पैरामीटर अनुमान हो सकते हैं और बस दुर्भाग्य से आप खराब अभिसरण प्राप्त कर सकते हैं। उदाहरण के लिए किमी के साथ यह अच्छी तरह से जाना जाता है। यादृच्छिक वन के साथ बस संयोग से हो सकता है कि आपका मॉडल बहुत अधिक सबपर स्प्लिट बनाता है। मुझे नहीं लगता कि यह मानने के लिए उपयुक्त शोर है कि विभिन्न रन अलग मॉडल पैरामीटर अनुमानों को जन्म देते हैं और कुछ वास्तव में दूसरों की तुलना में बेहतर कर सकते हैं। यह सभी नमूना प्रदर्शन से ठीक से आकलन करने पर निश्चित रूप से वातानुकूलित है।
बड़ी

5
@ user2723494 यह सामान्यीकरण की लागत के बिना प्रदर्शन बढ़ाने की उम्मीद में हाइपर-मापदंडों के लिए मान्य है। हालाँकि, सत्यापन सेट पर बार-बार मापदंडों को ठीक करने से मेरे द्वारा वर्णित एक ही प्रभाव उत्पन्न होगा (सत्यापन सेट पर ओवरफिटिंग)। क्योंकि यादृच्छिक बोने अपनी प्रकृति स्टोकेस्टिक कर रहा है यह है अब तक अधिक कारण कारण से overfitting वास्तव में एक बेहतर मॉडल का उत्पादन किया है करने के लिए करने के लिए प्रदर्शन में सुधार की संभावना है।
Djib2011

4
@ चोंचने से मैंने यह नहीं कहा कि यह असंभव था। हालांकि इस प्रक्रिया से यह एक बीज का चयन करने की संभावना अधिक है जो एक से अधिक
ओवरफिट

4
ईमानदार होने के लिए, मैंने कभी भी एमएल एल्गोरिदम को सीडिंग नहीं किया है (और उन्हें अपने स्टोचस्टिक प्रकृति से वंचित करना) एक अच्छा अभ्यास है। ओपी ने एक नया सवाल बनाया जिसमें यह पूछा गया। मुझे आपकी प्रतिक्रिया पढ़ने में दिलचस्पी होगी!
Djib2011
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.