overfitting पर टैग किए गए जवाब

चर के बीच प्रतिरूपनीय और सूचनात्मक रिश्तों के बजाय मॉडलिंग त्रुटि (विशेष रूप से नमूनाकरण त्रुटि) मॉडल फिट आंकड़ों में सुधार करती है, लेकिन पार्सिमनी को कम करती है, और व्याख्यात्मक और पूर्वानुमानात्मक वैधता को बिगड़ती है।

1
ओवरफिटिंग के लिए गणितीय / एल्गोरिथमिक परिभाषा
क्या ओवरफिटिंग की एक गणितीय या एल्गोरिथम परिभाषा है? अक्सर प्रदान की जाने वाली परिभाषाएं हर एक बिंदु के माध्यम से जाने वाली रेखा के साथ अंक की क्लासिक 2-डी साजिश हैं और सत्यापन हानि वक्र अचानक ऊपर जा रही हैं। लेकिन क्या कोई गणितीय रूप से कठोर परिभाषा है?

3
क्या क्रॉस-वैरिफिकेशन ओवरफिटिंग को रोकने के लिए पर्याप्त है?
यदि मेरे पास कोई डेटा है, और मैं क्रॉस सत्यापन के साथ एक वर्गीकरण (इस डेटा पर यादृच्छिक जंगल कहता हूं) (चलो 5-सिलवटों को कहते हैं) चलाते हैं, तो क्या मैं यह निष्कर्ष निकाल सकता हूं कि मेरी विधि में कोई फिटिंग नहीं है?

1
क्या कागले का निजी लीडरबोर्ड विजेता मॉडल के आउट-ऑफ-सैंपल प्रदर्शन का एक अच्छा भविष्यवक्ता है?
हालांकि निजी परीक्षण सेट के परिणामों का उपयोग मॉडल को और अधिक परिष्कृत करने के लिए नहीं किया जा सकता है, लेकिन क्या मॉडल का चयन निजी परीक्षण सेट परिणामों के आधार पर नहीं किया जा रहा है? क्या आप अकेले उस प्रक्रिया के माध्यम से, निजी परीक्षण सेट पर …

1
सांख्यिकीय शिक्षण सिद्धांत में, एक परीक्षण सेट पर ओवरफ़िटिंग की समस्या नहीं है?
आइए MNIST डेटासेट को वर्गीकृत करने के बारे में समस्या पर विचार करें। Yann LeCun के MNIST वेबपेज के अनुसार , 'Ciresan et al।' कन्वेंशनल न्यूरल नेटवर्क का उपयोग करके MNIST टेस्ट सेट पर 0.23% त्रुटि दर मिली। मान लें कि MNIST प्रशिक्षण सेट को , MNIST परीक्षण सेट रूप …

2
यादृच्छिक जंगलों के लिए रिपोर्ट करने के लिए प्रशिक्षण त्रुटि का क्या उपाय है?
मैं वर्तमान randomForestमें आर में पैकेज का उपयोग करके एक वर्गीकरण समस्या के लिए यादृच्छिक जंगलों को फिट कर रहा हूं , और इन मॉडलों के लिए प्रशिक्षण त्रुटि की रिपोर्ट करने के तरीके के बारे में अनिश्चित हूं । मेरी प्रशिक्षण त्रुटि 0% के करीब है जब मैं इसे …

2
मिश्रित मॉडलों में विलक्षण फिट के साथ काम करना
मान लीजिए कि हमारे पास एक मॉडल है mod <- Y ~ X*Condition + (X*Condition|subject) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random …

2
थैला त्रुटि से बाहर यादृच्छिक जंगलों में सीवी अनावश्यक बनाता है?
मैं यादृच्छिक जंगलों के लिए काफी नया हूं। अतीत में, मैंने हमेशा किसी भी ओवरफिटिंग का पता लगाने के लिए फिट बनाम ट्रेन के खिलाफ फिट बनाम टेस्ट की सटीकता की तुलना की है। लेकिन मैंने अभी यहाँ पढ़ा है कि: "यादृच्छिक जंगलों में, परीक्षण सेट त्रुटि का निष्पक्ष अनुमान …

2
अनुकूलन: आंकड़ों में सभी बुराई की जड़?
मैंने पहले अभिव्यक्ति को सुना है: "आँकड़ों में अनुकूलन सभी बुराई की जड़ है"। उदाहरण के लिए, इस धागे में शीर्ष उत्तर मॉडल चयन के दौरान बहुत अधिक आक्रामक तरीके से अनुकूलन के खतरे के संदर्भ में यह बयान देता है। मेरा पहला प्रश्न निम्नलिखित है: क्या यह उद्धरण विशेष …

3
एक प्रतिगमन मॉडल अधिक फिट होने पर कैसे पता लगाया जाए?
जब आप काम कर रहे होते हैं, तो आप जो कर रहे होते हैं, उसके बारे में जागरूक होने के नाते जब आप मॉडल को ओवर-फिट कर लेते हैं, तो यह समझ विकसित होती है। एक बात के लिए, आप मॉडल के समायोजित आर स्क्वायर में प्रवृत्ति या गिरावट को …

1
ट्रेन बनाम टेस्ट त्रुटि गैप और इसके संबंध को ओवरफिट करने के लिए: परस्पर विरोधी सलाह को पुनः प्राप्त करना
ट्रेन बनाम टेस्ट त्रुटि की तुलना करने के तरीके के बारे में वहाँ परस्पर विरोधी सलाह दी जा रही है, विशेषकर तब जब दोनों के बीच अंतर हो। मुझे लगता है कि संघर्ष के लिए विचार के दो स्कूल प्रतीत होते हैं। मैं समझने की कोशिश कर रहा हूं कि …

2
प्रशिक्षण / सत्यापन / परीक्षण सेट के संदर्भ में के-गुना क्रॉस सत्यापन कैसे फिट होता है?
मेरा मुख्य प्रश्न यह समझने की कोशिश करना है कि प्रशिक्षण / सत्यापन / परीक्षण सेट (यदि यह इस तरह के संदर्भ में बिल्कुल फिट बैठता है) के संदर्भ में k- गुना क्रॉस-वैलिडेशन कैसे फिट बैठता है। आमतौर पर, लोग डेटा को एक प्रशिक्षण, सत्यापन और परीक्षण सेट में विभाजित …

2
क्या सहसंबंधित इनपुट डेटा तंत्रिका नेटवर्क के साथ ओवरफिटिंग को जन्म देता है?
मेरी राय में सहसंबंधित इनपुट डेटा को तंत्रिका नेटवर्क में ओवरफिटिंग की ओर ले जाना चाहिए क्योंकि नेटवर्क डेटा में सहसंबंध जैसे शोर सीखता है। क्या ये सही है?

1
छोटे डेटासेट पर LSTM के ओवरफिटिंग को रोकना
मैं 80 परतों के साथ एक word2vec जैसे प्रतिनिधित्व का उपयोग करते हुए 128 छिपी इकाइयों के साथ एक परत LSTM का उपयोग कर भावना भविष्यवाणी के लिए 15000 ट्वीट्स मॉडलिंग कर रहा हूं। मुझे 1 युग के बाद एक वंश सटीकता (यादृच्छिक = 20% के साथ 38%) मिलती है। …

3
बायेसियन बनाम MLE, ओवरफिटिंग समस्या
बिशप की पीआरएमएल पुस्तक में, वह कहते हैं कि, ओवरफिटिंग अधिकतम संभावना अनुमान (एमएलई) के साथ एक समस्या है, और बेयसियन इससे बच सकते हैं। लेकिन मुझे लगता है, ओवरफिटिंग मॉडल चयन के बारे में अधिक समस्या है, पैरामीटर अनुमान करने के लिए इस्तेमाल की जाने वाली विधि के बारे …

3
क्या सिद्धांत, फिट या कुछ और के आधार पर वितरण का चयन करना बेहतर है?
यह एक दार्शनिक प्रश्न पर आधारित है, लेकिन मुझे इस बात में दिलचस्पी है कि वितरण अनुभव के बारे में अधिक अनुभव वाले अन्य लोग कैसे सोचते हैं। कुछ मामलों में यह स्पष्ट लगता है कि सिद्धांत सबसे अच्छा काम कर सकता है (चूहों की पूंछ की लंबाई संभवतः सामान्य …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.