बहु प्रतिगमन करते समय पिछड़ा उन्मूलन क्यों उचित है?


9

क्या यह ओवर-फिटिंग में परिणाम नहीं करता है? क्या मेरे परिणाम अधिक विश्वसनीय होंगे यदि मैंने विश्लेषण के एक भाग के रूप में जैक-चाकू या बूटस्ट्रैप प्रक्रिया को जोड़ा?


8
कौन कहता है कि यह उचित है? बेशक इसे ओवरफिट करना चाहिए।
गुंग - को पुनः स्थापित मोनिका

2
यह वास्तव में कई पुस्तकों (अभी भी?) में सुझाया गया है, उदाहरण के लिए amazon.com/Statistics-Explained-Introductory-Guide-Scientists/… । मैं खुद भी इसी मुद्दे पर सोच रहा हूं। मुझे लगता है कि मेरे पास कम से कम 3-4 आँकड़े वाली किताबें हैं जो कई प्रतिगमन को पेश करते समय ओवरफिटिंग मुद्दे पर चर्चा नहीं करती हैं।
mmh

5
ईमानदारी से, अगर एक परिचयात्मक आँकड़ा पुस्तक ओवरफिटिंग और परीक्षण से अधिक चर्चा नहीं करता है, तो मैं एक अलग पुस्तक पढ़ूंगा।
मैथ्यू ड्र्यू

3
बैकवर्ड एलिमिनेशन (और फॉरवर्ड सिलेक्शन) तब भी ओवर-फिट हो जाता है, जब लीव-वन-आउट क्रॉस-वैरिडेशन (जैसे PRESS) को फीचर सेलेक्शन मानदंड के रूप में उपयोग किया जाता है।
डिक्रान मार्सुपियल

5
@mmh काफी परिचयात्मक नहीं है, लेकिन मैं फ्रैंक हैरेल की प्रतिगमन मॉडलिंग रणनीतियों के अध्याय 4 को पढ़ने की अत्यधिक सलाह देता हूं (ठीक है, यह सिर्फ अध्याय 4 है जो पढ़ने लायक नहीं है, लेकिन यह हिस्सा विशेष रूप से इस चर्चा के लिए प्रासंगिक है)।
Glen_b -Reinstate मोनिका

जवाबों:


2

मुझे लगता है कि एक मॉडल बनाना और उसका परीक्षण करना अलग चीजें हैं। बैकवर्ड एलिमिनेशन मॉडल बिल्डिंग का हिस्सा है। जैक चाकू और बूटस्ट्रैप का उपयोग इसका परीक्षण करने के लिए अधिक किया जाता है।

आप निश्चित रूप से साधारण बैकवर्ड एलिमिनेशन की तुलना में बूटस्ट्रैप और जैक चाकू के साथ अधिक विश्वसनीय अनुमान लगा सकते हैं। लेकिन अगर आप वास्तव में ओवरफिटिंग का परीक्षण करना चाहते हैं, तो अंतिम परीक्षण एक विभाजन-नमूना है, कुछ पर ट्रेन करें, दूसरों पर परीक्षण करें। इस उद्देश्य के लिए छुट्टी-वन-आउट बहुत अस्थिर / अविश्वसनीय है: http://www.russpoldrack.org/2012/12/the-perils-of-leave-one-out.html

मुझे लगता है कि मॉडल की मजबूती के अधिक स्थिर अनुमान प्राप्त करने के लिए कम से कम 10% विषयों की आवश्यकता है। और यदि आपके पास 20 विषय हैं, तो 2 विषय अभी भी बहुत कम हैं। लेकिन फिर यह सवाल बन जाता है कि क्या आपके पास एक ऐसा मॉडल बनाने के लिए पर्याप्त बड़ा नमूना है जिसे बाकी आबादी पर लागू किया जा सकता है।

आशा है कि इसने आपके प्रश्न का उत्तर कम से कम भाग में दिया है।


तो कोई बस क्रॉस-सत्यापन का उपयोग कर सकता है <n (या <<n)?
mmh

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.