प्रतिगमन मॉडल निर्दिष्ट करने के लिए आप डेटा-आधारित मानदंड का उपयोग कब कर सकते हैं?


20

मैंने सुना है कि जब कई प्रतिगमन मॉडल विनिर्देशों (कहते हैं, ओएलएस में) को एक डेटासेट के लिए संभावनाओं के रूप में माना जाता है, इससे कई तुलनात्मक समस्याएं होती हैं और पी-मान और आत्मविश्वास अंतराल अब विश्वसनीय नहीं हैं। इसका एक चरम उदाहरण स्टेप वाइज रिग्रेशन है।

मॉडल को निर्दिष्ट करने में सहायता के लिए मैं स्वयं डेटा का उपयोग कब कर सकता हूं और यह कब मान्य दृष्टिकोण नहीं है? क्या आपको मॉडल बनाने के लिए हमेशा विषय-आधारित सिद्धांत की आवश्यकता होती है?

जवाबों:


9

परिवर्तनीय चयन तकनीक, सामान्य रूप से (चाहे स्टेप वाइज, बैकवर्ड, फॉरवर्ड, सभी सबसैट, एआईसी, आदि), नमूना डेटा में मौका या यादृच्छिक पैटर्न को कैपिटल करें जो आबादी में मौजूद नहीं हैं। इसके लिए तकनीकी शब्द अति-फिटिंग है और यह विशेष रूप से छोटे डेटासेट के साथ समस्याग्रस्त है, हालांकि यह उनके लिए अनन्य नहीं है। एक प्रक्रिया का उपयोग करके जो सबसे उपयुक्त फिट के आधार पर चर का चयन करता है, इस विशेष नमूने में फिट होने वाले यादृच्छिक बदलाव के सभी अनुमानों और मानक त्रुटियों में योगदान करते हैं। यह मॉडल की भविष्यवाणी और व्याख्या दोनों के लिए एक समस्या है ।

विशेष रूप से, r-squared बहुत अधिक है और पैरामीटर अनुमान पक्षपाती हैं (वे 0 से बहुत दूर हैं), मापदंडों के लिए मानक त्रुटियां बहुत छोटी हैं (और इस तरह पी-मान और मापदंडों के आसपास अंतराल बहुत छोटा / संकीर्ण हैं)।

इन समस्याओं के खिलाफ रक्षा की सबसे अच्छी रेखा मॉडल का निर्माण सोच-समझकर करना और भविष्यवक्ताओं को शामिल करना है जो सिद्धांत, तर्क और पिछले ज्ञान के आधार पर समझ में आता है। यदि एक चर चयन प्रक्रिया आवश्यक है, तो आपको एक ऐसी विधि का चयन करना चाहिए जो पैरामीटर अनुमानों (सिकुड़न विधियों) को दंडित करता है ताकि मापदंडों और मानक त्रुटियों को ओवर-फिटिंग के लिए समायोजित कर सकें। कुछ सामान्य संकोचन विधियाँ रिज रिग्रेशन, लिस्ट एंगल रिग्रेशन या लसो हैं। इसके अलावा, एक प्रशिक्षण डाटासेट और एक परीक्षण डेटासेट या मॉडल-औसत का उपयोग करके क्रॉस-वैरिफिकेशन ओवर-फिटिंग के प्रभावों का परीक्षण या कम करने के लिए उपयोगी हो सकता है।

इन समस्याओं की विस्तृत चर्चा के लिए हरेल एक महान स्रोत है। हैरेल (2001)। "प्रतिगमन मॉडलिंग रणनीतियाँ।"


स्वीकार करते हुए, एक लंबे समय के बाद! तकनीकी मुद्दों के इस विस्तृत अवलोकन के लिए धन्यवाद, और मैं हरेल की पुस्तक पर एक नज़र डालूंगा।
स्टेटसिपोर्ट्स

7

सामाजिक विज्ञान के संदर्भ में, जहां से मैं आता हूं, मुद्दा यह है कि क्या आप एक केंद्रित शोध प्रश्न का परीक्षण (ए) भविष्यवाणी या (बी) में रुचि रखते हैं। यदि उद्देश्य भविष्यवाणी है तो डेटा संचालित दृष्टिकोण उपयुक्त हैं। यदि उद्देश्य एक केंद्रित शोध प्रश्न की जांच करना है तो यह विचार करना महत्वपूर्ण है कि कौन सा प्रतिगमन मॉडल विशेष रूप से आपके प्रश्न का परीक्षण करता है।

उदाहरण के लिए, यदि आपका कार्य नौकरी के प्रदर्शन की भविष्यवाणी करने के लिए चयन परीक्षणों के एक सेट का चयन करना था, तो लक्ष्य को कुछ अर्थों में नौकरी के प्रदर्शन की अधिकतम भविष्यवाणी के रूप में देखा जा सकता है। इस प्रकार, डेटा संचालित दृष्टिकोण उपयोगी होगा।

इसके विपरीत यदि आप प्रदर्शन को प्रभावित करने में व्यक्तित्व चर और क्षमता चर की सापेक्ष भूमिका को समझना चाहते थे, तो एक विशिष्ट मॉडल तुलना दृष्टिकोण अधिक उपयुक्त हो सकता है।

आमतौर पर जब फोकस्ड शोध प्रश्नों की खोज करते हैं, तो उद्देश्य अंतर्निहित अंतर्निहित प्रक्रियाओं के बारे में कुछ स्पष्ट करना होता है जो एक मॉडल को इष्टतम भविष्यवाणी के साथ विकसित करने का विरोध कर रहे हैं।

जब मैं क्रॉस-सेक्शनल डेटा के आधार पर प्रक्रिया के बारे में मॉडल विकसित करने की प्रक्रिया में हूं तो मैं इस बारे में सावधान रहूंगा: (ए) भविष्यवाणियों सहित सैद्धांतिक रूप से परिणाम चर के परिणामों के बारे में सोचा जा सकता है। उदाहरण के लिए, एक व्यक्ति का मानना ​​है कि वे एक अच्छे कलाकार हैं, नौकरी के प्रदर्शन का एक अच्छा भविष्यवक्ता है, लेकिन यह संभावना है कि यह कम से कम आंशिक रूप से इस तथ्य के कारण है कि उन्होंने अपने स्वयं के प्रदर्शन को देखा है। (बी) भविष्यवक्ताओं की एक बड़ी संख्या सहित, जो एक ही अंतर्निहित घटना के सभी परावर्तक हैं। उदाहरण के लिए, 20 वस्तुओं सहित सभी अलग-अलग तरीकों से जीवन के साथ संतुष्टि को मापते हैं।

इस प्रकार, केंद्रित अनुसंधान प्रश्न डोमेन विशिष्ट ज्ञान पर बहुत अधिक भरोसा करते हैं। संभवतः यह समझाने का कोई तरीका है कि सामाजिक विज्ञान में डेटा संचालित दृष्टिकोण कम बार क्यों उपयोग किए जाते हैं।


4

मुझे नहीं लगता कि प्रतिगमन में चर चयन के लिए समायोजित करने के लिए बोनफरोनी या इसी तरह के सुधार करना संभव है क्योंकि मॉडल चयन में शामिल सभी परीक्षण और चरण स्वतंत्र नहीं हैं।

एक दृष्टिकोण डेटा के एक सेट का उपयोग करके मॉडल तैयार करना है, और डेटा के एक अलग सेट पर निष्कर्ष निकालना है। यह हर समय पूर्वानुमान में किया जाता है जहां हमारे पास एक प्रशिक्षण सेट और एक परीक्षण सेट होता है। यह अन्य क्षेत्रों में बहुत आम नहीं है, शायद इसलिए कि डेटा इतने कीमती हैं कि हम मॉडल चयन और अनुमान के लिए हर एक अवलोकन का उपयोग करना चाहते हैं। हालाँकि, जैसा कि आप अपने प्रश्न में ध्यान देते हैं, नकारात्मक पक्ष यह है कि वास्तव में अनुमान भ्रामक है।

ऐसी कई स्थितियाँ हैं जहाँ एक सिद्धांत-आधारित दृष्टिकोण असंभव है क्योंकि अच्छी तरह से विकसित सिद्धांत नहीं है। वास्तव में, मुझे लगता है कि यह उन मामलों की तुलना में बहुत अधिक सामान्य है जहां सिद्धांत एक मॉडल का सुझाव देता है।


4

रिचर्ड बर्क के पास एक हालिया लेख है जहां वह ऐसे डेटा स्नूपिंग और सांख्यिकीय निष्कर्ष की समस्याओं के अनुकरण के माध्यम से प्रदर्शित करता है। जैसा कि रोब ने सुझाव दिया है कि यह केवल कई परिकल्पना परीक्षणों के लिए सही होने की तुलना में अधिक समस्याग्रस्त है।

मॉडल चयन के बाद सांख्यिकीय निष्कर्ष : रिचर्ड बर्क, लॉरेंस ब्राउन, लिंडा झाओ जर्नल ऑफ क्वांटिटेटिव क्रिमिनोलॉजी, वॉल्यूम। 26, नंबर 2. (1 जून 2010), पीपी 217-236।

यहाँ पीडीएफ संस्करण


(+1) लिंक के लिए धन्यवाद! आप इस संबंधित प्रश्न में रुचि रख सकते हैं, आँकड़े.स्टैकएक्सचेंज . com/ questions/ 3200 / । बेझिझक योगदान दें।
chl

@chl, मुझे नहीं लगता कि मैं उस प्रश्न के लिए पहले से ही उत्कृष्ट उत्तरों में कुछ भी जोड़ सकता हूं। मुझे लगता है कि ब्रेंडन की प्रतिक्रिया बहुत ही मार्मिक है क्योंकि मुझे संदेह है कि मूल पोस्टर वास्तव में कारण के संदर्भ में दिलचस्पी रखता है, केवल सवाल के संदर्भ के आधार पर भविष्यवाणी नहीं।
एंडी डब्ल्यू

हां, मैं उसका जवाब सोच रहा था। मैंने डेटा ड्रेजिंग इश्यू (मॉडल / वैरिएबल सेलेक्शन इश्यूज या कारण के बारे में बिल्कुल नहीं) पर एक विचार-विमर्श शुरू किया है, लेकिन अभी तक कुछ प्रतिक्रियाएँ नहीं मिली हैं। यदि आप अपने स्वयं के विचारों को जोड़ना चाहते हैं, तो यह दिलचस्प होगा: आंकड़े.stackexchange.com/questions/3252/…
chl

2

यदि मैं आपके प्रश्न को सही समझता हूँ, तो आपकी समस्या के उत्तर की परिकल्पना की संख्या के अनुसार पी-मान को सही करना है।

उदाहरण के लिए, होल्म-बोन्फेरोनी सुधार, जहाँ आप परिकल्पना (= आपके विभिन्न मॉडल) को उनके p- मान के आधार पर क्रमबद्ध करते हैं और एपी समेलर के साथ उन लोगों को अस्वीकार करते हैं (इच्छित पी-मूल्य / सूचकांक)।

विषय के बारे में अधिक विकिपीडिया पर पाया जा सकता है


1
आप एक अलग प्रश्न के इस उत्तर को पढ़ना चाहते हैं और देख सकते हैं कि इस तरह से पी-मानों को समायोजित करना सबसे अच्छा समाधान क्यों नहीं हो सकता है, 14.
एंडी डब्ल्यू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.