कोई व्यक्ति रैखिक प्रतिगमन में अवरोधन को क्यों दबाएगा?


20

एसएएस, एसपीएसएस और शायद अधिक सहित कई सांख्यिकीय पैकेजों में, "अवरोधन को दबाने" का विकल्प है। आप ऐसा क्यों करना चाहते हो?

जवाबों:


16

यदि किसी कारण से आप अवरोधन जानते हैं (विशेषकर यदि यह शून्य है), तो आप अपने पहले से ही कुछ जानने के लिए अपने डेटा में विचरण को बर्बाद करने से बच सकते हैं, और उन मूल्यों पर अधिक विश्वास करना होगा जिनका आपको अनुमान लगाना है।

कुछ हद तक इसका एक बड़ा उदाहरण यह है कि यदि आप पहले से ही जानते हैं (डोमेन ज्ञान से) कि एक चर (औसतन) एक दूसरे का एक से अधिक है, और आप उस एकाधिक को खोजने की कोशिश कर रहे हैं।


मुझे यह पूरी तरह से समझ में नहीं आता है, लेकिन एक मॉडल में मैं आर में बना रहा हूं, मेरे पास एलएम (एक ~ बी / सी - 1) जैसा कुछ है जो बी और सी के बीच बातचीत बनाता है, और इंटरसेप्ट को दबाकर ("- 1") आर में), मुझे और अधिक आसानी से व्याख्या करने योग्य उत्तर मिलते हैं जो अनिवार्य रूप से समान होते हैं जैसे कि मैं अवरोधन को दबाता नहीं हूं। किसी तरह, बातचीत यह संभव बनाता है।
वेन

अधिक आसानी से व्याख्या योग्य उत्तर जो अनिवार्य रूप से समान हैं? यह एक विरोधाभास प्रतीत होता है। शायद आपको इसे एक नए प्रश्न के रूप में पेश करना चाहिए?
निक सब्बे

यदि मैं गुणांकों को देखता हूं, तो अवरोधन के साथ एक (इंटरसेप्ट) और एक टेम्परवर्मर (मेरा एक चर अस्थायी है जो गर्म या ठंडा हो सकता है )। गुणांकों की व्याख्या करने के लिए, मुझे यह जानना होगा कि (अवरोधन) सीधे tempcooler से मेल खाता है और tempwarmer + (अवरोधन) सीधे-व्याख्या करने वाला tempwarmer है । यदि मैं इंटरसेप्ट को दबाता हूं, तो मैं सीधे टेम्पकपूलर और टेम्परेमर देखता हूं । शायद आर के फॉर्मूले और लीनियर मॉडलिंग का एक उद्धरण, लेकिन ...
वेन

12

3-स्तरीय श्रेणीबद्ध कोवरिएट के मामले पर विचार करें। यदि किसी के पास अवरोधन है, तो उसे 2 संकेतक चर की आवश्यकता होगी। सूचक चर के लिए सामान्य कोडिंग का उपयोग करते हुए, संदर्भ समूह की तुलना में या तो सूचक चर के लिए गुणांक अंतर अंतर है। इंटरसेप्ट को दबाने से, आपके पास सिर्फ़ 2 के बजाय, श्रेणीबद्ध सहसंयोजक का प्रतिनिधित्व करने वाले 3 चर होंगे, एक गुणांक उस समूह के लिए औसत अनुमान है। ऐसा करने का एक और ठोस उदाहरण राजनीतिक विज्ञान में है जहां एक संयुक्त राज्य अमेरिका के 50 राज्यों का अध्ययन कर सकता है। राज्यों के लिए एक इंटरसेप्ट और 49 इंडिकेटर वैरिएबल होने के बजाय, अक्सर इंटरसेप्ट को दबाने के लिए बेहतर होता है और इसके बदले में 50 वैरिएबल होते हैं।


बहुत आसान गुणांक व्याख्या करने के लिए इस तरह से
probabilityislogic

1
हां, लेकिन यह दो या अधिक श्रेणीबद्ध चर के साथ टूट जाता है!
kjetil b halvorsen

2

एक विशिष्ट उदाहरण के साथ @Nick सब्बे बिंदु को स्पष्ट करने के लिए।

मैंने एक बार एक शोधकर्ता को पेड़ की उम्र का एक मॉडल उसकी चौड़ाई के कार्य के रूप में प्रस्तुत करते हुए देखा। यह माना जा सकता है कि जब पेड़ शून्य पर होता है, तो प्रभावी रूप से इसकी चौड़ाई शून्य होती है। इस प्रकार, एक अवरोधन की आवश्यकता नहीं है।


8
ज्ञान या अभाव उसके हित के निर्भर चर की सीमा पर निर्भर करता है। कार ब्रेकिंग डेटा पर विचार करें जहां आपके पास गति है और दूरी को रोकना है। आप अवरोधन के साथ या उसके बिना एक द्विघात मॉडल फिट कर सकते हैं। ब्याज की गति आमतौर पर लगभग 50 किमी / घंटा से शुरू होती है और 130 किमी / घंटा तक कहती है। इस मामले में इंटरसेप्ट के साथ द्विघात का सामना करना अधिक समझ में आता है, मुझे लगता है कि अवरोधन को शून्य करने के लिए मजबूर कर सकते हैं (व्यावहारिक रूप से) महत्वपूर्ण अभाव- युक्त समस्याएं। तथ्य यह है कि एक रुकी हुई कार की "ब्रेकिंग दूरी" शून्य है जो हाथ में मॉडलिंग की समस्या के लिए विशेष रूप से प्रासंगिक नहीं है।
कार्डिनल

@ कार्डिनल हाँ मैं सोच रहा था कि क्या मुझे एक समान बिंदु बनाना चाहिए। मैंने कुछ नॉनलाइन रिग्रेशन मॉडलिंग संदर्भों में पाया है कि एक मॉडल होने में अधिक रुचि है जो एक सैद्धांतिक रूप से प्रशंसनीय मॉडल प्रदान करता है जो डेटा की सीमा के बाहर सटीक रूप से भविष्यवाणी करता है (उदाहरण के लिए, वक्र डेटा गति सीखने में, मॉडल को अपनी सेकंड के नीचे गति की भविष्यवाणी नहीं करनी चाहिए। )। ऐसे मामलों में शून्य पर अवरोध उत्पन्न करना अधिक उपयुक्त हो सकता है, भले ही यह डेटा के लिए भविष्यवाणी में गिरावट का कारण हो।
जेरोमे एंग्लीम

@ कार्डिनल I सहमत बहुपद मॉडल शायद ही कभी डेटा की सीमा के बाहर होने का अनुमान लगाते हैं, और इस तरह ऐसे मॉडल में 0 को अवरोध उत्पन्न करना शायद ही कभी एक अच्छा विचार है।
जेरोमे एंग्लीम

आपकी टिप्पणियों के लिए आभार। मेरी टिप्पणी बहुपत्नी मॉडल के लिए बहुत अधिक लक्षित नहीं थी। एक द्विघात का विकल्प केवल वास्तविक भौतिक प्रेरणा (यानी, शास्त्रीय यांत्रिकी) पर आधारित था। जिस बिंदु को मैं स्पष्ट करने की कोशिश कर रहा था वह यह था कि किसी को ब्याज की मॉडलिंग समस्या पर ध्यान देना चाहिए; कभी-कभी ऐसा कुछ करना जो "सैद्धांतिक रूप से अनुचित" है (या लगता है) वास्तव में सांख्यिकीय रूप से अधिक उपयुक्त है।
कार्डिनल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.