क्या एक सहज स्पष्टीकरण है कि बहुकोशिकीय रैखिक प्रतिगमन में समस्या क्यों है?


85

विकी उन समस्याओं की चर्चा करता है जब बहुसांस्कृतिकता रैखिक प्रतिगमन में एक मुद्दा है। मूल समस्या अस्थिर पैरामीटर अनुमानों में बहुरूपता परिणाम है जो निर्भर चर पर स्वतंत्र चर के प्रभाव का आकलन करना बहुत मुश्किल बनाता है।

मैं समस्याओं के पीछे तकनीकी कारणों को समझता हूं ( को पलटने में सक्षम नहीं हो सकता , बीमार - आदि) लेकिन मैं इस मुद्दे के लिए अधिक सहज (शायद ज्यामितीय?) स्पष्टीकरण खोज रहा हूं।एक्स एक्सXXXX

क्या रेखीय प्रतिगमन के संदर्भ में बहुविकल्पीयता समस्याग्रस्त है, इस कारण आसानी से समझने योग्य स्पष्टीकरण का एक ज्यामितीय या शायद कुछ अन्य रूप है?


4
वाकई बहुत बढ़िया सवाल। किसी चीज को समझने का सबसे अच्छा तरीका स्पष्टीकरण की कई दिशाओं से है।
ताल गैली

1
संबंधित प्रश्न और दृश्य स्पष्टीकरण के आँकड़े
q/

जवाबों:


89

सबसे सरल मामले पर विचार करें जहां , और खिलाफ फिर से पंजीकृत है और जहां और अत्यधिक सकारात्मक रूप से सहसंबद्ध हैं। तब पर का प्रभाव पर के प्रभाव से अलग करना मुश्किल है क्योंकि में कोई भी वृद्धि में वृद्धि के साथ जुड़ी हुई है ।एक्स जेड एक्स जेड एक्स वाई जेड वाई एक्स जेडYXZXZXYZYXZ

इसे देखने का एक अन्य तरीका समीकरण पर विचार करना है। यदि हम , तो गुणांक , स्थिर रखते हुए में प्रत्येक इकाई वृद्धि के लिए में वृद्धि है । लेकिन व्यवहार में, स्थिर रखना अक्सर असंभव होता है और और बीच सकारात्मक सहसंबंध का मतलब है कि में एक इकाई वृद्धि आमतौर पर उसी समय में कुछ वृद्धि के साथ होती है ।1 Y एक्स जेड जेड एक्स जेड एक्स जेडY=b0+b1X+b2Z+eb1YXZZXZXZ

एक समान लेकिन अधिक जटिल विवरण बहुकोशिकीयता के अन्य रूपों के लिए है।


20
+1 बेहद पैथोलॉजिकल केस जहां इसे और हाइलाइट करता है। और अप्रभेद्य होगा। Y = b 0 + b 1 X + b 2 Z + e Y = b 0 + ( b 1 + b 2 ) X + 0 Z + eX=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv

1
+1 मुझे यह जवाब पसंद है क्योंकि सबसे आम मदद सवालों में से एक है तो फिर और । रियलिस्टिक इनपुट्स के लिए इंफ्रारेड का हिसाब देना पड़ता है। b 2 < 0b1>0b2<0
मुराटो

29

मैं एक बार सुशी खा रहा था और सोचा था कि यह अच्छी तरह से बीमार समस्याओं का एक अच्छा प्रदर्शन कर सकता है। मान लीजिए कि आप किसी को अपने ठिकानों पर छूने वाली दो छड़ियों का उपयोग करके एक विमान दिखाना चाहते थे।

आप शायद एक दूसरे के लिए लाठी orthogonal पकड़ लेंगे। विमान पर आपके हाथों की किसी भी प्रकार की अस्थिरता का प्रभाव यह होता है कि यह लोगों को दिखाने के लिए जो आप उम्मीद कर रहे थे उसके चारों ओर थोड़ा लड़खड़ाते हैं, लेकिन थोड़ी देर के लिए आपको देखने के बाद उन्हें पता चलता है कि आप किस विमान का प्रदर्शन करना चाहते थे।

लेकिन मान लीजिए कि आप लाठी के सिरों को एक साथ लाते हैं और अपने हाथों को हिलते हुए देखते हैं। यह जिस रूप में समतल होगा वह कहीं अधिक बेतहाशा पिच करेगा। आपके दर्शकों को यह जानने के लिए लंबे समय तक देखना होगा कि आप किस विमान को प्रदर्शित करने का प्रयास कर रहे हैं।


+1 मुझे लगता है कि यह सबसे सीधे सवाल का जवाब है। क्योंकि यद्यपि बहुस्तरीयता व्याख्या को प्रभावित करती है। यह एक मुद्दा क्यों है इम्हो अनुमान में स्थिरता है।
मुराटो

+1 इस टिप्पणी को पोस्ट करने के लिए (और केवल इस टिप्पणी को स्टैकओवरफ़्लो के इतिहास में) उपयोगकर्ता नाम स्नैकप्रिसिस के तहत।
stackoverflax

19

ज्यामितीय दृष्टिकोण द्वारा छोड़े गए उप-स्थान पर के कम से कम वर्गों के प्रक्षेपण पर विचार करना है ।YX

कहो कि आपके पास एक मॉडल है:

E[Y|X]=β1X1+β2X2

हमारा अनुमान स्थान वैक्टर और द्वारा निर्धारित किया गया विमान है और समस्या यह है कि अनुरूप निर्देशांक जो वेक्टर वर्णन करेंगे , उस विमान पर का एक न्यूनतम वर्ग प्रक्षेपण ।X1X2(β1,β2)Y^Y

अब मान लें कि , यानी वे हैं। फिर, और द्वारा निर्धारित उप-स्थान केवल एक पंक्ति है और हमारे पास स्वतंत्रता की केवल एक डिग्री है। इसलिए हम दो मानों को निर्धारित नहीं कर सकते हैं और जैसा कि हमसे पूछा गया था।X1=2X2X1X2β1β2


2
मैं एक लंबे समय से पहले उत्थान कर रहा हूं, लेकिन आपके जवाब को फिर से पढ़ना यह याद दिलाता है कि मुझे हमेशा क्राइस्टेंसन से जटिल प्रश्नों के उत्तर ( j.mp/atRp9w ) पसंद थे।
CHL

@chl: शांत, निश्चित रूप से यह तो बाहर की जाँच करने के लिए जा रहा है। :)
ars

14

एक पहाड़ी पर दो लोग एक बोल्डर को धकेल रहे हैं। आप जानना चाहते हैं कि उनमें से प्रत्येक कितना कठिन है। मान लीजिए कि आप उन्हें दस मिनट के लिए एक साथ धक्का देते हैं और बोल्डर 10 फीट तक चलता है। क्या पहला आदमी सब काम करता था और दूसरा सिर्फ नकली था? या ठीक इसके विपरीत? या 50-50? चूंकि दोनों बल एक ही समय में काम कर रहे हैं, आप दोनों में से किसी एक की ताकत को अलग नहीं कर सकते। आप बस इतना ही कह सकते हैं कि उनका संयुक्त बल 1 फुट प्रति मिनट है।

अब कल्पना करें कि पहला आदमी एक मिनट के लिए खुद को धक्का देता है, फिर दूसरे आदमी के साथ नौ मिनट, और एक अंतिम मिनट में दूसरा आदमी धक्का देता है। अब आप पहले और अंतिम मिनट में प्रत्येक व्यक्ति के बल को अलग से जानने के लिए बलों के अनुमान का उपयोग कर सकते हैं। हालांकि वे अभी भी एक ही समय में बड़े पैमाने पर काम कर रहे हैं, इस तथ्य में कि थोड़ा अंतर है, आप प्रत्येक के लिए बल का अनुमान प्राप्त कर सकते हैं।

यदि आपने प्रत्येक व्यक्ति को पूरे दस मिनट के लिए स्वतंत्र रूप से धकेलते हुए देखा, तो इससे आपको बलों का अधिक सटीक अनुमान मिलेगा कि क्या बलों में एक बड़ा ओवरलैप है।

मैं पाठक के लिए इस मामले को ऊपर उठाने के लिए एक अभ्यास के रूप में छोड़ता हूं और एक व्यक्ति को ऊपर की ओर धकेलता हूं और दूसरा नीचे की ओर धकेलता है (यह अभी भी काम करता है)।

परफेक्ट मल्टीकोलिनरिटी आपको बलों को अलग से अनुमान लगाने से रोकती है; मल्टीकोलिनरिटी के पास आपको बड़ी मानक त्रुटियाँ देता है।


6

जिस तरह से मैं इस बारे में सोचता हूं वह जानकारी के संदर्भ में है। और में से प्रत्येक को बारे में कुछ जानकारी है । अधिक सहसंबद्ध और एक दूसरे के साथ हैं, और से बारे में अधिक जानकारी सामग्री समान या अतिव्यापी है, इस बिंदु पर कि पूरी तरह से सहसंबद्ध और , यह वास्तव में एक ही सूचना सामग्री है। अगर हम अब को समझाने के लिए और को एक ही (प्रतिगमन) मॉडल में रखते हैं , तो मॉडल जानकारी को "अप" करने की कोशिश करता है कि ( एक्स 2 वाई एक्स 1 एक्स 2 वाई एक्स 1 एक्स 2 एक्स 1 एक्स 2 एक्स 1 एक्स 2 वाई एक्स 1 एक्स 2 वाई एक्स 1 एक्स 2 एक्स 1 एक्स 2 एक्स एक्स 1 एक्स 21 एक्स 1 + 2 एक्स 2 बी बी X1X2YX1X2YX1X2X1X2X1X2YX1 , ) में कुछ हद तक मनमाने तरीके से और में से प्रत्येक के बारे में शामिल हैं । यह वास्तव में अच्छा तरीका नहीं है, क्योंकि सूचना का कोई भी विभाजन अभी भी मॉडल में ( , ) कुल जानकारी रखने के लिए जाता है (पूरी तरह से सहसंबद्ध के लिए, यह वास्तव में एक है गैर-पहचान के मामले)। यह और के व्यक्तिगत गुणांकों के लिए अस्थिर व्यक्तिगत अनुमानों की ओर जाता है , हालांकि यदि आप अनुमानित मानों को कई रनों से अधिक और और अनुमानX2YX1X2X1X2XX1X2b1X1+b2X2b1b2, ये काफी स्थिर होंगे।


4

इसके लिए मेरा (बहुत) आम आदमी अंतर्ज्ञान है कि ओएलएस मॉडल को एक्स वेरिएबल में "सिग्नल" के एक निश्चित स्तर की आवश्यकता होती है ताकि यह पता लगाया जा सके कि यह वाई के लिए "अच्छा" भविष्यवाणी करता है। यदि एक ही "सिग्नल" कई एक्स में फैला हुआ है (क्योंकि वे सहसंबद्ध हैं), फिर सहसंबद्ध एक्स में से कोई भी एक "प्रमाण" (सांख्यिकीय महत्व) के लिए पर्याप्त नहीं दे सकता है कि यह एक वास्तविक भविष्यवक्ता है।

पिछले (अद्भुत) उत्तर यह बताने में बहुत अच्छा काम करते हैं कि ऐसा क्यों है।


3

मान लें कि दो लोगों ने सहयोग किया और वैज्ञानिक खोज को पूरा किया। उनके अद्वितीय योगदानों को बताना आसान है (जिन्होंने क्या किया) जब दो पूरी तरह से अलग व्यक्ति हैं (एक सिद्धांत आदमी है और दूसरा प्रयोग में अच्छा है), जबकि उनके अद्वितीय प्रभावों (प्रतिगमन में गुणांक) को भेद करना मुश्किल है जब वे होते हैं जुड़वाँ बच्चों के समान अभिनय।


2

यदि दो रजिस्टरों को पूरी तरह से सहसंबद्ध किया जाता है, तो उनके गुणांक की गणना करना असंभव होगा; यह विचार करने में मददगार है कि यदि हम उनकी गणना कर सकते हैं तो उनकी व्याख्या करना क्यों मुश्किल होगा । वास्तव में, यह बताता है कि ऐसे चर की व्याख्या करना क्यों मुश्किल है जो पूरी तरह से परस्पर संबंधित नहीं हैं लेकिन यह भी वास्तव में स्वतंत्र नहीं हैं।

मान लीजिए कि हमारा आश्रित चर न्यूयॉर्क में मछली की दैनिक आपूर्ति है, और हमारे स्वतंत्र चर में एक है कि क्या उस दिन बारिश होती है और एक उस दिन खरीदी गई चारा की मात्रा के लिए। जब हम अपना डेटा एकत्र करते हैं तो हमें एहसास नहीं होता है कि हर बार बारिश होने पर, मछुआरे कोई चारा नहीं खरीदते हैं, और हर बार ऐसा नहीं होता है, वे लगातार मात्रा में चारा खरीदते हैं। तो बैत और वर्षा पूरी तरह से सहसंबद्ध हैं, और जब हम अपने प्रतिगमन को चलाते हैं, तो हम उनके गुणांक की गणना नहीं कर सकते हैं। वास्तव में, बैट और रेन शायद पूरी तरह से सहसंबद्ध नहीं हैं, लेकिन हम उन दोनों को पुनर्जन्मकर्ता के रूप में शामिल करना चाहते हैं, जैसे कि किसी तरह उनकी अंतर्जात की सफाई के बिना।


1

मुझे लगता है कि डमी वैरिएबल ट्रैप यह बताने के लिए एक और उपयोगी संभावना प्रदान करता है कि मल्टीकोलीनियरिटी एक समस्या क्यों है। याद रखें कि यह तब होता है जब हमारे पास मॉडल में एक स्थिर और डमी का पूरा सेट होता है। फिर, डमी का योग एक, निरंतर, इतनी बहुसंख्या में जुड़ जाता है।

जैसे, पुरुषों के लिए डमी और महिलाओं के लिए एक:

yi=β0+β1Mani+β2Womani+ui

β1YManiβ2YWomani

β0E(yi|Mani=0,Womani=0)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.