आप चर बाहर फेंकने के बिना उच्च बहु-संपार्श्विकता के साथ रैखिक प्रतिगमन में अस्थिर अनुमानों को कैसे संभाल सकते हैं ?


13

उच्च बहु-संप्रभुता के साथ रैखिक प्रतिगमन में बीटा स्थिरता?

मान लीजिए कि एक रेखीय प्रतिगमन में, चर और में उच्च बहु- (सहसंबंध लगभग 0.9 है)।x 2x1x2

हम गुणांक स्थिरता के बारे में चिंतित हैं, इसलिए हमें बहु-संपार्श्विकता का इलाज करना होगा।β

पाठ्यपुस्तक समाधान सिर्फ एक चर को दूर फेंकना होगा।

लेकिन हम केवल चर दूर फेंककर उपयोगी जानकारी नहीं खोना चाहते हैं।

कोई सुझाव?


5
क्या आपने किसी तरह की नियमितीकरण योजना (जैसे रिज रिग्रेशन) की कोशिश की है?
Néstor

जवाबों:


11

आप मामले में रिज प्रतिगमन दृष्टिकोण की कोशिश कर सकते हैं जब सहसंबंध मैट्रिक्स एकवचन के करीब होता है (यानी चर उच्च सहसंबंध होते हैं)। यह आपको का एक मजबूत अनुमान प्रदान करेगा ।β

एकमात्र सवाल यह है कि नियमितीकरण पैरामीटर कैसे चुना जाए । यह एक साधारण समस्या नहीं है, हालांकि मैं विभिन्न मूल्यों की कोशिश करने का सुझाव देता हूं।λ

उम्मीद है की यह मदद करेगा!


2
क्रॉस-सत्यापन ;-) चुनने के लिए सामान्य बात है । λ
नेस्टर

वास्तव में (उत्तर के लिए +1 और Nestors 'टिप्पणी), और यदि आप "विहित प्रपत्र" (में गणना का एक eigen अपघटन का उपयोग कर प्रदर्शन , आप पा सकते हैं को न्यूनतम छुट्टी-एक-बाहर पार सत्यापन त्रुटि न्यूटन की विधि से बहुत सस्ते में।λXTXλ
डिक्रान मार्सुपियल

आपका बहुत बहुत धन्यवाद! आर में क्रॉस-मान्यता सहित ऐसा करने के लिए कोई भी ट्यूटोरियल / नोट्स?
लूना

इस पुस्तक के अध्याय 3 को देखें: stanford.edu/~hastie/local.ftp/Springer/ESLII_print5.pdf । रिज प्रतिगमन का कार्यान्वयन कुछ लेखकों द्वारा Google में किया गया है (Google आपका मित्र है!)।
नेस्टर

2
आप lm.ridgeMASS पैकेज में रूटीन का उपयोग कर सकते हैं । यदि आप इसे लिए मानों की एक सीमा से , उदाहरण के लिए , जैसे कोई कॉल , आपको सामान्यीकृत क्रॉस सत्यापन आँकड़े वापस मिल जाएंगे , और उन्हें विरुद्ध प्लॉट कर सकते हैं : न्यूनतम लेने के लिए। λλfoo <- lm.ridge(y~x1+x2,lambda=seq(0,10,by=0.1))fooλplot(foo$GCV~foo$lambda)
जूलमैन

10

खैर, एक तदर्थ विधि है जिसका मैंने पहले उपयोग किया है। मुझे यकीन नहीं है कि अगर इस प्रक्रिया का नाम है, लेकिन यह समझदारी से काम करता है।

मान लीजिए कि आपका लक्ष्य मॉडल को फिट करना है

Yi=β0+β1Xi+β2Zi+εi

जहाँ दो भविष्यवक्ता - - अत्यधिक सहसंबद्ध हैं। आपके कहे अनुसार किया है, उनका इस्तेमाल एक ही मॉडल में दोनों गुणांक अनुमान और करने के लिए अजीब कर सकते हैं -values। एक विकल्प मॉडल फिट करने के लिए है पीXi,Zip

Zi=α0+α1Xi+ηi

फिर अवशिष्ट साथ असहसंबद्ध हो जाएगा और, कुछ अर्थों में, के हिस्से के रूप में सोचा जा सकता कि के साथ अपने रैखिक संबंध द्वारा सम्मिलित नहीं है । फिर, आप मॉडल को फिट करने के लिए आगे बढ़ सकते हैंएक्स मैं जेड मैं एक्स मैंηiXiZiXi

Yi=θ0+θ1Xi+θ2ηi+νi

जो पहले मॉडल के सभी प्रभावों को पकड़ लेगा (और वास्तव में, पहले मॉडल के रूप में सटीक ), लेकिन भविष्यवक्ता अब नहीं मिलेंगे।R2

संपादित करें: ओपी ने इस बात का स्पष्टीकरण मांगा है कि अवशिष्ट क्यों नहीं, मूल रूप से, भविष्यवक्ता के साथ शून्य का एक नमूना सहसंबंध है जब आप अवरोधन को शामिल करते हैं जैसे वे अवरोधन को छोड़ते हैं। यह टिप्पणियों में पोस्ट करने के लिए बहुत लंबा है इसलिए मैंने यहां एक संपादन किया। यह व्युत्पत्ति विशेष रूप से ज्ञानवर्धक नहीं है (दुर्भाग्य से मैं एक उचित सहज तर्क के साथ नहीं आ सका) लेकिन यह दिखाता है कि ओपी ने क्या अनुरोध किया है :

जब अवरोध सरल रेखीय प्रतिगमन में छोड़ा जाता है , तो , इसलिए । के बीच नमूना सहसंबंध और है आनुपातिक करने के लिए जहां पट्टी के नीचे मात्रा का नमूना माध्य को दर्शाता है। अब मैं दिखाता हूँ कि यह शून्य के बराबर नहीं है।β^=xiyixi2ei=yixixiyixi2xiei

xe¯x¯e¯
¯

पहले हमारे पास है

xe¯=1n(xiyixi2xiyixi2)=xy¯(1xi2xi2)=0

परंतु

x¯e¯=x¯(y¯x¯xy¯x2¯)=x¯y¯x¯2xy¯x2¯

तो इसके लिए आपको और वास्तव में 0 का एक नमूना सहसंबंध है करने के लिए, हम की जरूरत है होने के लिए । यही है, हमेंeixix¯e¯0

y¯=x¯xy¯x2¯

जो सामान्य रूप से डेटा दो मनमाने सेटों के लिए धारण नहीं करता है ।x,y


यह मुझे आंशिक प्रतिगमन भूखंडों की याद दिलाता है ।
एंडी डब्ल्यू

3
यह उनके प्रमुख घटकों द्वारा प्रतिस्थापित करने के लिए एक सन्निकटन की तरह लगता है । (X,Z)
whuber

3
एक बात जो मेरे दिमाग में थी वह यह है कि पीसीए आसानी से दो से अधिक वेरिएबल्स में सामान्य हो जाता है। एक और यह है कि यह और सममित रूप से व्यवहार करता है , जबकि आपका प्रस्ताव इनमें से किसी एक चर को एकल करने के लिए मनमाने ढंग से प्रकट होता है। एक और विचार यह था कि पीसीए चर की संख्या को कम करने के लिए एक अनुशासित तरीका प्रदान करता है (हालांकि किसी को इसके बारे में सतर्क रहना चाहिए, क्योंकि एक छोटा प्रिंसिपल घटक आश्रित चर के साथ अत्यधिक सहसंबद्ध हो सकता है)। XZ
whuber

1
हाय मैक्रो, उत्कृष्ट प्रमाण के लिए धन्यवाद। हाँ अब मैं इसे समझ गया हूँ। जब हम x और अवशिष्ट के बीच नमूना सहसंबंध के बारे में बात करते हैं, तो इसे नमूना सहसंबंध के लिए शामिल होने के लिए अवरोधन शब्द की आवश्यकता होती है। दूसरी ओर, जब हम x और अवशिष्ट के बीच की orthogonality के बारे में बात करते हैं, तो इसे अवरोधन शब्द की आवश्यकता नहीं होती है शामिल होने के लिए, ओर्थोगोनलिटी को शामिल करने के लिए।
लूना

1
@ लूना, मैं रिज रिग्रेशन का उपयोग करने से विशेष रूप से असहमत नहीं हूं - यह सिर्फ मेरे लिए पहली बार हुआ था (मैंने सुझाव दिया था कि इससे पहले कि मैंने उत्तर दिया)। मैं कह सकता हूं कि रिज प्रतिगमन अनुमान पक्षपाती हैं, इसलिए, कुछ अर्थों में, आप वास्तव में साधारण प्रतिगमन की तुलना में थोड़ी अलग (सिकुड़ी हुई) मात्रा का अनुमान लगा रहे हैं, जिससे गुणांक की व्याख्या संभवत: अधिक चुनौतीपूर्ण हो जाती है (जैसे कि गोबर सभी को)। इसके अलावा, मैंने यहां जो भी वर्णन किया है, उसके लिए केवल मूल रैखिक प्रतिगमन की समझ की आवश्यकता होती है और कुछ के लिए अधिक सहजता से अपील की जा सकती है।
मैक्रो

4

इस प्रकार दिए गए दोनों उत्तर मुझे पसंद हैं। मुझे कुछ चीजें जोड़ने दें।

एक अन्य विकल्प यह है कि आप चर को भी जोड़ सकते हैं । यह दोनों को मानकीकृत (यानी, उन्हें z- स्कोर में बदलकर) किया जाता है, उन्हें औसत करता है, और फिर आपके मॉडल को केवल समग्र चर के साथ फिटिंग करता है। यह एक अच्छा तरीका होगा जब आपको लगता है कि वे एक ही अंतर्निहित निर्माण के दो अलग-अलग उपाय हैं। उस स्थिति में, आपके पास दो माप हैं जो त्रुटि से दूषित हैं। आपके द्वारा वास्तव में चर के लिए सबसे अधिक सही मूल्यदेखभाल उनके बीच में है, इस प्रकार उनका औसत अधिक सटीक अनुमान देता है। आप उन्हें पहले एक ही पैमाने पर रखने के लिए मानकीकृत करते हैं, ताकि नाममात्र के मुद्दे परिणाम को दूषित न करें (उदाहरण के लिए, आप कई तापमान मापों को औसत नहीं करना चाहेंगे यदि कुछ फ़ारेनहाइट हैं और कुछ सेल्सियस हैं)। बेशक, अगर वे पहले से ही एक ही पैमाने पर हैं (उदाहरण के लिए, कई बहु-प्रचारित जनमत सर्वेक्षण), तो आप उस कदम को छोड़ सकते हैं। यदि आपको लगता है कि आपका एक चर दूसरे की तुलना में अधिक सटीक हो सकता है, तो आप एक भारित औसत (शायद माप त्रुटियों के पारस्परिक का उपयोग करके) कर सकते हैं।

यदि आपके चर एक ही निर्माण के अलग-अलग उपाय हैं, और पर्याप्त रूप से अत्यधिक सहसंबद्ध हैं, तो आप वास्तव में बिना किसी जानकारी को खोए केवल एक फेंक सकते हैं। एक उदाहरण के रूप में, मैं वास्तव में एक बार एक स्थिति में था, जहां मैं त्रुटि विचरण और शक्ति को बढ़ावा देने में से कुछ को अवशोषित करने के लिए एक कोवरिएट का उपयोग करना चाहता था, लेकिन जहां मैंने उस सहसंयोजक के बारे में परवाह नहीं की - यह निश्चित रूप से जर्मन नहीं था। मेरे पास कई विकल्प उपलब्ध थे और वे सभी एक-दूसरे साथ सहसंबद्ध थे । मैंने मूल रूप से एक यादृच्छिक पर उठाया और आगे बढ़ा, और यह ठीक काम किया। मुझे संदेह है कि अगर मैंने कुछ अन्य रणनीति का उपयोग करके दूसरों को भी शामिल किया होता तो मैं स्वतंत्रता की दो अतिरिक्त डिग्री को जलाने की शक्ति खो देता । बेशक, मैं उन्हें जोड़ सकता था, लेकिन परेशान क्यों? r>.98हालांकि, यह इस तथ्य पर गंभीर रूप से निर्भर करता है कि आपके चर संबंधित हैं क्योंकि वे एक ही चीज के दो अलग-अलग संस्करण हैं; यदि कोई अलग कारण है कि वे सहसंबद्ध हैं, तो यह पूरी तरह से अनुचित हो सकता है।

जैसा कि इसका तात्पर्य है, मैं आपको सुझाव देता हूं कि आपके सहसंबद्ध चर के पीछे क्या निहित है। यही है, आपको इस सिद्धांत की आवश्यकता है कि किस रणनीति का उपयोग करने के लिए सबसे अच्छा काम करने के लिए वे बहुत सहसंबद्ध हैं। एक ही अव्यक्त चर के अलग-अलग उपायों के अलावा, कुछ अन्य संभावनाएं एक कारण श्रृंखला होती हैं (जैसे, ) और अधिक जटिल स्थितियां जिनमें आपके चर कई कारण बलों का परिणाम होते हैं, जिनमें से कुछ इस प्रकार हैं: दोनों के लिए समान। शायद सबसे चरम मामला एक दमन चर का है, जो @whuber नीचे अपनी टिप्पणी में वर्णित करता है। उदाहरण के लिए, मैक्रों का सुझाव मानता है कि आप मुख्य रूप से में रुचि रखते हैं और के अतिरिक्त योगदान के बारे में आश्चर्य करते हैंX1X2YXZ के योगदान के लिए जिम्मेदार होने के बाद । इस प्रकार, यह सोचकर कि आपके चर क्यों सहसंबद्ध हैं और आप जो जानना चाहते हैं, वह आपको यह तय करने में मदद करेगा कि कौन सा (यानी, या ) को और कौन सा माना जाए । कुंजी अपनी पसंद को सूचित करने के लिए सैद्धांतिक अंतर्दृष्टि का उपयोग करना है। Xx1x2XZ

मैं मानता हूं कि रिज प्रतिगमन यकीनन बेहतर है, क्योंकि यह आपको उन चरों का उपयोग करने की अनुमति देता है जो आप मूल रूप से इरादा रखते थे और उन पैदावार की संभावना रखते हैं जो उनके वास्तविक मूल्यों के बहुत करीब हैं (हालांकि वे पक्षपाती होंगे - अधिक जानकारी के लिए यहां या यहां देखें )। बहरहाल, मुझे लगता है कि दो संभावित डाउनसाइड भी हैं: यह अधिक जटिल है (अधिक सांख्यिकीय परिष्कार की आवश्यकता है), और परिणामस्वरूप मॉडल की व्याख्या करना अधिक कठिन है, मेरी राय में।

मैं इकट्ठा करता हूं कि शायद अंतिम दृष्टिकोण एक संरचनात्मक समीकरण मॉडल फिट होगा। ऐसा इसलिए है क्योंकि यह आपको उन संबंधों के सटीक सेट को तैयार करने की अनुमति देगा, जो आपको विश्वास करते हैं कि अव्यक्त चर सहित। हालांकि, मैं SEM को इसके बारे में कुछ भी कहने के लिए अच्छी तरह से नहीं जानता, संभावना का उल्लेख करने के अलावा। (मुझे यह भी संदेह है कि यह उस स्थिति में ओवरकिल होगा जो आप केवल दो कोवरिएट्स के साथ वर्णन करते हैं।)


4
पुन पहले बिंदु: Let वेक्टर मूल्यों की एक श्रृंखला है और जाने वेक्टर छोटे मान पूरी तरह से साथ असहसंबद्ध है ताकि अत्यधिक साथ जोड़ा जाता है । सेट । या तो या विरुद्ध के प्रतिगमन में आपको कोई महत्वपूर्ण या महत्वपूर्ण परिणाम दिखाई नहीं देगा। और खिलाफ के प्रतिगमन में आपको एक बहुत अच्छा फिट मिलेगा , क्योंकि । इस प्रकार, यदि आप या से किसी एक को बाहरएक्स 1 एक्स 2 2 = एक्स 1 + X1eX1X2=X1+e Y = e Y X 1 X 2 Y X 1 X 2 Y = X 2 - X 1 X 1 X 2 Y YX1Y=eYX1X2YX1X2Y=X2X1X1X2, आप बारे में अनिवार्य रूप से सभी जानकारी खो देंगे । "अत्यधिक सहसंबद्ध" का अर्थ यह नहीं है कि " बारे में समकक्ष जानकारी है "। YY
whuber

बहुत बहुत धन्यवाद Gung! Q1। यह दृष्टिकोण क्यों काम करता है: "यह दोनों को मानकीकृत करके किया जाता है (अर्थात, उन्हें z- अंकों में बदलना), उन्हें औसत करना, और फिर केवल समग्र चर के साथ अपने मॉडल को फिट करना।" Q2। रिज रिग्रेशन बेहतर क्यों होगा? Q3। SEM बेहतर क्यों होगा? किसी को भी कृपया इस पर कुछ रोशनी बहाया? धन्यवाद!
लूना

हाय लूना, मदद करने के लिए खुश। मैं वास्तव में इसे पुनः संपादित करने जा रहा हूं; @whuber शुरू में एहसास होने से ज्यादा सही था। मैं w / आपके अतिरिक्त प्रश्नों में मदद करने के लिए और अधिक डालने की कोशिश करूँगा, लेकिन इसमें बहुत कुछ होगा, इसलिए इसमें कुछ समय लग सकता है। हम देखेंगे कि यह कैसे होता है।
गंग -
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.