एक रेखीय एकाधिक प्रतिगमन समीकरण में सभी IVs के बीच साझा रूपांतर कहां है?


10

एक रेखीय मल्टीपल रिग्रेशन समीकरण में, यदि बीटा वेट अन्य सभी IV के योगदान के ऊपर और ऊपर प्रत्येक व्यक्तिगत स्वतंत्र चर के योगदान को दर्शाता है, जहां प्रतिगमन समीकरण में सभी IVs द्वारा साझा किया गया विचरण है जो DV की भविष्यवाणी करता है?

उदाहरण के लिए, यदि वेन चित्र नीचे प्रदर्शित किया गया है (और सीवी के 'के बारे में' पृष्ठ से यहां लिया गया है: https://stats.stackexchange.com/about ) को 3 IVs और 1 DV होना चाहिए, जहां तारांकन चिह्न के साथ क्षेत्र होगा कई प्रतिगमन समीकरण में?

यहाँ छवि विवरण दर्ज करें


4
मैं यहाँ एक downvote की आवश्यकता नहीं देख रहा हूँ। मुझे लगता है कि यह प्रश्न एक मौलिक स्तर पर कई प्रतिगमन में क्या हो रहा है, और एमआर के बारे में कुछ समझाने का अवसर प्रदान करता है, अन्यथा कभी भी चर्चा नहीं की जाएगी।
गूँग - मोनिका

जवाबों:


8

यह समझने के लिए कि उस आरेख का क्या मतलब हो सकता है, हमें कुछ चीजों को परिभाषित करना होगा। मान लें कि वेन आरेख 4 विभिन्न चर के बीच अतिव्यापी (या साझा) विचरण को प्रदर्शित करता है, और हम इसके स्तर की भविष्यवाणी करना चाहते हैंडब्ल्यूमैंमैं हमारे ज्ञान के लिए सहारा द्वारा डीमैंजीजी, एफआरयू, तथा बीएलजी। यही है, हम अनिश्चितता (यानी, विचरण) को कम करने में सक्षम होना चाहते हैंडब्ल्यूमैंमैंशून्य विचरण से अवशिष्ट विचरण के लिए नीचे। कितनी अच्छी तरह से किया जा सकता है? यह सवाल है कि एक वेन आरेख आपके लिए जवाब दे रहा है।

प्रत्येक वृत्त बिंदुओं के एक समूह का प्रतिनिधित्व करता है, और इस प्रकार, विचरण की मात्रा। अधिकांश भाग के लिए, हम में विचरण में रुचि रखते हैंडब्ल्यूमैंमैं, लेकिन यह आंकड़ा भविष्यवाणियों में भिन्नताओं को भी प्रदर्शित करता है। हमारे फिगर के बारे में कुछ बातें बताई गई हैं। सबसे पहले, प्रत्येक चर में विचरण की समान मात्रा होती है - वे सभी एक ही आकार के होते हैं (हालांकि हर कोई वेन आरेख का उपयोग बहुत ही शाब्दिक रूप से नहीं करेगा)। इसके अलावा, ओवरलैप, इत्यादि की समान मात्रा है, नोटिस करने के लिए एक और महत्वपूर्ण बात यह है कि भविष्यवक्ता चर के बीच ओवरलैप का एक अच्छा सौदा है। इसका मतलब है कि वे सहसंबद्ध हैं। माध्यमिक (यानी, अभिलेखीय) डेटा, अवलोकन अनुसंधान, या वास्तविक-विश्व भविष्यवाणी परिदृश्यों से निपटने के दौरान यह स्थिति बहुत सामान्य है। दूसरी ओर, यदि यह एक डिज़ाइन किया गया प्रयोग होता, तो यह संभवतः खराब डिज़ाइन या निष्पादन होता। इस उदाहरण के साथ थोड़ी देर के लिए जारी रखने के लिए, हम देख सकते हैं कि हमारी भविष्य कहनेवाला क्षमता मध्यम होगी; में अधिकांश परिवर्तनशीलताडब्ल्यूमैंमैं सभी चर का उपयोग किए जाने के बाद अवशिष्ट परिवर्तनशीलता के रूप में रहता है (आरेख नेत्रगोलक, मैं अनुमान लगाता हूं आर2.35)। एक और बात ध्यान देने योग्य है, एक बारडीमैंजीजी तथा बीएलजी मॉडल में दर्ज किया गया है, एफआरयूमें परिवर्तनशीलता में से किसी के लिए खातेडब्ल्यूमैंमैं

अब, कई भविष्यवाणियों के साथ एक मॉडल फिट होने के बाद, लोग अक्सर उन भविष्यवाणियों का परीक्षण करना चाहते हैं कि क्या वे प्रतिक्रिया चर से संबंधित हैं (हालांकि यह स्पष्ट नहीं है कि यह उतना ही महत्वपूर्ण है जितना कि लोग मानते हैं कि यह लगता है)। हमारी समस्या यह है कि इन भविष्यवक्ताओं का परीक्षण करने के लिए, हमें वर्गों के योग का विभाजन करना चाहिए , और चूंकि हमारे भविष्यवक्ता सहसंबद्ध हैं, ऐसे एसएस हैं जिन्हें एक से अधिक भविष्यवाणियों के लिए जिम्मेदार ठहराया जा सकता है । वास्तव में, तारांकित क्षेत्र में, एसएस को तीन भविष्यवक्ताओं में से किसी एक के लिए जिम्मेदार ठहराया जा सकता है । इसका मतलब यह है कि एसएस का कोई अनूठा विभाजन नहीं है , और इस प्रकार कोई अनूठा परीक्षण नहीं है। इस मुद्दे को कैसे हैंडल किया जाता है, यह उस एसएस के प्रकार पर निर्भर करता है जिसका शोधकर्ता उपयोग करता है औरशोधकर्ता द्वारा किए गए अन्य निर्णय । चूँकि कई सॉफ्टवेयर एप्लिकेशन III SS को डिफ़ॉल्ट रूप से वापस करते हैं, कई लोग ओवरलैपिंग क्षेत्रों में निहित जानकारी को यह एहसास किए बिना फेंक देते हैं कि उन्होंने एक निर्णय कॉल किया है । मैं इन मुद्दों की व्याख्या करता हूं, विभिन्न प्रकार के एसएस, और यहां कुछ विस्तार से जाना ।

जैसा कि कहा गया है, यह प्रश्न विशेष रूप से इस बारे में पूछता है कि यह सब कहाँ पर दांव / प्रतिगमन समीकरण को दर्शाता है। जवाब है कि ऐसा नहीं है। इसके बारे में कुछ जानकारी यहाँ मेरे उत्तर में निहित है (हालाँकि आपको लाइनों के बीच थोड़ा-थोड़ा पढ़ना होगा)।


हेल्लो गंग, आपकी पोस्टिंग के लिए धन्यवाद। यह बहुत दिलचस्प है और कुछ क्षेत्रों में मेरी आँखें खोली हैं। हालाँकि, मुझे आपके द्वारा पोस्ट की गई पोस्ट की पंक्तियों के बीच पढ़ने में परेशानी हो रही है। इसलिए, मेरा प्रश्न शेष है: यदि एक रेखीय एकाधिक प्रतिगमन समीकरण में, यदि बीटा वेट अन्य सभी IV के योगदान के ऊपर और ऊपर प्रत्येक व्यक्तिगत स्वतंत्र चर के योगदान को प्रतिबिंबित करता है, जहां प्रतिगमन समीकरण में सभी IVs द्वारा साझा किया गया विचरण है DV की भविष्यवाणी करता है?
जोएल डब्ल्यू।

हाँ, यह देखने में बहुत कठिन है। बिंदु 1 के मुद्दे के बीच एक मूलभूत अंतर है कि परीक्षण के लिए एसएस को कैसे विभाजित किया जाए, और 2 बेटास का अनुमान लगाया जाए। 1, जो कि भविष्यवक्ता के लिए एसएस को जिम्मेदार मानता है; 2 बेटों के लिए इष्टतम मूल्य चुनता है। ओवरलैप पूर्व में दिखता है, बाद में नहीं। अगर आपको पछतावा होडब्ल्यूमैंमैं पर डीमैंजीजी और अवशेषों को बचाया, फिर उन resids से भविष्यवाणी की एफआरयूऔर सहेजे गए रेसिड्स -2 इत्यादि (यह अनुचित है, BTW), आप बेतों को बेतहाशा उतार-चढ़ाव करते देखेंगे। लेकिन मल्टी रेग सभी बेटों का एक साथ अनुमान लगाता है , इसलिए यह दिखाई नहीं देता है।
गूँज - मोनिका

यदि "ओवरलैप पूर्व में नहीं बाद में दिखाता है" तो प्रतिगमन समीकरण साझा विचरण को कैसे दर्शा सकता है? यदि बेट्स प्रत्येक IV के योगदान को इंगित करते हैं जब अन्य सभी IV के प्रभाव सांख्यिकीय रूप से हटा दिए जाते हैं, तो प्रतिगमन सूत्र का कौन सा भाग हटाए गए साझा विचरण की अनुमानित शक्ति को दर्शाता है? या, प्रतिगमन समीकरण कैसे दिखा सकता है कि भविष्यवाणी की गई वाई का क्या होगा यदि आप आईवीएस में से एक को 1 से बढ़ाते हैं यदि बेतास में ओवरलैप प्रतिबिंबित नहीं होता है? एक तीसरा प्रश्न: वेन आरेख के अंतर्निहित डेटा के MR विश्लेषण में फोरम बीटा = 0 होगा?
जोएल डब्ल्यू।

ओवरलैप में है परीक्षण , नहीं बीटा यकीन नहीं --I'm और कैसे है कि डाल करने के लिए। प्रत्येक बीटा सहसंयोजक में 1-इकाई परिवर्तन के प्रतिक्रिया चर पर प्रभाव को दर्शाता है, बाकी सब कुछ स्थिर रहता है ; एक दिया बीटा लगभग निश्चित रूप से समान नहीं होगा यदि अन्य कोवरिएट्स को मॉडल से हटा दिया गया था। यदि वेन आरेख सही डेटा जनरेट करने की प्रक्रिया को सही ढंग से दर्शाता है, तो इसके लिए सही मूल्य हैβएफ=0, लेकिन अनुभवजन्य अनुमान मूल रूप से अभ्यास में मूल रूप से बराबर 0 के बराबर नहीं है।
गूँग - मोनिका

1
@ मार्खाइट, छात्र का जवाब ज्यादातर ठीक है। यह कथन कि जब X1 और X2 पूरी तरह से सहसंबद्ध हैं, तो उनका दांव आधा सही नहीं है; जब r = 1 मॉडल अज्ञात है (cf, यहाँ )। जैसा कि r 1 के करीब हो जाता है, अनुमानित बेटस नमूना डेटा में रिश्तों पर निर्भर करेगा और नमूना से नमूने के लिए व्यापक रूप से भिन्न हो सकता है।
गंग - मोनिका

5

पीटर कैनेडी ने अपनी पुस्तक और JSE लेख में प्रतिगमन के लिए बैलेन्टाइन / वेन आरेखों का एक अच्छा वर्णन किया है , जिनमें वे मामले शामिल हैं जहां वे आपको भटका सकते हैं।

सार यह है कि ढलान गुणांक का आकलन और परीक्षण करने के लिए केवल तारांकित क्षेत्र भिन्नता को फेंक दिया जाता है। भविष्यवाणी और गणना के उद्देश्य से उस भिन्नता को वापस जोड़ा जाता हैआर2


+1, मैं "अनुमान लगाने के लिए" और "ढलान गुणांक" का परीक्षण करूंगा , लेकिन इसमें शामिल होने के बारे में बिंदुआर2एक अच्छा है।
गंग -

वास्तव में और किया।
दिमित्री वी। मास्टरोव

क्या तारांकित क्षेत्र का उपयोग पूर्वानुमानित y की गणना के लिए किया जाता है? यदि हां, तो भविष्यवाणी के फॉर्मूले में तारांकित क्षेत्र भविष्यवाणी की गई y में कहां योगदान देता है? अलग-अलग तरीके से कहा गया है कि भविष्यवाणी सूत्र में कौन से शब्द या शब्द तारांकित क्षेत्र को दर्शाते हैं?
जोएल डब्ल्यू

3

मुझे लगता है कि यह एक (बहुत) दिनांकित धागा है, लेकिन चूंकि मेरे एक सहकर्मी ने इस सप्ताह मुझसे एक ही सवाल पूछा और वेब पर ऐसा कुछ भी नहीं पाया जिससे मैं उसे इंगित कर सकूं, मैंने सोचा कि मैं अपने दो सेंट "पोस्टीरिटी के लिए" जोड़ूंगा यहाँ। मुझे विश्वास नहीं हो रहा है कि उत्तर देने के लिए दिए गए उत्तर ओपी के प्रश्न का उत्तर देते हैं।

मैं केवल दो स्वतंत्र चर को शामिल करने के लिए समस्या को सरल बनाने जा रहा हूं; इसे दो से अधिक तक विस्तारित करना बहुत सीधा है। इस परिदृश्य पर विचार करें: दो स्वतंत्र चर (X1 और X2), एक आश्रित चर (Y), 1000 अवलोकन, दो स्वतंत्र चर एक दूसरे (r = .99) के साथ अत्यधिक सहसंबद्ध होते हैं, और प्रत्येक स्वतंत्र चर को आश्रित के साथ सहसंबद्ध किया जाता है। चर (आर = .60)। सामान्यता की हानि के बिना, सभी चर को शून्य के अर्थ में और एक के एक मानक विचलन को मानकीकृत करें, इसलिए प्रतिगमन में प्रत्येक में अवरोधन शब्द शून्य होगा।

X1 पर Y के एक सरल रैखिक प्रतिगमन को चलाने के लिए .36 का r- वर्ग और 0.6 का b1 मान उत्पन्न होगा। इसी तरह, X2 पर Y का एक सरल रेखीय प्रतिगमन चलाने से .36 का r- वर्ग और 0.6 का b1 मान उत्पन्न होगा।

X1 और X2 पर Y का एक से अधिक रिग्रेशन चलाने से .36 की एक उच्च-वर्ग की r-squared का उत्पादन होगा ।36, और दोनों b1 और b2 दोनों 0.3 के मूल्य पर लेते हैं। इस प्रकार, वाई में साझा भिन्नता बीओटीएच बी 1 और बी 2 (समान रूप से) में कैप्चर की जाती है।

मुझे लगता है कि ओपी ने गलत (लेकिन पूरी तरह से समझने योग्य) धारणा बनाई हो सकती है: अर्थात्, जैसे कि एक्स 1 और एक्स 2 पूरी तरह से सहसंबद्ध होने के करीब और करीब आते हैं, कई प्रतिगमन समीकरण में उनके बी-मान शून्य के करीब और करीब आते हैं। बात वह नहीं है। वास्तव में, जब एक्स 1 और एक्स 2 पूरी तरह से सहसंबद्ध होने के करीब और करीब आते हैं, तो कई प्रतिगमन में उनके बी-मान उनमें से किसी एक के सरल रैखिक प्रतिगमन में बी-मूल्य के एचएएलएफ के करीब और करीब आते हैं। हालांकि, जैसा कि X1 और X2 पूरी तरह से सहसंबद्ध होने के करीब और करीब आते हैं, b1 और b2 का STANDARD ERROR करीब और अनंत के करीब जाता है, इसलिए टी-मान शून्य पर परिवर्तित होते हैं। इसलिए, टी-मान शून्य पर अभिसरण होगा (अर्थात, कोई भी यूएनआईक्यूई रैखिक संबंध एक्स 1 और वाई या एक्स 2 और वाई के बीच नहीं है),

तो, ओपी के प्रश्न का उत्तर यह है कि, X1 और X2 के बीच संबंध एकता के रूप में है, आंशिक ढलान गुणांक में से प्रत्येक Y मूल्य की भविष्यवाणी के लिए समान रूप से योगदान देता है, भले ही स्वतंत्र चर आश्रित के किसी भी तरह के स्पष्टीकरण की पेशकश नहीं करता है चर।

यदि आप इसे अनुभवजन्य रूप से जांचना चाहते हैं, तो एक मनगढ़ंत डेटासेट उत्पन्न करें (... मैंने एक SAS मैक्रो का उपयोग किया है जिसका नाम है Corr2Data.sas ...) जिसमें ऊपर वर्णित विशेषताएं हैं। बी मानों, मानक त्रुटियों और टी-मानों की जाँच करें: आप पाएंगे कि वे बिल्कुल यहाँ वर्णित हैं।

एचटीएच // फिल


1
यह एक शानदार स्पष्टीकरण है, धन्यवाद। मैंने आर में विभिन्न स्थितियों का अनुकरण करने की कोशिश की, और मैं इस निष्कर्ष पर पहुंचा हूं कि यदि साझा बहुत बड़ा है, तो आप साझा परिवर्तनशीलता से छुटकारा नहीं पा सकते हैं या यदि आउटपुट (वाई) और साझा डेटानेट (एक्स 1 और एक्स 2) के बीच संबंध ) बहुत ऊंचा है। लेकिन टी-वैल्यू किसी भी चीज़ को प्रतिबिंबित क्यों करेगा जो कि X1 और X2 के अद्वितीय योगदान के साथ शुरू नहीं होता है? यदि प्रतिगमन टी-मान भविष्यवक्ताओं के अद्वितीय योगदान को दर्शाते हैं, तो हमें यह नहीं देखना चाहिए कि साझा की गई परिवर्तनीयता टी-मूल्यों को बिल्कुल प्रभावित करती है, लेकिन हम करते हैं। ऐसा क्यों है?
गलित
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.