रैखिक प्रतिगमन में द्विआधारी / द्विस्वभाव स्वतंत्र भविष्यवक्ताओं के लिए अवशिष्ट विश्लेषण कैसे करें?


11

मैं प्रबंधित फंड पर रिटर्न की भविष्यवाणी करने के लिए आर में नीचे कई रैखिक प्रतिगमन प्रदर्शन कर रहा हूं।

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

यहां केवल जीआरआई और एमबीए द्विआधारी / द्विध्रुवीय भविष्यवक्ता हैं; शेष भविष्यवक्ता निरंतर हैं।

मैं बाइनरी चर के लिए अवशिष्ट भूखंडों को उत्पन्न करने के लिए इस कोड का उपयोग कर रहा हूं।

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

मेरा प्रश्न: मुझे पता है कि निरंतर भविष्यवक्ताओं के लिए अवशिष्ट भूखंडों का निरीक्षण कैसे किया जाता है लेकिन आप एक स्वतंत्र चर द्विआधारी होने पर समरूपता जैसे रैखिक प्रतिगमन की धारणाओं का परीक्षण कैसे करते हैं?

अवशिष्ट भूखंड:

जीआर 1 के लिए अवशिष्ट प्लॉट एमबीए के लिए अवशिष्ट प्लॉट

जवाबों:


8

@ नाइकॉक्स ने दो समूहों के होने पर अवशेषों के प्रदर्शन के बारे में बात करते हुए अच्छा काम किया है। मुझे कुछ स्पष्ट प्रश्नों और निहित धारणाओं के बारे में बताएं जो इस धागे के पीछे हैं।

सवाल पूछता है, "जब आप एक स्वतंत्र चर द्विआधारी होता है तो आप कैसे रैखिक प्रतिगमन जैसे कि समलैंगिकता की धारणाओं का परीक्षण करते हैं?" आपके पास एक एकाधिक प्रतिगमन मॉडल है। ए (एकाधिक) प्रतिगमन मॉडल मानता है कि केवल एक त्रुटि शब्द है, जो हर जगह स्थिर है। यह अलग-अलग सार्थक नहीं है (और आपके पास नहीं है) व्यक्तिगत रूप से प्रत्येक भविष्यवक्ता के लिए विषमता की जांच करना। यही कारण है कि, जब हमारे पास कई प्रतिगमन मॉडल होते हैं, तो हम अवशिष्ट के भूखंडों से पूर्वानुमेय मूल्यों के बनाम विषमता का निदान करते हैं। संभवतः इस उद्देश्य के लिए सबसे उपयोगी प्लॉट एक स्केल-लोकेशन प्लॉट (जिसे level स्प्रेड-लेवल ’भी कहा जाता है), जो कि अवशिष्टों बनाम पूर्वानुमानित मूल्यों के निरपेक्ष मान के वर्गमूल का एक प्लॉट है। उदाहरण देखने के लिए,एक रैखिक प्रतिगमन मॉडल में "निरंतर विचरण" होने का क्या मतलब है?

इसी तरह, आपको सामान्यता के लिए प्रत्येक भविष्यवक्ता के लिए अवशेषों की जांच करने की आवश्यकता नहीं है। (मैं ईमानदारी से यह भी नहीं जानता कि यह कैसे काम करेगा।)

आप व्यक्तिगत भविष्यवक्ताओं के खिलाफ अवशिष्ट के भूखंडों के साथ क्या कर सकते हैं यह देखने के लिए जांचें कि क्या कार्यात्मक रूप ठीक से निर्दिष्ट है। उदाहरण के लिए, यदि अवशिष्ट एक परवलय का निर्माण करते हैं, तो डेटा में कुछ वक्रता है जिसे आपने याद किया है। एक उदाहरण देखने के लिए, यहाँ @ Glen_b के उत्तर में दूसरा प्लॉट देखें: रेखीय प्रतिगमन में मॉडल की गुणवत्ता की जाँच करना । हालाँकि, ये समस्याएँ बाइनरी भविष्यवक्ता के साथ लागू नहीं होती हैं।

इसके लायक क्या है, यदि आपके पास केवल श्रेणीबद्ध भविष्यवक्ता हैं, तो आप विषमलैंगिकता के लिए परीक्षण कर सकते हैं। आप बस लेवेने के परीक्षण का उपयोग करें। मैं यहां इसकी चर्चा करता हूं: क्यों लेवेने ने एफ अनुपात के बजाय भिन्नताओं की समानता का परीक्षण किया है? R में आप कार पैकेज से लेवेनटेस्ट का उपयोग करते हैं ।


संपादित करें: इस बिंदु को बेहतर ढंग से समझाने के लिए कि एक व्यक्तिगत पूर्वानुमानकर्ता बनाम बनाम अवशिष्ट के एक भूखंड को देखने से आपके कई प्रतिगमन मॉडल होने पर मदद नहीं मिलती है, इस उदाहरण पर विचार करें:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

आप डेटा जनरेटिंग प्रक्रिया से देख सकते हैं कि कोई विषमलैंगिकता तो नहीं है। आइए मॉडल के प्रासंगिक भूखंडों की जांच करें कि क्या वे समस्याग्रस्त विषमलैंगिकता को प्रभावित करते हैं:

यहां छवि विवरण दर्ज करें

नहीं, चिंता की कोई बात नहीं है। हालाँकि, आइए व्यक्तिगत द्विआधारी पूर्वसूचक बनाम के अवशिष्टों के कथानक को देखें कि क्या ऐसा लगता है कि वहाँ विषमलैंगिकता है:

यहां छवि विवरण दर्ज करें

उह, ऐसा लगता है कि कोई समस्या हो सकती है। हम डेटा जनरेट करने की प्रक्रिया से जानते हैं कि कोई विषमलैंगिकता नहीं है, और इस खोज के लिए प्राथमिक भूखंडों में से कोई भी नहीं दिखा, तो यहां क्या हो रहा है? शायद ये प्लॉट मदद करेंगे:

यहां छवि विवरण दर्ज करें

x1और x2एक दूसरे से स्वतंत्र नहीं हैं। इसके अलावा, अवलोकन जहां x2 = 1चरम सीमा पर हैं। उनके पास अधिक लाभ है, इसलिए उनके अवशेष स्वाभाविक रूप से छोटे हैं। बहरहाल, कोई विषमलैंगिकता नहीं है।

होम संदेश ले लो: तुम्हारा सबसे अच्छा शर्त केवल उचित भूखंडों (अवशेष बनाम फिट किए गए भूखंड, और प्रसार-स्तरीय भूखंड) से विषमलैंगिकता का निदान करना है।


धन्यवाद! उसी प्रतिगमन के लिए मैं कर रहा था कि मुझे पता चला कि अवशिष्ट बनाम वाई समलिंगी है लेकिन जब मैंने अवशिष्ट बनाम कार्यकाल (स्वतंत्र) की जाँच की तो यह एक फ़नल आकार था। इसलिए मुझे इस अधिकार को सही करने के लिए कुछ परिवर्तन करने की आवश्यकता है? तब इस संदर्भ में सिर्फ यह समझना चाहते थे कि आपने यह क्यों उल्लेख किया है कि अवशिष्ट बनाम स्वतंत्र चर की जाँच आवश्यक नहीं है?
जॉर्जऑफ द आरएफ

@ mrcet007, नहीं, आपको परिवर्तन की आवश्यकता नहीं है। यदि रेस बनाम फिट कोई विषमता नहीं दिखाता है, तो आप ठीक हैं। शायद एक दृष्टांत आपकी मदद करेगा। मैंने प्रदर्शन जोड़ने के लिए अपना उत्तर संपादित कर दिया है।
गंग - मोनिका

आप इस लिंक की जाँच कर सकते people.duke.edu/~rnau/testing.htm । यह कहता है कि अवशिष्ट बनाम स्वतंत्र चर की भी जाँच करें। बस चर्चा के लिए साझा करना। क्या आप इस पर टिप्पणी कर सकते हैं? मैं क्या सोच रहा था कि हमें हमेशा अवशिष्ट बनाम पूर्वनिर्धारित बनाम स्वतंत्र दोनों की जाँच करने की आवश्यकता थी। त्रुटियों के समरूपता (निरंतर विचरण) (ए) बनाम समय (समय श्रृंखला डेटा के मामले में) (बी) बनाम भविष्यवाणियां (सी) बनाम किसी भी स्वतंत्र चर
जॉर्जऑफ आरआरएफ

मेरी टिप्पणी यह ​​है कि मैंने आपको दोनों कारणों के साथ प्रदान किया है कि आप हेटेरोसेडासिटी के लिए जाँच करने के लिए अवशिष्ट बनाम अनुमानित ग्राफ़ को क्यों देखते हैं और आपको एक उदाहरण दिखाया कि कैसे अवशिष्ट बनाम IV ग्राफ़ को देखने से आप भटक सकते हैं। मुझे नहीं पता कि और क्या कहना है।
गूँग - मोनिका

6

यह सच है कि पारंपरिक अवशिष्ट भूखंड इस मामले में कड़ी मेहनत करते हैं: यह देखना (बहुत) अधिक मुश्किल हो सकता है कि क्या वितरण उसी के बारे में हैं। लेकिन यहां आसान विकल्प हैं। आप केवल दो वितरणों की तुलना कर रहे हैं, और ऐसा करने के कई अच्छे तरीके हैं। कुछ संभावनाएं साइड-बाय-साइड या सुपरिम्पोज्ड क्वांटाइल प्लॉट्स, हिस्टोग्राम्स या बॉक्स प्लॉट्स हैं। मेरा खुद का पूर्वाग्रह यह है कि अनियंत्रित किए गए बॉक्स प्लॉट अक्सर यहां उपयोग किए जाते हैं: वे आमतौर पर उस विस्तार को दबाएंगे जिसे हमें देखना चाहिए, भले ही हम इसे महत्वहीन के रूप में खारिज कर सकते हैं। लेकिन आप अपने केक खा सकते हैं और यह कर सकते हैं।

आप R का उपयोग करते हैं, लेकिन आपके प्रश्न में कोई भी सांख्यिकीय R- विशिष्ट नहीं है। यहाँ मैंने एक एकल द्विआधारी भविष्यवक्ता पर एक प्रतिगमन के लिए स्टैटा का उपयोग किया और फिर क्वांटाइल बॉक्स भूखंडों को निकाल दिया जो कि भविष्यवक्ता के दो स्तरों के लिए अवशिष्टों की तुलना करता है। इस उदाहरण में व्यावहारिक निष्कर्ष यह है कि वितरण समान हैं।

यहां छवि विवरण दर्ज करें

1/43/4

नोट: यह भी देखें कि अत्यधिक आउटलाइन वाले बॉक्स प्लॉट को कैसे प्रस्तुत करें? R. का उपयोग करते हुए इसी तरह के भूखंडों के @ ग्लेन_ब के उदाहरण सहित। ऐसे प्लॉट किसी भी सभ्य सॉफ्टवेयर में आसान होने चाहिए; यदि नहीं, तो आपका सॉफ्टवेयर सभ्य नहीं है।


+1 सुंदर। क्या आपको लगता है कि यहाँ के अवशेषों पर भी परिकल्पना परीक्षण की भूमिका है?
एलेक्सिस

@gung मैंने आपका संपादन संपादित किया। मूल स्पष्ट रूप से पर्याप्त स्पष्ट नहीं था यदि आपने इसे गलत समझा।
निक कॉक्स

2
@Alexis धन्यवाद! मैं इस विचार से खुश हूं कि इस मामले में ग्राफ द्वारा समान रूप से बिखराव की एक परिकल्पना अनौपचारिक रूप से समर्थित है। मैं विचार के स्कूल का नहीं हूं कि एक विश्लेषण में हर छोटे कदम को पी-मान द्वारा पवित्र करने की आवश्यकता है। दुर्भाग्य से, यह सुनिश्चित करना कभी भी आसान नहीं है कि आप सही तरीके से कूदते हैं, लेकिन मैं अभ्यास में अन्य मॉडलों का भी मनोरंजन करूंगा यदि मुझे संदेह था। यहां उदाहरण केवल सवाल के लिए मनगढ़ंत है और एक गंभीर विश्लेषण का हिस्सा नहीं है।
निक कॉक्स

मेरी क्षमायाचना, निक। मैंने उस वाक्यांश की बात को गलत समझा। मुझे लगा कि यह एक टाइपो है। यह अब स्पष्ट है।
गंग -

1
@ मेरे लिए यह ठीक है। कुछ लोग उन्हें भ्रमित करते हुए पाते हैं, या इसलिए मुझे बताया गया है।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.