@ नाइकॉक्स ने दो समूहों के होने पर अवशेषों के प्रदर्शन के बारे में बात करते हुए अच्छा काम किया है। मुझे कुछ स्पष्ट प्रश्नों और निहित धारणाओं के बारे में बताएं जो इस धागे के पीछे हैं।
सवाल पूछता है, "जब आप एक स्वतंत्र चर द्विआधारी होता है तो आप कैसे रैखिक प्रतिगमन जैसे कि समलैंगिकता की धारणाओं का परीक्षण करते हैं?" आपके पास एक एकाधिक प्रतिगमन मॉडल है। ए (एकाधिक) प्रतिगमन मॉडल मानता है कि केवल एक त्रुटि शब्द है, जो हर जगह स्थिर है। यह अलग-अलग सार्थक नहीं है (और आपके पास नहीं है) व्यक्तिगत रूप से प्रत्येक भविष्यवक्ता के लिए विषमता की जांच करना। यही कारण है कि, जब हमारे पास कई प्रतिगमन मॉडल होते हैं, तो हम अवशिष्ट के भूखंडों से पूर्वानुमेय मूल्यों के बनाम विषमता का निदान करते हैं। संभवतः इस उद्देश्य के लिए सबसे उपयोगी प्लॉट एक स्केल-लोकेशन प्लॉट (जिसे level स्प्रेड-लेवल ’भी कहा जाता है), जो कि अवशिष्टों बनाम पूर्वानुमानित मूल्यों के निरपेक्ष मान के वर्गमूल का एक प्लॉट है। उदाहरण देखने के लिए,एक रैखिक प्रतिगमन मॉडल में "निरंतर विचरण" होने का क्या मतलब है?
इसी तरह, आपको सामान्यता के लिए प्रत्येक भविष्यवक्ता के लिए अवशेषों की जांच करने की आवश्यकता नहीं है। (मैं ईमानदारी से यह भी नहीं जानता कि यह कैसे काम करेगा।)
आप व्यक्तिगत भविष्यवक्ताओं के खिलाफ अवशिष्ट के भूखंडों के साथ क्या कर सकते हैं यह देखने के लिए जांचें कि क्या कार्यात्मक रूप ठीक से निर्दिष्ट है। उदाहरण के लिए, यदि अवशिष्ट एक परवलय का निर्माण करते हैं, तो डेटा में कुछ वक्रता है जिसे आपने याद किया है। एक उदाहरण देखने के लिए, यहाँ @ Glen_b के उत्तर में दूसरा प्लॉट देखें: रेखीय प्रतिगमन में मॉडल की गुणवत्ता की जाँच करना । हालाँकि, ये समस्याएँ बाइनरी भविष्यवक्ता के साथ लागू नहीं होती हैं।
इसके लायक क्या है, यदि आपके पास केवल श्रेणीबद्ध भविष्यवक्ता हैं, तो आप विषमलैंगिकता के लिए परीक्षण कर सकते हैं। आप बस लेवेने के परीक्षण का उपयोग करें। मैं यहां इसकी चर्चा करता हूं: क्यों लेवेने ने एफ अनुपात के बजाय भिन्नताओं की समानता का परीक्षण किया है? R में आप कार पैकेज से लेवेनटेस्ट का उपयोग करते हैं ।
संपादित करें: इस बिंदु को बेहतर ढंग से समझाने के लिए कि एक व्यक्तिगत पूर्वानुमानकर्ता बनाम बनाम अवशिष्ट के एक भूखंड को देखने से आपके कई प्रतिगमन मॉडल होने पर मदद नहीं मिलती है, इस उदाहरण पर विचार करें:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
आप डेटा जनरेटिंग प्रक्रिया से देख सकते हैं कि कोई विषमलैंगिकता तो नहीं है। आइए मॉडल के प्रासंगिक भूखंडों की जांच करें कि क्या वे समस्याग्रस्त विषमलैंगिकता को प्रभावित करते हैं:
नहीं, चिंता की कोई बात नहीं है। हालाँकि, आइए व्यक्तिगत द्विआधारी पूर्वसूचक बनाम के अवशिष्टों के कथानक को देखें कि क्या ऐसा लगता है कि वहाँ विषमलैंगिकता है:
उह, ऐसा लगता है कि कोई समस्या हो सकती है। हम डेटा जनरेट करने की प्रक्रिया से जानते हैं कि कोई विषमलैंगिकता नहीं है, और इस खोज के लिए प्राथमिक भूखंडों में से कोई भी नहीं दिखा, तो यहां क्या हो रहा है? शायद ये प्लॉट मदद करेंगे:
x1
और x2
एक दूसरे से स्वतंत्र नहीं हैं। इसके अलावा, अवलोकन जहां x2 = 1
चरम सीमा पर हैं। उनके पास अधिक लाभ है, इसलिए उनके अवशेष स्वाभाविक रूप से छोटे हैं। बहरहाल, कोई विषमलैंगिकता नहीं है।
होम संदेश ले लो: तुम्हारा सबसे अच्छा शर्त केवल उचित भूखंडों (अवशेष बनाम फिट किए गए भूखंड, और प्रसार-स्तरीय भूखंड) से विषमलैंगिकता का निदान करना है।