विषमलैंगिकता से निपटने का सबसे अच्छा तरीका?


19

मेरे पास फिट किए गए मूल्यों के कार्य में एक रेखीय मॉडल के अवशिष्ट मूल्यों का एक भूखंड है जहां विषमलैंगिकता बहुत स्पष्ट है। हालांकि मुझे यकीन नहीं है कि मुझे अब कैसे आगे बढ़ना चाहिए क्योंकि जहां तक ​​मैं समझता हूं कि यह विषमता मेरे रैखिक मॉडल को अमान्य बनाती है। (क्या वह सही है?)

  1. पैकेज के rlm()फ़ंक्शन का उपयोग करके मजबूत रैखिक फिटिंग का उपयोग करें MASSक्योंकि यह स्पष्ट रूप से विषमलैंगिकता के लिए मजबूत है।

  2. जैसा कि मेरे गुणांक की मानक त्रुटियां विषमता के कारण गलत हैं, मैं सिर्फ मानक त्रुटियों को विषमता के प्रति मजबूत होने के लिए समायोजित कर सकता हूं? यहां स्टैक ओवरफ्लो पर पोस्ट की गई विधि का उपयोग करना: हेटेरोसेकेडसिटी के साथ प्रतिगमन मानक त्रुटियों को ठीक करता है

मेरी समस्या से निपटने के लिए सबसे अच्छा तरीका कौन सा होगा? यदि मैं समाधान 2 का उपयोग करता हूं तो क्या मेरे मॉडल की भविष्यवाणी क्षमता पूरी तरह से बेकार है?

ब्रेक्स-पैगन परीक्षण ने पुष्टि की कि विचरण स्थिर नहीं है।

लगे हुए मूल्यों के कार्य में मेरे अवशेष इस तरह दिखते हैं:

https://i.gyazo.com/9407a829a168492b31dfa3d1dd33a21d.png

(बड़ा संस्करण)


क्या आपका मतलब hange स्टैकओवरफ़्लो ’के बजाय mean स्टैकओवरफ़्लो’ से है? (आप अभी भी स्टेक्सएक्सचेंज पर यहां हैं।) यदि यह एसओ था, तो आम तौर पर दूसरी प्रति पोस्ट करने के बजाय सवाल को माइग्रेट करना बेहतर होता है (मदद एक ही क्यू को कई बार पोस्ट नहीं करने के लिए कहता है लेकिन एक सबसे अच्छी जगह चुनता है)।
Glen_b -Reinstate Monica

प्रसार में भिन्नता इतनी अधिक नहीं है कि प्रभाव गंभीर होगा (यह है, जबकि यह आपकी मानक त्रुटियों और पूर्वाग्रह प्रभाव को पूर्वाग्रह करेगा, यह शायद बहुत बड़ा अंतर नहीं करेगा)। मैं इस बात पर विचार करने के लिए इच्छुक हूं कि क्या प्रसार माध्य से संबंधित था, और शायद एक जीएलएम या संभवतः परिवर्तन को देखें (यह निश्चित रूप से फिट से संबंधित दिखता है)। Y- चर क्या है?
Glen_b -Reinstate Monica

2
एक अन्य संभावना है कि विषमलैंगिकता का मॉडल तैयार करना, उदाहरण के लिए, glsपैकेज लक्सम से विचरण संरचनाओं में से एक का उपयोग करना।
रोलैंड

जवाबों:


18

यह एक अच्छा सवाल है, लेकिन मुझे लगता है कि यह गलत सवाल है। आपका आंकड़ा यह स्पष्ट करता है कि आपके पास विषमलैंगिकता की तुलना में अधिक मौलिक समस्या है, अर्थात आपके मॉडल में एक गैर-शुद्धता है जिसे आपने हिसाब नहीं दिया है। कई संभावित समस्याएं जो एक मॉडल में हो सकती हैं (अशुद्धता, अंतःक्रियाएं, आउटलेर, विषमलैंगिकता, गैर-सामान्यता) एक दूसरे के रूप में बहक सकती हैं। मुझे नहीं लगता कि एक कठिन और तेज़ नियम है, लेकिन सामान्य तौर पर मैं आदेश में समस्याओं से निपटने का सुझाव दूंगा

outliers > nonlinearity > heteroscedasticity > non-normality

(उदाहरण के लिए, यह जाँचने से पहले कि आप विषमता के बारे में चिंता नहीं कर रहे हैं या नहीं, विषमता के बारे में चिंता करने से पहले सामान्यता के बारे में चिंता न करें।

इस विशेष मामले में, मैं एक द्विघात मॉडल y ~ poly(x,2)(या poly(x,2,raw=TRUE)या y ~ x + I(x^2)देखूंगा कि क्या यह समस्या को दूर करता है)।


प्लॉट छोटा है और कुल्हाड़ियों को लेबल नहीं किया गया है। मुझे नहीं पता कि यह एक अवशिष्ट बनाम सज्जित साजिश है। मैंने मान लिया कि ओपी में एक चुकता शब्द शामिल है, जैसे। यदि नहीं, तो आप स्पष्ट रूप से सही हैं।
गुंग - को पुनः स्थापित मोनिका

1
अपने ब्राउज़र में मैं देख सकता हूं कि y- अक्ष सीमा -4 से 3 तक जाती है, जो एक अवशिष्ट बनाम सज्जित प्लॉट का सुझाव देता है / एक स्केल-लोकेशन प्लॉट को
नियमबद्ध करता है

1
हाय बेन, जो तुम करते हो उससे प्यार करो। क्या आप इस विचार पर विस्तार कर सकते हैं कि "आउटलेयर" सबसे बड़ा मुद्दा है? क्या आपके पास एकल उच्च-उत्तोलन बिंदु "आउटलेर्स" के रूप में शामिल हैं, भले ही उनके पास एक छोटा अवशिष्ट हो? मैं अपने काम की लाइन (पर्यावरणीय आँकड़े) में हर समय चरम मूल्य टिप्पणियों से निपटता हूं, और मुझे लगता है कि कुछ लोग (विशेष रूप से ईपीए) आउटलेरर्स को समानुपातिक तरीके से उड़ाने की प्रवृत्ति रखते हैं (किसी भी अनजाने दंड को क्षमा करें) और उत्सुक होने का तरीका है उन्हें बाहर करने के लिए। यदि मैं अच्छे प्रमाण नहीं पा सकता कि मैं डेटा (संग्रह, प्रविष्टि) त्रुटि का परिणाम हूं, तो मैं आउटलेर्स के प्रति सहिष्णु रवैया अपनाता हूं।
डाल्टन हांस

1
@ डाल्टनहांस: हम संभवतः एक ही पृष्ठ पर बहुत अधिक हैं। मेरा कहना सिर्फ इतना है कि यदि आपके पास आउटलेयर (जो भी परिभाषा है) और वे उस सांख्यिकीय मॉडल / दृष्टिकोण को ध्यान में नहीं रखते हैं जो आप उपयोग कर रहे हैं (मिश्रण मॉडल, मजबूत आँकड़े, वसा-पूंछ वितरण, आदि), तो यह आपके बाकी सभी डायग्नोस्टिक्स को खराब कर देगा - यह अवशिष्टों को गैर-रेखीय / विषमलैंगिक / गैर-सामान्य दिखेगा। मैं निश्चित रूप से इस बात से सहमत हूं कि आपको केवल विचारहीन रूप से / रिफ्लेक्सली उन्हें फेंकना नहीं चाहिए।
बेन बोलकर

8

मैं Rयहां विषमलैंगिकता ( उदाहरण के साथ ) से निपटने के कई तरीकों की सूची देता हूं : विषम डेटा के लिए एक तरफ़ा ANOVA के विकल्प । उन अनुशंसाओं में से कई कम आदर्श होंगी क्योंकि आपके पास एक एकल-स्तरीय चर है, बजाय एक बहु-स्तरीय श्रेणीगत चर, लेकिन किसी भी तरह अवलोकन के माध्यम से पढ़ना अच्छा हो सकता है।

आपकी स्थिति के लिए, कम से कम वर्ग (शायद मजबूत प्रतिगमन के साथ संयुक्त अगर आपको संदेह है कि कुछ आउटलेयर हो सकते हैं) एक उचित विकल्प होगा। ह्यूबर-व्हाइट सैंडविच त्रुटियों का उपयोग करना भी अच्छा होगा।

आपके विशिष्ट प्रश्नों के कुछ उत्तर यहां दिए गए हैं:

  1. मजबूत प्रतिगमन एक व्यवहार्य विकल्प है, लेकिन बेहतर होगा यदि मेरी राय में वजन के साथ जोड़ा जाए। यदि आप चिंतित नहीं हैं कि विषमलैंगिकता आउटलेर्स के कारण है, तो आप वज़न के साथ नियमित रैखिक प्रतिगमन का उपयोग कर सकते हैं। विदित हो कि वेरिएंट आउटलेर्स के लिए बहुत संवेदनशील हो सकता है, और आपके परिणाम अनुचित वज़न के प्रति संवेदनशील हो सकते हैं, इसलिए अंतिम मॉडल के लिए मजबूत प्रतिगमन का उपयोग करने से अधिक महत्वपूर्ण क्या हो सकता है जो वज़न का अनुमान लगाने के लिए फैलाव के एक मजबूत माप का उपयोग करेगा। लिंक किए गए धागे में, मैं उदाहरण के लिए 1 / IQR का उपयोग करता हूं।
  2. विषमता के कारण मानक त्रुटियां गलत हैं। आप ह्यूबर-व्हाइट सैंडविच अनुमानक के साथ मानक त्रुटियों को समायोजित कर सकते हैं। यही कारण है कि @GavinSimpson लिंक किए गए SO थ्रेड में कर रहा है।

एक्सएक्स


1
lmrob पैकेज से मजबूत प्रतिगमन का उपयोग करने से स्वचालित रूप से कुछ वज़न घट जाएगा, # 1 के बजाय उन का उपयोग क्यों नहीं किया जाता है?
tool.ish

1

sandwich packageअपने प्रतिगमन के var-cov मैट्रिक्स को लोड करें और गणना करें var_cov<-vcovHC(regression_result, type = "HC4")(पढ़ें मैनुअल sandwich)। अब फ़ंक्शन के lmtest packageउपयोग के साथ coeftest:

coeftest(regression_result, df = Inf, var_cov)

0

आपके डेटा का वितरण कैसा दिखता है? क्या यह बिल्कुल घंटी की तरह दिखता है? विषय वस्तु से, क्या इसे सामान्य रूप से वितरित किया जा सकता है? उदाहरण के लिए, फ़ोन कॉल की अवधि नकारात्मक नहीं हो सकती है। तो कॉल के उस विशिष्ट मामले में एक गामा वितरण अच्छी तरह से वर्णन करता है। और गामा के साथ आप सामान्यीकृत रैखिक मॉडल (R में glm) का उपयोग कर सकते हैं

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.