रैखिक मॉडल Heteroscedasticity


10

मेरे पास निम्न रैखिक मॉडल है:

रैखिक मॉडल अवशिष्ट अवलोकन वितरण

अवशेषों को सम्‍मिलित करने के लिए मैंने आश्रित चर पर एक परिवर्तन को रूप में लागू करने की कोशिश की है, लेकिन मुझे अभी भी अवशेषों पर समान प्रशंसक प्रभाव दिखाई देता है। DV मान अपेक्षाकृत छोटा है इसलिए लॉग लेने से पहले +1 निरंतर जोड़ इस मामले में शायद उचित नहीं है।log(Y+1)

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

मैं भविष्यवाणी की त्रुटि और विचरण को बेहतर बनाने के लिए चर को कैसे बदल सकता हूं, विशेष रूप से दूर के सही मूल्यों के लिए?

जवाबों:


11

आपका लक्ष्य क्या है? हम जानते हैं कि विषमलैंगिकता हमारे गुणांक का अनुमान नहीं लगाती है; यह केवल हमारी मानक त्रुटियों को गलत बनाता है। इसलिए, यदि आप केवल मॉडल के फिट के बारे में परवाह करते हैं, तो हेटेरोसेडासिटी कोई फर्क नहीं पड़ता।

यदि आप कम से कम वर्गों का उपयोग करते हैं, तो आप अधिक कुशल मॉडल ( यानी , छोटे मानक त्रुटियों के साथ) प्राप्त कर सकते हैं । इस मामले में, आपको प्रत्येक अवलोकन के लिए विचरण का अनुमान लगाने की आवश्यकता है और प्रत्येक अवलोकन को उस अवलोकन-विशिष्ट विचरण ( weightsतर्क के मामले में lm) के उलटा द्वारा वज़न करना है । यह अनुमान प्रक्रिया आपके अनुमानों को बदल देती है।

वैकल्पिक रूप से, अपने अनुमानों को बदलने के बिना विषमलैंगिकता के लिए मानक त्रुटियों को ठीक करने के लिए, आप मजबूत मानक त्रुटियों का उपयोग कर सकते हैं। एक Rआवेदन के लिए, पैकेज देखें sandwich

प्रवेश परिवर्तन का उपयोग करना विषमलैंगिकता के लिए सही करने के लिए एक अच्छा दृष्टिकोण हो सकता है, लेकिन केवल अगर आपके सभी मूल्य सकारात्मक हैं और नया मॉडल उस प्रश्न के सापेक्ष एक उचित व्याख्या प्रदान करता है जो आप पूछ रहे हैं।


मेरा प्राथमिक लक्ष्य त्रुटियों को कम करना है। मुझे कम से कम वर्गों में देखना होगा, लेकिन मैं इस धारणा के तहत था कि एक DV परिवर्तन सही कदम था, यह देखते हुए कि नियमित रूप से उच्च सज्जित मूल्यों के लिए अवशिष्ट विचरण कैसे बढ़ता है।
राबर्ट कुब्रिक

आपका क्या मतलब है "त्रुटियों को कम करें"? औसत त्रुटि 0. है। यहां तक ​​कि आपके प्लॉट में, आपके द्वारा चुनी गई किसी भी विंडो में, औसतन 0. है
चार्ली

मेरा मतलब है कि मॉडल की भविष्यवाणी में सुधार, यह समग्र निरपेक्ष त्रुटि और त्रुटि विचरण को कम करता है, विशेष रूप से उच्च फिट मूल्यों के लिए।
रॉबर्ट कुब्रिक

1
yyy

1
yyyy

4

आप बॉक्स-कॉक्स परिवर्तन की कोशिश करना चाहेंगे । यह एक शक्ति परिवर्तन का एक संस्करण है:

y{yλ1λ(y˙)λ1,λ0y˙lny,λ=0
y˙

पहले की कुछ चर्चाओं में शामिल हैं कि सामान्य रूप से सामान्य वर्ग से परे अन्य सामान्य परिवर्तन क्या उपयोग किए जाते हैं जैसे कि वर्गमूल, लॉग इत्यादि? और मुझे शून्य सहित गैर-नकारात्मक डेटा कैसे बदलना चाहिए? । आप R में सांख्यिकीय प्रक्रिया के लिए खोज करने के लिए R कोड पा सकते हैं ?

अर्थशास्त्रियों ने हेटेरोस्कैडसिटी (जो वास्तव में सिर्फ एक सांख्यिकीविद् एफ। इकर (1967) द्वारा पूर्व की कहानी को वापस ले लिया है) को मजबूत करने वाली अवर प्रक्रियाओं को स्थापित करने पर हलबर्ट व्हाइट (1980) के काम के बाद विषमलैंगिकता के बारे में परेशान करना बंद कर दिया। विकिपीडिया पृष्ठ देखें जिसे मैंने अभी लिखा है।


धन्यवाद, इस बिंदु पर मैं बहस कर रहा हूं कि क्या पॉवर ट्रांसफॉर्म लागू करना है या त्रुटियों को कम करने और पूर्वानुमान अंतराल में सुधार करने के लिए मजबूत प्रतिगमन का उपयोग करना है। मुझे आश्चर्य है कि दोनों तकनीकों की तुलना कैसे होती है। इसके अलावा अगर मैं परिवर्तन का उपयोग करता हूं तो मुझे पूर्वानुमानित मूल्यों को वापस बदलना होगा। यह एक स्पष्ट सूत्र की तरह नहीं दिखता है, यह करता है?
रॉबर्ट कुब्रिक

y

@ चार्ली का मतलब है en.wikipedia.org/wiki/Robust_regression । मैं इसके लिए नया हूं, लेकिन मैं समझता हूं कि मजबूत प्रतिगमन अनुमान तकनीक को बदल देता है, इसलिए अवशिष्ट अलग होना चाहिए।
रॉबर्ट कुब्रिक

सही, यह एक अलग विधि है और आपके अनुमानों को बदल देती है। मुझे लगता है कि मजबूत प्रतिगमन आउटलेर के मामलों के लिए बेहतर अनुकूल है। आपके द्वारा उपयोग किए जाने वाले मजबूत प्रतिगमन के किस संस्करण और आपके विशेष डेटा सेट के आधार पर, आप OLS के सापेक्ष व्यापक विश्वास अंतराल प्राप्त कर सकते हैं।
चार्ली

1

समय श्रृंखला डेटा के भीतर आश्रित चर के साथ जुड़े हेटेरोसेडासिटी समस्या का एक बहुत ही सरल समाधान है। मुझे नहीं पता कि यह आपके आश्रित चर पर लागू है। यह मानते हुए कि यह नाममात्र वाई का उपयोग करने के बजाय पूर्व अवधि में वर्तमान अवधि से वाई में% परिवर्तन करने के लिए इसे बदल रहा है। उदाहरण के लिए, मान लीजिए कि आपकी नाममात्र Y सबसे मौजूदा अवधि में $ 14 ट्रिलियन की GDP है। इसके बजाय, सबसे हालिया अवधि में जीडीपी में बदलाव की गणना करें (मान लें कि 2.5%)।

एक नाममात्र समय श्रृंखला हमेशा बढ़ती है और हमेशा विषमलैंगिक होती है (समय के साथ त्रुटि का विचलन बढ़ता है क्योंकि मान बढ़ता है)। एक% परिवर्तन श्रृंखला आम तौर पर होमोसैकेस्टिक है क्योंकि निर्भर चर बहुत अधिक स्थिर है।


Y

यह आश्चर्य की बात है। आमतौर पर,% परिवर्तन चर हेटेरोसेडैस्टिक नहीं होते हैं। मुझे आश्चर्य है कि अगर अवशिष्ट हमारे विचार से कम विषमलैंगिक हैं। और, यह कि अंतर्निहित मुद्दा आउटलेर्स में से एक है। मुझे ०.१५% रेंज में ४ या ५ अवलोकनों को देखते हैं कि यदि हटा दिया जाता है तो पूरे ग्राफ को कम हेट्रोसेकेडिक दिखना होगा। इसके अलावा, जैसा कि दूसरों ने उल्लेख किया है कि विषमलैंगिकता आपके प्रतिगमन गुणांक को भ्रष्ट नहीं करेगी, लेकिन केवल आपके आत्मविश्वास अंतराल और संबंधित मानक त्रुटि। हालाँकि, आपके ग्राफ़ को देखकर ऐसा लगता है कि CI बहुत प्रभावित नहीं हो सकता है। और, अभी भी उपयोगी हो सकता है।
सिम्पा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.