आप कम से कम वर्ग प्रतिगमन के लिए वजन कैसे पाते हैं?


23

मैं WLS प्रतिगमन की प्रक्रिया में थोड़ा खो गया हूं। मुझे डाटासेट दिया गया है और मेरा काम यह परखना है कि क्या विषमता है, और यदि ऐसा है तो मुझे डब्ल्यूएलएस प्रतिगमन चलाना चाहिए।

मैंने परीक्षण किया है और विषमता के लिए साक्ष्य पाए हैं, इसलिए मुझे डब्ल्यूएलएस चलाने की आवश्यकता है। मुझे बताया गया है कि डब्ल्यूएलएस मूल रूप से एक रूपांतरित मॉडल का ओएलएस प्रतिगमन है, लेकिन मैं परिवर्तन समारोह को खोजने के बारे में थोड़ा भ्रमित हूं। मैंने कुछ लेखों को पढ़ा है जो यह सुझाव देते हैं कि परिवर्तन ओएलएस प्रतिगमन से चुकता अवशिष्टों का कार्य हो सकता है, लेकिन मैं सराहना करूंगा यदि कोई मुझे सही रास्ते पर लाने में मदद कर सकता है।


2
यदि आप मानते हैं कि त्रुटियों का सहसंयोजक मातृ विकर्ण है तो आप अनुमानित भार के साथ सहसंयोजक मैट्रिक्स और फिर डब्ल्यूएलएस प्रतिगमन का अनुमान लगा सकते हैं। ऐसा करने के लिए आप en.wikipedia.org/wiki/Generalized_least_squares
मैनुअल

जवाबों:


26

भारित कम से कम वर्ग (डब्ल्यूएलएस) प्रतिगमन एक परिवर्तित मॉडल नहीं है। इसके बजाय, आप और बीच अंतर्निहित संबंध के बारे में अधिक से अधिक जानकारीपूर्ण रूप से प्रत्येक अवलोकन का इलाज कर रहे हैं । जो बिंदु अधिक जानकारीपूर्ण होते हैं उन्हें अधिक 'वजन' दिया जाता है, और जो कम जानकारीपूर्ण होते हैं उन्हें कम वजन दिया जाता है। आप सही हैं कि कम से कम वर्ग (डब्ल्यूएलएस) प्रतिगमन तकनीकी रूप से केवल तभी मान्य है जब वजन एक प्राथमिकताओं के रूप में जाना जाता है। एक्सY

हालांकि, (ओएलएस) रैखिक प्रतिगमन विषमलैंगिकता के खिलाफ काफी मजबूत है और इस तरह यदि आपके अनुमान ballpark में हैं तो WLS है। OLS प्रतिगमन के लिए अंगूठे का एक नियम यह है कि यह विषमता से प्रभावित नहीं होता है जब तक कि अधिकतम विचरण न्यूनतम विचरण से 4 गुना से अधिक न हो। उदाहरण के लिए, यदि साथ अवशिष्टों / त्रुटियों का विचरण बढ़ता है , तो आप ठीक होंगे यदि उच्च अंत में अवशिष्टों का विचरण कम अंत में अवशिष्टों के विचरण से चार गुना से कम था। इसका निहितार्थ यह है कि यदि आपका वजन आपको उस सीमा के भीतर मिलता है, तो आप यथोचित सुरक्षित हैं। यह एक घोड़े की नाल और हैंड ग्रेनेड की तरह हैएक्सपरिस्थिति। नतीजतन, आप अपने भविष्यवक्ता चर के स्तरों से अवशिष्ट के विचरण से संबंधित फ़ंक्शन का अनुमान लगाने की कोशिश कर सकते हैं।

इस तरह का अनुमान कैसे लगाया जाना चाहिए, इस संबंध में कई मुद्दे हैं:

  1. याद रखें कि वज़न विचरण (या जो भी आप उपयोग करते हैं) का पारस्परिक होना चाहिए।

  2. यदि आपका डेटा केवल असतत स्तरों पर होता है , जैसे एक प्रयोग या एक एनोवा, तो आप प्रत्येक स्तर पर सीधे विचरण का अनुमान लगा सकते हैं और इसका उपयोग कर सकते हैं। यदि अनुमान एक सतत चर (जैसे, 0 मिलीग्राम।, 10 मिलीग्राम।, 20 मिलीग्राम।, आदि) के असतत स्तर हैं, तो आप उन लोगों को चिकना करना चाहते हैं, लेकिन शायद इससे बहुत फर्क नहीं पड़ेगा। एक्सएक्स

  3. हालांकि, भिन्नता के अनुमानों, हालांकि, आउटलेर्स और / या उच्च उत्तोलन बिंदुओं के लिए अतिसंवेदनशील हैं, हालांकि। यदि आपका डेटा भर में समान रूप से वितरित नहीं किया गया है , या आपके पास अपेक्षाकृत कम डेटा है, तो सीधे विचरण का अनुमान लगाने की अनुशंसा नहीं की जाती है। किसी ऐसी चीज का अनुमान लगाना बेहतर है, जो विचरण के साथ सहसंबंधित है, लेकिन जो अधिक मजबूत है। एक सामान्य विकल्प सशर्त माध्य से विचलन के पूर्ण मूल्यों के वर्गमूल का उपयोग करना होगा। (उदाहरण के लिए, आर में, खिलाफ इनमें से एक स्कैप्लेट को प्रदर्शित करेगा , जिसे "प्रसार स्तर की साजिश" कहा जाता है, जिससे आपको संभावित विषमता का निदान करने में मदद मिलेगी, यहां मेरा जवाब देखें ।) सशर्त इंटरसार्टाइल रेंज का उपयोग करने के लिए और भी अधिक मजबूत हो सकता है, या। सशर्तएक्सplot(model, which=2)एक्समाध्यिका से औसतन पूर्ण विचलन

  4. एक्सएक्स

  5. एक ओएलएस प्रतिगमन के अवशेषों से अपना वजन कम करना उचित है क्योंकि ओएलएस निष्पक्ष है, यहां तक ​​कि विषमलैंगिकता की उपस्थिति में भी। बहरहाल, वे भार मूल मॉडल पर आकस्मिक हैं, और बाद के डब्ल्यूएलएस मॉडल के फिट को बदल सकते हैं। इस प्रकार, आपको दो रिग्रेसन से अनुमानित बेट्स की तुलना करके अपने परिणामों की जांच करनी चाहिए। यदि वे बहुत समान हैं, तो आप ठीक हैं। यदि WLS के गुणांक OLS वालों से अलग हो जाते हैं, तो आपको मैन्युअल रूप से अवशिष्टों की गणना करने के लिए WLS अनुमानों का उपयोग करना चाहिए (WLS फिट से सूचित अवशिष्ट अवशिष्टों को ध्यान में रखकर वज़न उठाएंगे)। अवशिष्टों के एक नए सेट की गणना करने के बाद, फिर से वज़न का निर्धारण करें और एक दूसरे डब्ल्यूएलएस रिग्रेशन में नए वज़न का उपयोग करें। यह प्रक्रिया तब तक दोहराई जानी चाहिए जब तक अनुमानित बेटास के दो सेट पर्याप्त रूप से समान न हों (यहां तक ​​कि यह एक बार करना असामान्य है, हालांकि)।

यदि यह प्रक्रिया आपको कुछ असहज बनाती है, क्योंकि वज़न का अनुमान लगाया जाता है, और क्योंकि वे पहले से गलत मॉडल पर विचार कर रहे हैं, तो दूसरा विकल्प ह्यूबर-व्हाइट 'सैंडविच' अनुमानक का उपयोग करना है । यह भले ही कितना भी गंभीर हो, विषमलैंगिकता की उपस्थिति में भी सुसंगत है, और यह मॉडल पर आकस्मिक नहीं है। यह संभावित रूप से कम परेशानी भी है।

मैं अपने उत्तर में भारित कम से कम वर्गों और सैंडविच एसई के उपयोग का एक सरल संस्करण प्रदर्शित करता हूं: विषम डेटा के लिए एक तरफ़ा एनोवा के विकल्प


10

डब्ल्यूएलएस प्रदर्शन करते समय, आपको वजन जानने की आवश्यकता होती है। डगलस सी। मॉन्टगोमरी, एलिजाबेथ ए। पेक, जी। जेफ्री विन्निग द्वारा परिचय के 191 के बारे में कहा गया है कि उन्हें खोजने के कुछ तरीके हैं । उदाहरण के लिए:

  1. कुछ सैद्धांतिक मॉडल का उपयोग करके अनुभव या पूर्व जानकारी।
  2. vआर(εमैं)=σ2एक्समैंwमैं=1/एक्समैं
  3. nमैंएक्समैंvआर(yमैं)=vआर(εमैं)=σ2/nमैंwमैं=nमैं
  4. शायद ही कभी हम जानते हैं कि विभिन्न अवलोकनों को विभिन्न उपकरणों द्वारा मापा गया है जिनकी कुछ (ज्ञात या अनुमानित) सटीकता है। इस मामले में हम माप त्रुटियों के भिन्नता के विपरीत आनुपातिक के रूप में वजन का उपयोग करने का निर्णय ले सकते हैं।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.