रिज प्रतिगमन का उपयोग करते समय मैं गुणांक मानक त्रुटियों का अनुमान कैसे लगा सकता हूं?


18

मैं अत्यधिक बहुस्तरीय डेटा पर रिज प्रतिगमन का उपयोग कर रहा हूं। ओएलएस के उपयोग से मुझे मल्टीकोलिनरिटी के कारण गुणांक पर बड़ी मानक त्रुटियां मिलती हैं। मैं जानता हूं कि रिज रिग्रेशन इस समस्या से निपटने का एक तरीका है, लेकिन रिज रिग्रेशन के सभी कार्यान्वयनों में जो मैंने देखा है, गुणांक के लिए कोई मानक त्रुटियां नहीं बताई गई हैं। मैं अनुमान लगाने का कुछ तरीका चाहूंगा कि रिज का प्रतिगमन यह देखने में मदद कर रहा है कि यह विशिष्ट गुणांक के मानक त्रुटियों को कितना कम कर रहा है। क्या रिज रिग्रेशन में उनका अनुमान लगाने का कोई तरीका है?

जवाबों:


19

मुझे लगता है कि बूस्ट एसईपी को मजबूत करने के लिए सबसे अच्छा विकल्प होगा। यह संकोचन विधियों का उपयोग करते हुए कुछ लागू किए गए कार्यों में किया गया था, उदाहरण के लिए एक दंडित लॉजिस्टिक रिग्रेशन दृष्टिकोण (बीएमसी कार्यवाही 2009) का उपयोग करके उत्तर अमेरिकी संधिशोथ कंसोर्टियम डेटा का विश्लेषण । दंडित मॉडल, दंडित प्रतिगमन, मानक त्रुटियां और बेइज़ियन लासोस (बायेसियन विश्लेषण 2010 5 (2)) के साथ एसई संगणना पर कैसला से एक अच्छा पेपर भी है । लेकिन वे लासो और इलास्टिनेट दंड के साथ अधिक चिंतित हैं ।

मैंने हमेशा रिज रिग्रेशन के बारे में मानक ओएलएस की तुलना में बेहतर भविष्यवाणियां करने के तरीके के बारे में सोचा, जहां मॉडल आम तौर पर पंगु नहीं होता है। चर चयन के लिए, लैसो या elasticnet मापदंड अधिक उपयुक्त हैं, लेकिन तब यह एक बूटस्ट्रैप प्रक्रिया लागू करने के लिए (के बाद से चयनित चर दूसरे के नमूने से बदल जाएगा, और यहां तक कि आंतरिक में मुश्किल है का इस्तेमाल किया गुना पाश अनुकूलन करने के लिए / पैरामीटर); यह रिज प्रतिगमन के साथ ऐसा नहीं है, क्योंकि आप हमेशा सभी चर मानते हैं।12

मुझे आर पैकेज के बारे में कोई जानकारी नहीं है जो यह जानकारी देगा। यह glmnet पैकेज में उपलब्ध नहीं लगता है (जेएसएस में फ्रीडमैन का पेपर देखें, कोर्डिनेट डिसेंट के माध्यम से सामान्यीकृत रैखिक मॉडल के लिए नियमितीकरण पथ )। हालांकि, Jelle Goeman जो लेखक दंडित पैकेज भी इस बिंदु पर चर्चा। वेब पर मूल पीडीएफ नहीं मिल सकता है, इसलिए मैं बस उनके शब्दों को उद्धृत करता हूं:

प्रतिगमन गुणांक या अन्य अनुमानित मात्रा के मानक त्रुटियों के लिए पूछना एक बहुत ही स्वाभाविक प्रश्न है। सिद्धांत रूप में ऐसी मानक त्रुटियों की गणना आसानी से की जा सकती है, उदाहरण के लिए बूटस्ट्रैप का उपयोग करना।

फिर भी, यह पैकेज जानबूझकर उन्हें प्रदान नहीं करता है। इसका कारण यह है कि दंडात्मक अनुमान विधियों से उत्पन्न होने वाले दृढ़ता से पक्षपाती अनुमानों के लिए मानक त्रुटियां बहुत सार्थक नहीं हैं। दंडित अनुमान एक ऐसी प्रक्रिया है जो पर्याप्त पूर्वाग्रह की शुरुआत करके अनुमानकर्ताओं के विचरण को कम करती है। इसलिए प्रत्येक अनुमानक का पूर्वाग्रह अपनी क्षुद्र त्रुटि का एक प्रमुख घटक है, जबकि इसका विचरण केवल एक छोटे से हिस्से में योगदान दे सकता है।

दुर्भाग्य से, दंडित प्रतिगमन के अधिकांश अनुप्रयोगों में पूर्वाग्रह का पर्याप्त सटीक अनुमान प्राप्त करना असंभव है। किसी भी बूटस्ट्रैप-आधारित कैल्स केवल अनुमानों के विचलन का आकलन दे सकते हैं। पूर्वाग्रह के विश्वसनीय अनुमान केवल उपलब्ध हैं यदि विश्वसनीय निष्पक्ष अनुमान उपलब्ध हैं, जो आमतौर पर उन परिस्थितियों में नहीं होता है जिनमें दंडित अनुमान का उपयोग किया जाता है।

एक दंडित अनुमान के मानक त्रुटि की रिपोर्ट करना इसलिए कहानी का केवल एक हिस्सा बताता है। यह पूर्वाग्रह के कारण होने वाली अशुद्धि को पूरी तरह से नजरअंदाज करते हुए, महान परिशुद्धता का गलत प्रभाव दे सकता है। यह निश्चित रूप से आत्मविश्वास बयान करने के लिए एक गलती है जो केवल अनुमानों के विचलन के आकलन पर आधारित है, जैसे कि बूटस्ट्रैप-आधारित आत्मविश्वास अंतराल करते हैं।


2
इस उद्धरण को प्रदान करने के लिए धन्यवाद। मूल उद्धरण यहां पेज 18 पर पाया जा सकता है
फ्रांसिस्को आरसो

8

यह मानते हुए कि डेटा उत्पादन प्रक्रिया OLS के पीछे मानक मान्यताओं का पालन करती है, रिज प्रतिगमन के लिए मानक त्रुटियां निम्न द्वारा दी गई हैं:

σ2(टी+ΓटीΓ)-1टी(टी+ΓटीΓ)-1

ऊपर का अंकन रिज रिग्रेशन के लिए विकी नोटेशन का अनुसरण करता है । विशेष रूप से,

σ2

Γ


1
टी

1

ΓटीΓλमैंमैंλअभिन्न और अन्य उलटा समस्याओं। "विज्ञान में एक उलटा समस्या है, अवलोकनीय कारकों के एक समूह से गणना करने की प्रक्रिया जो उन्हें उत्पन्न करती है: उदाहरण के लिए, कंप्यूटर टोमोग्राफी में एक छवि की गणना, स्रोत ध्वनिकी में पुनर्निर्माण, या इसके गुरुत्वाकर्षण के माप से पृथ्वी के घनत्व की गणना करना। क्षेत्र " यहां " SPSS में पूरक कोड है जो सभी मापदंडों का मानक विचलन देता है और अतिरिक्त मापदंडों को इस पेपर में परिशिष्ट के रूप में त्रुटि प्रसार का उपयोग करके प्राप्त किया जा सकता है ।

तिखोनोव नियमितीकरण के बारे में आम तौर पर गलत समझा जाता है कि क्यूरिंग की फिटिंग के साथ-साथ चौरसाई की मात्रा बहुत कम है, ब्याज के मापदंडों की त्रुटि को कम करने के लिए चौरसाई कारक का उपयोग किया जाना चाहिए। आपको उस विशिष्ट समस्या के बारे में और भी बहुत कुछ बताना होगा जो आप रिज रिग्रेशन का उपयोग करने के लिए कुछ मान्य उलटा समस्या के संदर्भ में ठीक से हल करने की कोशिश कर रहे हैं, और चौरसाई कारकों के चयन पर कई कागजात, और टिखोनोव नियमितीकरण के कई प्रकाशित उपयोग हैं। थोड़ा सा अनुमान।

इसके अलावा Tikhonov नियमितीकरण कई के बीच केवल एक उलटा समस्या उपचार है। पत्रिका उलटा समस्याओं के लिए लिंक का पालन करें ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.