दंडित प्रतिगमन मॉडल से आर-स्क्वेर और सांख्यिकीय महत्व का अनुमान लगाना


20

मैं एक डाटासेट के लिए गुणांक के सिकुड़े हुए अनुमानों को प्राप्त करने के लिए दंडित आर पैकेज का उपयोग कर रहा हूं जहां मेरे पास बहुत सारे भविष्यवक्ता हैं और जिनमें से महत्वपूर्ण हैं थोड़ा ज्ञान। जब मैंने ट्यूनिंग पैरामीटर L1 और L2 को चुना है और मैं अपने गुणांक से संतुष्ट हूं, तो क्या मॉडल को आर-स्क्वेरड जैसी किसी चीज के साथ फिट करने के लिए एक सांख्यिकीय ध्वनि तरीका है?

इसके अलावा, मैं मॉडल के समग्र महत्व (यानी R 0 = 0 करता है, या सभी = 0) का परीक्षण करने में रुचि रखता हूं।

मैंने यहां पूछे गए एक समान प्रश्न के उत्तर के माध्यम से पढ़ा है , लेकिन यह मेरे प्रश्न का काफी जवाब नहीं देता है। आर पैकेज पर एक उत्कृष्ट ट्यूटोरियल है जो मैं यहां उपयोग कर रहा हूं , और लेखक जेले गोमैन ने दंडित प्रतिगमन मॉडल से विश्वास अंतराल के बारे में ट्यूटोरियल के अंत में निम्नलिखित नोट किया था:

प्रतिगमन गुणांक या अन्य अनुमानित मात्रा के मानक त्रुटियों के लिए पूछना एक बहुत ही स्वाभाविक प्रश्न है। सिद्धांत रूप में ऐसी मानक त्रुटियों की गणना आसानी से की जा सकती है, उदाहरण के लिए बूटस्ट्रैप का उपयोग करना।

फिर भी, यह पैकेज जानबूझकर उन्हें प्रदान नहीं करता है। इसका कारण यह है कि दंडात्मक अनुमान विधियों से उत्पन्न होने वाले दृढ़ता से पक्षपाती अनुमानों के लिए मानक त्रुटियां बहुत सार्थक नहीं हैं। दंडित अनुमान एक ऐसी प्रक्रिया है जो पर्याप्त पूर्वाग्रह की शुरुआत करके अनुमानकर्ताओं के विचरण को कम करती है। प्रत्येक अनुमानक का पूर्वाग्रह इसलिए अपनी क्षुद्र त्रुटि का एक प्रमुख घटक है, जबकि इसका विचरण केवल एक छोटे से अंश में योगदान दे सकता है।

दुर्भाग्य से, दंडित प्रतिगमन के अधिकांश अनुप्रयोगों में पूर्वाग्रह का पर्याप्त सटीक अनुमान प्राप्त करना असंभव है। किसी भी बूटस्ट्रैप-आधारित कैल्स केवल अनुमानों के विचलन का आकलन दे सकते हैं। पूर्वाग्रह के विश्वसनीय अनुमान केवल उपलब्ध हैं यदि विश्वसनीय निष्पक्ष अनुमान उपलब्ध हैं, जो आमतौर पर उन स्थितियों में नहीं होता है जिनमें दंडित अनुमान का उपयोग किया जाता है।

एक दंडित अनुमान के मानक त्रुटि की रिपोर्ट करना इसलिए कहानी का केवल एक हिस्सा बताता है। यह पूर्वाग्रह के कारण होने वाली अशुद्धि को पूरी तरह से नजरअंदाज करते हुए, महान परिशुद्धता का गलत प्रभाव दे सकता है। यह निश्चित रूप से आत्मविश्वास बयान करने के लिए एक गलती है जो केवल अनुमानों के विचलन के आकलन पर आधारित है, जैसे कि बूटस्ट्रैप-आधारित आत्मविश्वास अंतराल करते हैं।


1
बेशक एक तरह से मैं जल्दी से आर-स्क्वैयर का अनुमान प्राप्त कर सकता हूं, एक रैखिक मॉडल फिटिंग करके है जो मूल डेटा से फिट किए गए मूल्यों की भविष्यवाणी करता है और उस से आर-स्क्वैयर लेता है। लेकिन ऐसा लगता है कि यह आर-स्क्वेयर्ड का व्यापक-ओवरफिट और पक्षपाती अनुमान होगा।
स्टीफन टर्नर

मैं इसे एक टिप्पणी के रूप में जोड़ता हूं क्योंकि मैं पास के पोस्ट में "समान" प्रश्न पूछ रहा हूं (इसलिए मुझे नहीं पता कि क्या मैं जवाब देने के रूप में योग्य हूं ), लेकिन आपके प्रश्न के लिए विशेष रूप से ऐसा लगता है कि आप किसी भी आवश्यकता के बिना आर-स्क्वेर की गणना कर सकते हैं। वितरण संबंधी धारणाएं (वे साधारण तरीके से परिकल्पना परीक्षणों के लिए आवश्यक हैं)। यदि आपके पास पर्याप्त डेटा नहीं है, तो क्या आप r-squared की गणना करने के लिए या k- गुना सत्यापन का उपयोग करने के लिए सेट होल्ड आउट का उपयोग नहीं कर सकते हैं (प्रत्येक तह अपनी पूर्ण दंड प्रक्रिया चलाती है और प्रत्येक तह से r-squares औसत नहीं है फिटिंग में उपयोग किया जाता है)?
B_Miner

1
@B_Miner, -fold क्रॉस सत्यापन काफी पक्षपाती अनुमान देता है , क्योंकि यह आम तौर पर ब्याज की सही मात्रा का अनुमान नहीं लगाता है । कई (अधिकांश?) समान प्रक्रियाओं में समान समस्या है। आर kR2
कार्डिनल

1
@ स्टेफेन, क्या वास्तव में वह मात्रा है जिसमें आप रुचि रखते हैं? दंड से प्रेरित पूर्वाग्रह के कारण, केवल विचरण को देखते हुए शायद यह वांछनीय नहीं है जब तक कि आपके पास पूर्वाग्रह का बहुत अच्छा अनुमान न हो। अनुमान के आधार पर का उपयोग करने का पूरा विचार अनुमानों की निष्पक्षता पर आधारित है। यहां तक ​​कि प्रतिगमन पर प्रमुख पाठ्यपुस्तकें इसे "भूल" लगती हैं। (उदाहरण के लिए, सेबर और ली के कई प्रतिगमन मामले में के कुछ दोषपूर्ण उपचार देखें ।)आर 2 आर 2R2 R2R2
कार्डिनल

1
मुझे लगता है कि को सामान्य तरीके से परिभाषित किया जा सकता है और कभी-कभी मददगार हो सकता है। भले ही मानक त्रुटियां पूर्वाग्रह के लिए जिम्मेदार नहीं हैं, लेकिन वे "रूढ़िवादी, शून्य की ओर सिकुड़" मात्रा की मानक त्रुटियां हैं। वे शायद औपचारिक आक्षेप के लिए इस्तेमाल नहीं किए जा सकते हैं, लेकिन मैं अधिक चर्चा सुनना चाहता हूं इससे पहले कि वे कभी भी इस्तेमाल न करें। R2
फ्रैंक हरेल

जवाबों:


4

जेले की टिप्पणियों पर मेरी पहली प्रतिक्रिया "पूर्वाग्रह-विद्वान" है। आपको "बड़ी मात्रा में भविष्यवक्ताओं" से क्या मतलब है, इस बारे में सावधान रहना होगा। यह सम्मान के साथ "बड़ा" हो सकता है:

  1. डेटा बिंदुओं की संख्या ("बड़ा पी छोटा n")
  2. आपको चर की जांच के लिए समय की मात्रा है
  3. एक विशाल मैट्रिक्स inverting की कम्प्यूटेशनल लागत

मेरी प्रतिक्रिया बिंदु 1 के संबंध में "बड़े" पर आधारित थी। यह इसलिए है क्योंकि इस मामले में यह आमतौर पर विचरण में कमी के लिए पूर्वाग्रह में व्यापार-मूल्य के लायक है जो आपको मिलता है। बायस केवल "इन-द-लॉन्ग-रन" है। इसलिए यदि आपके पास एक छोटा सा नमूना है, तो "लंबे समय तक चलने वाले" के बारे में कौन परवाह करता है?

उपरोक्त सभी के बाद, की गणना करने के लिए एक विशेष रूप से अच्छी मात्रा नहीं है, खासकर जब आपके पास बहुत सारे चर हैं (क्योंकि यह बहुत अधिक है आपको बताता है: आपके पास बहुत सारे चर हैं)। मैं क्रॉस सत्यापन के उपयोग से "पूर्वानुमान त्रुटि" की तरह कुछ और गणना करूंगा।आर 2R2R2

आदर्श रूप से यह "भविष्यवाणी की त्रुटि" आपके मॉडलिंग की स्थिति के संदर्भ पर आधारित होनी चाहिए। आप मूल रूप से प्रश्न का उत्तर देना चाहते हैं "मेरा मॉडल डेटा को कितनी अच्छी तरह से पुन: पेश करता है?"। आपकी स्थिति का संदर्भ आपको यह बताने में सक्षम होना चाहिए कि वास्तविक दुनिया में "कितना अच्छा" है। फिर आपको इसे किसी प्रकार के गणितीय समीकरण में अनुवाद करने की आवश्यकता है।

हालाँकि, मेरे पास प्रश्न से हटने का कोई स्पष्ट संदर्भ नहीं है। तो एक "डिफ़ॉल्ट" कुछ ऐसा होगा जैसे PRESS: Where , ith डेटा बिंदु के बिना फिट किए गए मॉडल के लिए लिए अनुमानित मूल्य है ( मॉडल मापदंडों को प्रभावित नहीं करता है)। सारांश में शर्तों को "विलोपन अवशिष्ट" के रूप में भी जाना जाता है। यदि यह मॉडल फिट करने के लिए बहुत अधिक महंगा है (हालांकि अधिकांश प्रोग्राम आमतौर पर आपको मानक आउटपुट के साथ ऐसा कुछ देते हैं), तो मैं डेटा को समूहीकृत करने का सुझाव दूंगा। इसलिए आप उस समय की मात्रा निर्धारित करें जिसे आप लिए इंतजार करने के लिए तैयार हैंY मैं , - मैं Y मैं Y मैं एन टी एम जी = टी

PRESS=i=1N(YiY^i,i)2
Y^i,iYiYiNT(अधिमानतः 0 ^ _ ^ नहीं), और फिर इसे अपने मॉडल को फिट करने के समय तक विभाजित करें । यह कुल फिर से फिट करता है, एक नमूना आकार के साथ । तरह से आप यह जान सकते हैं कि प्रत्येक चर कितना महत्वपूर्ण है, एक साधारण प्रतिगमन (उसी क्रम में चर) को फिर से फिट करना है। फिर आनुपातिक रूप से जांच करें कि प्रत्येक अनुमानक शून्य ओर सिकुड़ गया हैM एनजी=एन×एमG=TM पीआरएसएस= जी Σ=1 एन जी Σ मैं=1(Yमैंजी - वाई मैंजी,-जी)2β एल एस एस Ng=N×MT
PRESS=g=1Gi=1Ng(YigY^ig,g)2
βLASSOβUNCONSTRAINED। लास्सो, और अन्य विवश प्रतिगमन को "सहज चर चयन" के रूप में देखा जा सकता है, क्योंकि बाइनरी "इन-या-आउट" दृष्टिकोण को अपनाने के बजाय, प्रत्येक अनुमान शून्य के करीब लाया जाता है, यह इस बात पर निर्भर करता है कि यह मॉडल के लिए कितना महत्वपूर्ण है (जैसा कि) त्रुटियों द्वारा मापा गया)।

3
ऊपर आपने जो कुछ भी किया है, वह लीव -वन-आउट क्रॉस सत्यापन और फोल्ड क्रॉस सत्यापन का वर्णन करता है । उच्च विचरण और आमतौर पर बड़ी कम्प्यूटेशनल लागतों (कुछ प्रतिगमन सेटिंग्स अपवाद के कारण) के कारण इन दिनों का उपयोग शायद ही कभी किया जाता है। प्रभाव पर आपकी टिप्पणी के लिए, यदि कोई अद्वितीय न्यूनतम-वर्ग अनुमान नहीं हैं, जो कि एक जटिलता है। साथ ही, पैरामीटर अनुमानों के संकेत अलग-अलग भी हो सकते हैं। मैं सकारात्मक नहीं हूं, लेकिन जब ओएलएस का अनुमान है, तब भी कुछ स्थितियों के लिए आपका अनुपात हो सकता है । p > n > kp>n>1
कार्डिनल

1

आर पैकेज hdm और स्टाटा पैकेज लैसोपैक लैस्सो के लिए एक संयुक्त महत्व परीक्षण का समर्थन करते हैं। सिद्धांत भविष्यवक्ताओं की संख्या को टिप्पणियों की संख्या के सापेक्ष बड़ा होने की अनुमति देता है। परीक्षण के पीछे का सिद्धांत और इसे कैसे लागू किया जाए, इसकी संक्षिप्त व्याख्या hdm प्रलेखन में की गई है। संक्षेप में, यह सिद्धांत-चालित दंड के लिए एक रूपरेखा पर आधारित है (बेलोनी, चेरनोझुकोव और हंस, एट अल द्वारा विकसित)। यदि आप अंतर्निहित सिद्धांत के बारे में अधिक जानना चाहते हैं तो यह पेपर एक अच्छा प्रारंभिक बिंदु है। केवल नकारात्मक पक्ष यह है कि परीक्षण केवल लासो और (स्क्वायर-रूट लासो) के लिए काम करता है। अन्य दंडित प्रतिगमन विधियों के लिए नहीं।

बेलोनी, ए।, चेन, डी।, चेरनोझोकोव, वी। और हैनसेन, सी। (2012), स्पार्क मॉडल और ऑप्टिमल इंस्ट्रूमेंट्स के लिए एक प्रख्यात डोमेन के साथ आवेदन के तरीके। इकोनोमेट्रिक, 80: 2369-2429।


कृपया कागज का पूरा संदर्भ जोड़ें (एक लिंक मर सकता है)
एंटोनी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.