सांख्यिकीय अनुमान लगाते समय नियमितीकरण का उपयोग करना


18

मैं पूर्वानुमान मॉडल (पूर्वाग्रह बनाम विचरण, ओवरफिटिंग को रोकने) के निर्माण के दौरान नियमितीकरण के लाभों के बारे में जानता हूं। लेकिन, मैं सोच रहा हूं कि क्या नियमितीकरण (लासो, रिज, इलास्टिक नेट) करना भी एक अच्छा विचार है, जब प्रतिगमन मॉडल का मुख्य उद्देश्य गुणांकों पर अनुमान है (यह देखने के लिए कि कौन से भविष्यवक्ता सांख्यिकीय रूप से महत्वपूर्ण हैं)। मुझे लोगों के विचारों को सुनने के साथ-साथ इसे संबोधित करने वाले किसी भी शैक्षणिक पत्रिकाओं या गैर-शैक्षणिक लेखों के लिंक भी पसंद हैं।


4
उदाहरण के लिए, बेज़ियन आँखों के साथ नियमितता को देखा जा सकता है, लसो, कुछ डबल घातीय पूर्व (क्रॉस वैधीकरण द्वारा चुना गया पैमाने के साथ) से मेल खाती है। तो एक संभावना है कि पूरी तरह से जायें।
kjetil b halvorsen

1
यह निर्धारित करना कि कौन से भविष्यवक्ता नॉनज़ेरो हैं, लसो क्या है! यदि आप यह निर्धारित करना चाहते हैं कि जो शून्य से सांख्यिकीय रूप से काफी अलग हैं, तो लसो जैसी विधियों पर विचार करना बेहद सार्थक है
user795305

जवाबों:


8

"नियमितिकरण" शब्द बहुत व्यापक तरीकों को शामिल करता है। इस उत्तर के प्रयोजन के लिए, मैं "दंडित अनुकूलन" का अर्थ संकरा करने जा रहा हूं, अर्थात आपकी अनुकूलन समस्या में या जुर्माना जोड़ना ।L1L2

अगर ऐसा है, तो इसका जवाब एक निश्चित "हाँ! अच्छी तरह से" है।

इस का कारण एक भी कहा कि है या लिए संभावना समारोह सुराग के लिए दंड वास्तव में पहले वितरण मानकों की अनिश्चितता का वर्णन करता है: या तो एक लाप्लास या गाऊसी पिछला वितरण (लिफ्ट पिच पाने के लिए एक संभावना के अपने पूर्व-जोड़ने के समान गणितीय समारोह डेटा देखने से पहले, पीछे वितरण डेटा को देखने के बाद मापदंडों की अनिश्चितता का वर्णन करता है), जो बायेसियन आंकड़ों की ओर जाता है 101। बायसीयन के आँकड़े बहुत लोकप्रिय हैं और अनुमानित प्रभावों के अनुमान के लक्ष्य के साथ हर समय प्रदर्शन किया है।L1L2

वह "हाँ!" अंश। "वेल थोड़े" यह है कि आपके पोस्टीरियर वितरण का अनुकूलन किया जाता है और इसे "अधिकतम ए पोस्टीरियर" (एमएपी) अनुमान कहा जाता है। लेकिन अधिकांश बेयसियन एमएपी अनुमान का उपयोग नहीं करते हैं, वे एमसीएमसी एल्गोरिदम का उपयोग करके पीछे के वितरण से नमूना लेते हैं! इसके कई फायदे हैं, एक यह है कि यह विचरण घटकों में कम नीचे पूर्वाग्रह रखता है।

संक्षिप्तता के लिए, मैंने बायेसियन आँकड़ों के बारे में विवरणों में नहीं जाने की कोशिश की है, लेकिन अगर यह आपकी रुचि रखता है, तो आपको तलाश शुरू करने की जगह है।


2
(+1) लेकिन अगर मैंने केवल उन पुजारियों का उपयोग किया है, क्योंकि वे अच्छी भविष्यवाणियां देते हैं - वास्तव में मैंने उन्हें अच्छी तरह से इस उद्देश्य के लिए ट्यून किया होगा - तो फिर मैं MAP अनुमानों या पश्च वितरणों का क्या करूं? (बेशक अगर मैं डेटा मुझे पता है कि वास्तव में क्या उनमें से बनाने के लिए देखने से पहले पैरामीटर के बारे में ज्ञान का प्रतिनिधित्व करने के महंतों प्राप्त किये।)
Scortchi - को पुनः स्थापित मोनिका

1
@ स्कोर्टची: यह एक बहुत अच्छा बिंदु है: दंड का चयन करने के लिए क्रॉस-मान्यता का उपयोग करना आपको शास्त्रीय बेयसियन ढांचे से बाहर ले जाता है (जहां तक ​​मुझे पता है)। नियमितीकरण मापदंडों को चुनने के लिए CV के साथ एक मॉडल का निर्माण इस उत्तर के साथ नहीं होगा, लेकिन विशेषज्ञ सूचना के आधार पर चुने गए निश्चित दंड के साथ नियमितीकरण का उपयोग करेंगे।
क्लिफ एबी

2
सावधानी का एक शब्द: पूर्व + MCMC दृष्टिकोण केवल तभी मान्य परिणाम देगा जब सभी संभावित गुणांकों के लिए डाकघरों की जांच और रिपोर्ट की जाएगी। अन्यथा, हम एक चयनात्मक इंजेक्शन की सेटिंग में हैं और अधिकांश भोले इंजेक्शन की पद्धति अवैध होगी।
user3903581

1
(+1) अच्छा जवाब! हालांकि, मुझे लगता है कि यह वाक्य को स्पष्ट करने के लिए सार्थक हो सकता है "लेकिन अधिकांश बायेसियन एमएपी अनुमान का उपयोग नहीं करते हैं, वे एमसीएमसी एल्गोरिदम का उपयोग करके पीछे के वितरण से नमूना लेते हैं!" ऐसा लगता है कि आप यह कहना चाह रहे हैं कि अधिकांश बेयसियन अपने अनुमानक को चुनने में पूरी तरह से पीछे आते हैं। समस्या को देखने के लिए, ध्यान दें कि एमएपी के लिए एक अनुमान पश्च वितरण के लिए नमूने से बनाया जा सकता है।
user795305

8

रिज प्रकार दंड और लसो-प्रकार दंड का उपयोग करके आकलन करने के बीच एक बड़ा अंतर है। रिज प्रकार के अनुमानक सभी प्रतिगमन गुणांक को शून्य की ओर सिकोड़ते हैं और पक्षपाती होते हैं, लेकिन विषम वितरण को प्राप्त करने में आसान होते हैं क्योंकि वे किसी भी चर को बिल्कुल शून्य में नहीं सिकोड़ते हैं। रिज अनुमानों में पूर्वाग्रह बाद की परिकल्पना परीक्षण में समस्याग्रस्त हो सकते हैं, लेकिन मैं उस पर एक विशेषज्ञ नहीं हूं। दूसरी ओर, लासो / इलास्टिक-नेट प्रकार दंड कई प्रतिगमन गुणांकों को शून्य में सिकोड़ते हैं और इसलिए इसे मॉडल चयन तकनीकों के रूप में देखा जा सकता है। डेटा के आधार पर चुने गए मॉडल पर निष्कर्ष निकालने की समस्या को आमतौर पर चुनिंदा अनुमान समस्या या चयन के बाद निष्कर्ष के रूप में संदर्भित किया जाता है। इस क्षेत्र ने हाल के वर्षों में कई विकास देखे हैं।

yN(μ,1)μμ|y|>c>0सीyसीy

इसी तरह, लैस्सो (या लोचदार नेट) नमूना स्थान को इस तरह से संकुचित करता है कि यह सुनिश्चित करें कि चयनित मॉडल का चयन किया गया है। यह ट्रंकेशन अधिक जटिल है, लेकिन विश्लेषणात्मक रूप से वर्णित किया जा सकता है।

इस अंतर्दृष्टि के आधार पर, कोई वैध परीक्षण आंकड़ों को प्राप्त करने के लिए डेटा के काटे गए वितरण के आधार पर अनुमान लगा सकता है। आत्मविश्वास के लिए अंतराल और परीक्षण आँकड़े ली एट अल का काम देखते हैं।: http://projecteuclid.org/euclid.aos/1460381681

उनके तरीकों को आर पैकेज सेलेक्टिवइंजेक्शन में लागू किया जाता है

मॉडल चयन के बाद इष्टतम अनुमान (और परीक्षण) (लास्सो के लिए) पर चर्चा की गई है: https://arxiv.org/abs/1705.09417

और उनके (अब तक कम व्यापक) सॉफ्टवेयर पैकेज में उपलब्ध है: https://github.com/ammeir2/selectiveMLE


4

यदि आप "अनुमान लगाने वाले सांख्यिकीय रूप से महत्वपूर्ण हैं" के आधार पर प्रतिगमन के लिए प्रतिगमन का उपयोग करने का प्रयास कर रहे हैं तो मैं विशेष रूप से LASSO की सिफारिश करूंगा - लेकिन उस कारण के लिए नहीं जिसकी आप अपेक्षा कर सकते हैं।

व्यवहार में, एक मॉडल में भविष्यवक्ता सहसंबद्ध होते हैं। भले ही पर्याप्त बहुसंख्या न हो, लेकिन सहसंबंधित भविष्यवक्ताओं के सेट के बीच "महत्वपूर्ण" भविष्यवाणियों के प्रतिगमन का विकल्प नमूना से नमूने के लिए पर्याप्त रूप से भिन्न हो सकता है।

तो हाँ, आगे बढ़ो और अपने प्रतिगमन के लिए LASSO करो। फिर मूल डेटा से कई बूटस्ट्रैप नमूनों (कुछ सौ या तो) पर पूरी मॉडल निर्माण प्रक्रिया (क्रॉस-सत्यापन सहित LASSO जुर्माना लेने) को दोहराएं। देखें कि इस तरह से चुने गए "महत्वपूर्ण" भविष्यवाणियों का सेट कितना परिवर्तनशील हो सकता है।

जब तक आपके भविष्यवक्ता एक-दूसरे के प्रति अत्यधिक रूढ़िवादी नहीं होते हैं, तब तक इस प्रक्रिया को दो बार पी-मानों को एक प्रतिगमन में व्याख्या करने के बारे में सोचना चाहिए, जिसके बारे में व्यक्तिगत भविष्यवक्ता महत्वपूर्ण रूप से महत्वपूर्ण हैं।


1
+1 मैं सब कुछ लिखित, बहुत व्यावहारिक जवाब से सहमत हूं, लेकिन LASSO के बजाय लोचदार नेट का उपयोग क्यों नहीं करता? (ओपी ने इसका भी उल्लेख किया है) रिज ​​नियमितीकरण भविष्यवाणियों के बीच सहसंबंधों को थोड़ा और प्रमुखता से नियंत्रित करेगा।
us --r11852

यह वास्तव में वैध पी-मूल्यों, अनुमानों और आत्मविश्वास के अंतराल की गणना करने के लिए संभव है जो मॉडल में लास्सो या इलास्टिक-नेट के माध्यम से चुने गए थे, बस सही करने की आवश्यकता है।
user3903581

@ user3903581 मैं इस बात पर विवाद नहीं करता कि कोई व्यक्ति वैध एलिसो पी-मूल्यों को प्राप्त कर सकता है, इस अर्थ में कि एक सच्ची अशांति परिकल्पना के परिणामस्वरूप इतने बड़े गुणांक से कम होगी, कहेंगे, 5% प्रतिरूप नमूने। समस्या केवल पूर्वानुमानितों द्वारा उठाए गए मुद्दों पर विचार किए बिना "महत्वपूर्ण" समझे जाने वाले भविष्यवक्ताओं के लिए केवल कारण अनुमान लगाने के लिए सभी-बहुत-लगातार प्रयासों में है।
EdM
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.