मॉडल चयन या नियमितीकरण के बाद जीएलएम


12

मैं इस प्रश्न को दो भागों में रखना चाहूंगा। दोनों एक सामान्य रैखिक मॉडल के साथ सौदा करते हैं, लेकिन पहला मॉडल चयन के साथ और दूसरा नियमितीकरण से संबंधित है।

पृष्ठभूमि: मैं GLMs (लीनियर, लॉजिस्टिक, गामा रिग्रेशन) मॉडल का उपयोग भविष्यवाणी और विवरण दोनों के लिए करता हूं। जब मैं " सामान्य चीजों को एक प्रतिगमन के साथ करता है " का उल्लेख करता हूं, तो मैं (i) मोटे तौर पर (i) विश्वास अंतराल के साथ गुणांक के आसपास का वर्णन करता हूं, (ii) भविष्यवाणियों के आसपास विश्वास अंतराल और (iii) इस तरह के गुणांक के रैखिक संयोजनों के बारे में परिकल्पना परीक्षण "है" उपचार ए और उपचार बी के बीच अंतर है? ”।

क्या आप निम्न में से प्रत्येक के तहत सामान्य सिद्धांत का उपयोग करके इन चीजों को करने की क्षमता खो देते हैं? और यदि हां, तो क्या ये चीजें वास्तव में केवल शुद्ध भविष्यवाणी के लिए उपयोग किए जाने वाले मॉडल के लिए अच्छी हैं?

I. जब एक जीएलएम कुछ मॉडल चयन प्रक्रिया के माध्यम से फिट हो गया है (सहमति के लिए एआईसी पर आधारित एक चरणबद्ध प्रक्रिया है)।

द्वितीय। जब एक GLM एक नियमितीकरण विधि (R में glmnet का उपयोग करके) के माध्यम से फिट किया गया है।

मेरी समझ में यह है कि I. के लिए उत्तर तकनीकी रूप से है कि आपको " सामान्य चीजें जो प्रतिगमन के साथ होती हैं " के लिए एक बूटस्ट्रैप का उपयोग करना चाहिए , लेकिन कोई भी वास्तव में इसका पालन नहीं करता है।

जोड़ें:
कुछ प्रतिक्रियाओं को प्राप्त करने और कहीं और पढ़ने के बाद, यहां मेरा इस पर ध्यान है (किसी और को लाभ के साथ-साथ सुधार प्राप्त करने के लिए)।

I.
A) RE: त्रुटि सामान्य करें। नए डेटा पर त्रुटि दर को सामान्य करने के लिए, जब कोई होल्ड आउट सेट नहीं होता है, तो क्रॉस सत्यापन काम कर सकता है लेकिन आपको प्रत्येक तह के लिए पूरी तरह से प्रक्रिया को दोहराने की आवश्यकता है - नेस्टेड छोरों का उपयोग करना - इस प्रकार किसी भी सुविधा का चयन, पैरामीटर ट्यूनिंग, आदि होना चाहिए। हर बार स्वतंत्र रूप से किया। यह विचार किसी भी मॉडलिंग प्रयास (दंडित विधियों सहित) के लिए होना चाहिए।

बी) आरई: जीएलएम की परिकल्पना परीक्षण और आत्मविश्वास अंतराल।सामान्यीकृत रैखिक मॉडल के लिए मॉडल चयन (सुविधा चयन, पैरामीटर ट्यूनिंग, चर चयन) का उपयोग करते समय और एक होल्ड आउट सेट मौजूद होता है, यह एक विभाजन पर मॉडल को प्रशिक्षित करने और फिर शेष डेटा या पूर्ण डेटा सेट पर मॉडल को फिट करने की अनुमति है। और परिकल्पना परीक्षण करने के लिए उस मॉडल / डेटा का उपयोग करें। यदि कोई होल्ड आउट सेट मौजूद नहीं है, तो बूटस्ट्रैप का उपयोग किया जा सकता है, जब तक कि पूरी प्रक्रिया को प्रत्येक बूटस्ट्रैप नमूने के लिए दोहराया जाता है। यह परिकल्पना परीक्षणों को सीमित करता है जो कि किया जा सकता है, क्योंकि शायद एक चर हमेशा उदाहरण के लिए नहीं चुना जाएगा।

सी) आरई: भविष्य के डेटा सेट पर भविष्यवाणी के बारे में नहीं, तब सिद्धांत और कुछ परिकल्पना परीक्षणों द्वारा निर्देशित एक उद्देश्यपूर्ण मॉडल फिट होता है और यहां तक ​​कि मॉडल (महत्वपूर्ण या नहीं) (होस्मेर और लेमेशो की रेखाओं के साथ) में सभी चर छोड़ने पर विचार करता है। यह एक छोटा सा वैरिएबल सेट शास्त्रीय प्रकार का प्रतिगमन मॉडलिंग है और फिर CI और परिकल्पना परीक्षण के उपयोग की अनुमति देता है।

डी) आरई: दंडित प्रतिगमन। कोई सलाह नहीं, शायद यह केवल भविष्यवाणी के लिए उपयुक्त है (या एक प्रकार की सुविधा के चयन के रूप में तब बी में ऊपर के रूप में एक और डेटा सेट पर लागू होता है) जैसा कि पेश किया गया पूर्वाग्रह सीआई के और परिकल्पना परीक्षणों को नासमझ बनाता है - यहां तक ​​कि बूटस्ट्रैप के साथ भी।


1
लोग कभी-कभी ऐसा करते हैं - अनजाने में (यानी आंकड़ों का दुरुपयोग करते हैं, क्योंकि उन्हें वांछित परिणाम मिलता है) और जानबूझकर (उन्होंने बूटस्ट्रैप किया था और यह परिणाम को काफी प्रभावित नहीं करता था)। आपकी बात मान्य है, और प्रोफेसर हैरेल अपनी पुस्तक की प्रस्तावना में यह बताते हैं कि बूटस्ट्रैप फायदेमंद है।
सनकूलू

1
यहाँ अपनी बात (II) के लिए "हाँ" जैसा कुछ है: arxiv.org/abs/1001.0188
एलेक्स

जवाबों:


5

आप डेविड फ्रीडमैन के पेपर, " ए नोट ऑन स्क्रीनिंग रिग्रेशन इक्वेशन" की जांच कर सकते हैं।

एक सिमुलेशन में पूरी तरह से असंबंधित डेटा का उपयोग करते हुए, वह दिखाता है कि, यदि टिप्पणियों की संख्या के सापेक्ष कई भविष्यवाणियां हैं, तो एक मानक स्क्रीनिंग प्रक्रिया एक अंतिम प्रतिगमन का उत्पादन करेगी जिसमें कई (संभावना से अधिक) महत्वपूर्ण भविष्यवक्ता और एक बहुत महत्वपूर्ण एफ है आंकड़ा। अंतिम मॉडल से पता चलता है कि यह परिणाम की भविष्यवाणी करने में प्रभावी है, लेकिन यह सफलता सहज है। वह इन परिणामों को भी असममित गणनाओं का उपयोग करके दिखाता है। सुझाए गए समाधानों में एक नमूने पर स्क्रीनिंग और पूर्ण डेटा सेट पर मॉडल का आकलन करना और कम से कम भविष्यवाणियों के अनुसार अधिक परिमाणों के आदेश का उपयोग करना शामिल है।


नोट: बूटस्ट्रैप एक प्रभावी समाधान होने के लिए, आपको पूरी प्रक्रिया को बूटस्ट्रैप करना होगा, किसी भी स्क्रीनिंग के शुरू होने से पहले, बूटस्ट्रैप किए गए नमूने को स्क्रीन करें, फिर गुणांक की गणना करें। लेकिन अब आपके पास प्रत्येक प्रतिगमन में भविष्यवाणियों में अलग-अलग सेट हैं और यह स्पष्ट नहीं है कि उनमें से किसी एक के लिए वितरण की गणना कैसे करें। हालाँकि, परिणाम के अनुमानित मूल्यों के लिए विश्वास अंतराल को प्रभावी बनाया जा सकता है।
चार्ली

@charlie: [क्या मैं आपको सही ढंग से पढ़ता हूं कि आप केवल I (मॉडल चयन) से बोल रहे हैं II नहीं। (दंडित)] क्या आप कह रहे हैं कि भविष्यवाणी अंतराल के लिए, यह मॉडल चयन का उपयोग करने के लिए मान्य है और फिर उस मॉडल से भविष्यवाणियों को बूटस्ट्रैप करें, लेकिन कुछ और के लिए आपको पूरी प्रक्रिया को बूटस्ट्रैप करने की आवश्यकता है?
B_Miner

@charlie एक नमूने पर स्क्रीनिंग के सुझाए गए समाधान के बारे में। क्या एक सेट (मॉडल चयन आदि) का उपयोग करके डेटा (विभाजन) की पंक्तियों के साथ होगा और फिर उस मॉडल को शेष डेटा पर लागू किया जाएगा - और उस डेटा के साथ मॉडल जो परिकल्पना परीक्षणों, CI के लिए पारंपरिक सिद्धांत का उपयोग करके फिट था। आदि?
B_Miner

मैं केवल मॉडल चयन के बारे में सोच रहा था, लेकिन यह काफी हद तक है क्योंकि मैं दंडित प्रतिगमन के बारे में इतना नहीं जानता। मैं कहूंगा कि मॉडल से भविष्यवाणियों पर निष्कर्ष निकालने के लिए आपको पूरी प्रक्रिया को बूटस्ट्रैप करना होगा। पूरा मुद्दा यह है कि, किसी भी एक नमूने में, आपको उन चंचल सहसंबंधों को खोजने की संभावना है जो कुछ चर शामिल करते समय बढ़ जाते हैं और दूसरों को छोड़ देते हैं। इसके चारों ओर जाने का एकमात्र तरीका कई नमूनों को देखना है --- यानी, बूटस्ट्रैप। बेशक, कोई भी वास्तव में ऐसा नहीं करता है।
चार्ली

ठीक है, आप मॉडल चयन प्रक्रियाओं का उपयोग करके अपने मॉडल के साथ आने के लिए अपने नमूने के एक विभाजन का उपयोग करते हैं, फिर दूसरे विभाजन या पूर्ण नमूने पर अपना इंट्रैक्शन करते हैं।
चार्ली

2

1 के बारे में) हां, आप इसे खो देते हैं। उदाहरण के लिए देखें हार्ले रिग्रेशन मॉडलिंग रणनीतियाँ, विली द्वारा प्रकाशित एक पुस्तक या एक पेपर जिसे मैंने डेविड कैसेल के साथ प्रस्तुत किया है, जिसे "स्टॉपिंग स्टेपवाइज" कहा जाता है, जैसे कि www.nesug.org/proceedings/nesug07/sa/sa07.pdf


मैंने इस पेपर को देखा है - बहुत दिलचस्प। दो सवाल। 1) आइए लॉजिस्टिक रिग्रेशन लें। ऐसा लगता है कि CI या परिकल्पना परीक्षण करने का एकमात्र तरीका होस्मर और लेमेशो की शैली में एक मॉडल बनाना है (बड़े पी के साथ किसी भी डेटा सेट को छोड़कर)? तो आपको केवल बिंदु अनुमानों के लिए मॉडल का उपयोग करके "छोड़ दिया" गया है? 2) आपका पेपर अन्य विकल्पों के बीच लास्सो की चर्चा करता है। क्या आप इस बात को ध्यान में रखते हैं कि यह बाद की परिकल्पना के परीक्षण की अनुमति देता है या मॉडल चयन के बेहतर विकल्प के रूप में "बस" दिया जाता है?
B_Miner
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.