मैं इस प्रश्न को दो भागों में रखना चाहूंगा। दोनों एक सामान्य रैखिक मॉडल के साथ सौदा करते हैं, लेकिन पहला मॉडल चयन के साथ और दूसरा नियमितीकरण से संबंधित है।
पृष्ठभूमि: मैं GLMs (लीनियर, लॉजिस्टिक, गामा रिग्रेशन) मॉडल का उपयोग भविष्यवाणी और विवरण दोनों के लिए करता हूं। जब मैं " सामान्य चीजों को एक प्रतिगमन के साथ करता है " का उल्लेख करता हूं, तो मैं (i) मोटे तौर पर (i) विश्वास अंतराल के साथ गुणांक के आसपास का वर्णन करता हूं, (ii) भविष्यवाणियों के आसपास विश्वास अंतराल और (iii) इस तरह के गुणांक के रैखिक संयोजनों के बारे में परिकल्पना परीक्षण "है" उपचार ए और उपचार बी के बीच अंतर है? ”।
क्या आप निम्न में से प्रत्येक के तहत सामान्य सिद्धांत का उपयोग करके इन चीजों को करने की क्षमता खो देते हैं? और यदि हां, तो क्या ये चीजें वास्तव में केवल शुद्ध भविष्यवाणी के लिए उपयोग किए जाने वाले मॉडल के लिए अच्छी हैं?
I. जब एक जीएलएम कुछ मॉडल चयन प्रक्रिया के माध्यम से फिट हो गया है (सहमति के लिए एआईसी पर आधारित एक चरणबद्ध प्रक्रिया है)।
द्वितीय। जब एक GLM एक नियमितीकरण विधि (R में glmnet का उपयोग करके) के माध्यम से फिट किया गया है।
मेरी समझ में यह है कि I. के लिए उत्तर तकनीकी रूप से है कि आपको " सामान्य चीजें जो प्रतिगमन के साथ होती हैं " के लिए एक बूटस्ट्रैप का उपयोग करना चाहिए , लेकिन कोई भी वास्तव में इसका पालन नहीं करता है।
जोड़ें:
कुछ प्रतिक्रियाओं को प्राप्त करने और कहीं और पढ़ने के बाद, यहां मेरा इस पर ध्यान है (किसी और को लाभ के साथ-साथ सुधार प्राप्त करने के लिए)।
I.
A) RE: त्रुटि सामान्य करें। नए डेटा पर त्रुटि दर को सामान्य करने के लिए, जब कोई होल्ड आउट सेट नहीं होता है, तो क्रॉस सत्यापन काम कर सकता है लेकिन आपको प्रत्येक तह के लिए पूरी तरह से प्रक्रिया को दोहराने की आवश्यकता है - नेस्टेड छोरों का उपयोग करना - इस प्रकार किसी भी सुविधा का चयन, पैरामीटर ट्यूनिंग, आदि होना चाहिए। हर बार स्वतंत्र रूप से किया। यह विचार किसी भी मॉडलिंग प्रयास (दंडित विधियों सहित) के लिए होना चाहिए।
बी) आरई: जीएलएम की परिकल्पना परीक्षण और आत्मविश्वास अंतराल।सामान्यीकृत रैखिक मॉडल के लिए मॉडल चयन (सुविधा चयन, पैरामीटर ट्यूनिंग, चर चयन) का उपयोग करते समय और एक होल्ड आउट सेट मौजूद होता है, यह एक विभाजन पर मॉडल को प्रशिक्षित करने और फिर शेष डेटा या पूर्ण डेटा सेट पर मॉडल को फिट करने की अनुमति है। और परिकल्पना परीक्षण करने के लिए उस मॉडल / डेटा का उपयोग करें। यदि कोई होल्ड आउट सेट मौजूद नहीं है, तो बूटस्ट्रैप का उपयोग किया जा सकता है, जब तक कि पूरी प्रक्रिया को प्रत्येक बूटस्ट्रैप नमूने के लिए दोहराया जाता है। यह परिकल्पना परीक्षणों को सीमित करता है जो कि किया जा सकता है, क्योंकि शायद एक चर हमेशा उदाहरण के लिए नहीं चुना जाएगा।
सी) आरई: भविष्य के डेटा सेट पर भविष्यवाणी के बारे में नहीं, तब सिद्धांत और कुछ परिकल्पना परीक्षणों द्वारा निर्देशित एक उद्देश्यपूर्ण मॉडल फिट होता है और यहां तक कि मॉडल (महत्वपूर्ण या नहीं) (होस्मेर और लेमेशो की रेखाओं के साथ) में सभी चर छोड़ने पर विचार करता है। यह एक छोटा सा वैरिएबल सेट शास्त्रीय प्रकार का प्रतिगमन मॉडलिंग है और फिर CI और परिकल्पना परीक्षण के उपयोग की अनुमति देता है।
डी) आरई: दंडित प्रतिगमन। कोई सलाह नहीं, शायद यह केवल भविष्यवाणी के लिए उपयुक्त है (या एक प्रकार की सुविधा के चयन के रूप में तब बी में ऊपर के रूप में एक और डेटा सेट पर लागू होता है) जैसा कि पेश किया गया पूर्वाग्रह सीआई के और परिकल्पना परीक्षणों को नासमझ बनाता है - यहां तक कि बूटस्ट्रैप के साथ भी।