एकाधिक प्रतिरूपण और मॉडल का चयन


21

जब आप अनुमान लगाना चाहते हैं, तो एक पूर्व रेखीय मॉडल होने पर एकाधिक प्रतिरूपण काफी सीधा होता है । हालाँकि, चीजें थोड़ी पेचीदा लगती हैं, जब आप वास्तव में कुछ मॉडल चयन करना चाहते हैं (जैसे कि उम्मीदवार चर का एक बड़ा सेट से भविष्यवक्ता चर का "सबसे अच्छा" सेट खोजें - मैं विशेष रूप से आरएएलएसओ के बारे में सोच रहा हूं और आर के बाद आंशिक बहुपद)।

एक विचार यह होगा कि मूल डेटा में मॉडल को लापता मूल्यों के साथ फिट किया जाए, और फिर इस मॉडल को एमआई डेटासेट्स में फिर से अनुमान लगाएं और अनुमानों को समान रूप से जोड़ दें। हालाँकि, यह समस्याग्रस्त लगता है क्योंकि आप पूर्वाग्रह की उम्मीद कर रहे हैं (या फिर एमआई पहले स्थान पर क्यों हैं?), जिससे शुरू से ही "गलत" मॉडल का चयन हो सकता है।

एक अन्य विचार यह होगा कि आप प्रत्येक MI डेटासेट में जो भी मॉडल चयन प्रक्रिया का उपयोग कर रहे हैं, उसके माध्यम से जाना होगा - लेकिन यदि आप विभिन्न प्रकार के चर शामिल करते हैं तो आप परिणाम कैसे जोड़ेंगे?

मैंने सोचा था कि मुझे एमआई डेटासेट के एक सेट को स्टैक करना था और उन्हें एक बड़े डेटासेट के रूप में विश्लेषण करना था जिसे आप तब एक एकल, "सर्वश्रेष्ठ" मॉडल में फिट करने के लिए उपयोग करेंगे, और इस तथ्य के लिए एक यादृच्छिक प्रभाव शामिल करें जिसके लिए आप दोहराए गए उपायों का उपयोग कर रहे हैं। प्रत्येक अवलोकन।

क्या यह आवाज़ उचित है? या शायद अविश्वसनीय भोला? इस मुद्दे पर किसी भी संकेत (कई प्रतिरूपण के साथ मॉडल का चयन) की बहुत सराहना की जाएगी।


2
कृपया "मॉडल फिटिंग" को "मॉडल चयन" में बदलने के लिए इस पोस्ट को संपादित करें। यह चर्चा करना भी उपयोगी होगा कि आप किस पद्धति का उपयोग कर रहे हैं। उदाहरण के लिए, यदि स्टेप वाइज मॉडल का चयन पी-वैल्यू के आधार पर किया जाता है, तो प्रतिरूपित डेटा को स्टैकिंग की अनुमति नहीं है। आप अपने डेटा के बूटस्ट्रैप रेजम को आकर्षित कर सकते हैं, जिसमें मिसिंग डेटा एमआई और उसके बाद की मॉडल चयन प्रक्रिया लागू करना और चयनित मॉडल के लिए सटीक "पी-वैल्यू" की गणना करना शामिल है।
एडम डे 30'12

आपके दूसरे पैराग्राफ में, आपको क्यों लगता है कि यह विधि कई प्रतिरूपण की बात को याद करती है? इसके अलावा, आप किस सॉफ्टवेयर का उपयोग कर रहे हैं?
पीटर Flom - को पुनः स्थापित मोनिका

जवाबों:


10

कई चीजें हैं जो आप बहुप्रतीक्षित डेटा से चर का चयन करने के लिए कर सकते हैं, लेकिन सभी उचित अनुमान नहीं देते हैं। विभिन्न संभावनाओं की तुलना के लिए वुड एट अल (2008) स्टेट मेड देखें ।

मैंने निम्नलिखित दो-चरणीय प्रक्रिया को व्यवहार में उपयोगी पाया है।

  1. मीटरमीटरमीटर
  2. वाल्ड स्टैटिस्टिक्स के पी-मान का उपयोग करें या से गणना के अनुसार संभावना अनुपात परीक्षणमीटर स्टेपल-इम्प्रूव्ड डेटा सेट रूप में आगे स्टेप वाइज मॉडल चयन के लिए है।

पूर्व चयन चरण 1 गणना की मात्रा को कम करने के लिए शामिल किया गया है। R का उपयोग करते हुए दो-चरण विधि के कोड उदाहरण के लिए http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (खंड 6.4.2) देखें mice()। स्टैटा में, आप चरण 2 (सभी चर पर) के साथ प्रदर्शन कर सकते हैं mim:stepwise


Stef, कृपया स्टेट मेड प्रकाशन के लिंक को शामिल करें। मैंने आपके उत्तर को थोड़ा सा भी सुंदर बनाने की कोशिश की।
23

1
प्रस्तावित दिनचर्या तभी समझ में आ सकती है जब आप रजिस्टरों के पूर्व-निर्धारित सेट से चयन करते हैं। लेकिन अगर मैं कहता हूं कि द्विघात प्रवृत्ति, 5- और 9-नॉट्स बी-स्प्लिन का चयन करें, और एक कार्ट हो सकता है, तो मुझे यकीन नहीं है कि इस प्रस्ताव को कैसे लागू किया जाए।
StasK

Stas, प्रक्रिया मानती है कि प्रतिरूपण मॉडल सही है। विशेष रूप से प्रतिरूपण विधि को उस डेटा की सभी विशेषताओं को पर्याप्त रूप से कैप्चर करना होगा जिसमें आपको बाद में रुचि हो सकती है। इसलिए यदि आप अपने संपूर्ण डेटा विश्लेषण में द्विघात नियम या बी-स्प्लिन को शामिल करना चाहते हैं, तो इंप्यूटेशन मॉडल को इस तरह से सेट किया जाना चाहिए कि उन सुविधाओं को प्रतिरूपित डेटा में संरक्षित किया जाए (नोट: यह वास्तव में प्राप्त करना मुश्किल हो सकता है , लेकिन यह अपने आप में एक विषय है)। यह देखते हुए कि इंप्यूटेशन मॉडल सही ढंग से निर्दिष्ट है, मैं कहूंगा कि दो-चरण चयन प्रक्रिया लागू होती है।
स्टेफ वान बुरेन

ठीक है, तो मूल रूप से प्रतिरूपण मॉडल सबसे अमीर संभव मॉडल होना चाहिए। मैं उन स्थितियों में आया हूं जब यह काफी कारगर नहीं होता है, जैसे कि ओवरपैरेटाइज़्ड लॉजिस्टिक मॉडल में सही भविष्यवाणियां।
StasK

माना। आपको सबसे अमीर संभव मॉडल के तहत थोपना होगा। तो, पहले सबसे जटिल विश्लेषणों को परिभाषित करें जो आप करना चाहते हैं, और उस पर प्रतिरूपण मॉडल को दर्जी करें। यह अभ्यास में हासिल करना मुश्किल हो सकता है, और पूर्ण डेटा मॉडल की जटिलता बढ़ने के साथ-साथ कठिन हो जाता है। कोई मुफ्त भोजन नहीं है। लॉजिस्टिक रिग्रेशन में सही भविष्यवाणी कई तरीकों से हल की गई है, और एक बड़ी ठोकर खाने की जरूरत नहीं है।
स्टेफ वैन बुरेन

4

यह सीधा है: आप मानक एमआई संयोजन नियमों को लागू कर सकते हैं - लेकिन उन वेरिएबल्स के प्रभाव जो पूरे डेटासेट में समर्थित नहीं हैं, उन्हें स्पष्ट नहीं किया जाएगा। उदाहरण के लिए, यदि किसी चर को किसी विशिष्ट प्रतिरूपित डेटासेट में नहीं चुना गया है, तो इसका अनुमान (incl। विचरण) शून्य है और इसे कई प्रतिरूपण का उपयोग करते समय उपयोग किए जाने वाले अनुमानों में परिलक्षित करना पड़ता है। आप मॉडल चयन अनिश्चितता को शामिल करने के लिए आत्मविश्वास के अंतराल का निर्माण करने के लिए बूटस्ट्रैपिंग पर विचार कर सकते हैं, इस हाल के प्रकाशन पर एक नज़र डालें जो सभी सवालों को संबोधित करता है: http://www.sciencedirect.com/science/article/pii/S0167947313000000

मैं व्यावहारिक दृष्टिकोण का उपयोग करने से बचना चाहूंगा जैसे कि एक चर का चयन करना अगर यह m / 2 डेटासेट या sth में समान रूप से चुना गया हो, क्योंकि यह अनुमान स्पष्ट नहीं है और पहली नज़र में देखने से अधिक जटिल है।


3

मुझे भी यही समस्या आ रही थी।

मेरी पसंद तथाकथित "मल्टीपल इंप्यूटेशन लैस्सो" थी। मूल रूप से यह सभी इंप्रूव्ड डेटासेट को एक साथ जोड़ देता है और समूह लैस्सो की अवधारणा को अपनाता है: प्रत्येक उम्मीदवार वेरिएबल m डमी वैरिएबल उत्पन्न करेगा । प्रत्येक डमी चर एक प्रतिगामी डेटासेट से मेल खाती है।

फिर सभी m डमी वैरिएबल को समूहीकृत किया जाता है। आप या तो एक उम्मीदवार चर के छोड़ दिए जाएंगे मीटर सभी अध्यारोपित डेटासेट में डमी चर या उन सब को अध्यारोपित डेटासेट में रहते हैं।

इसलिए लैस्सो रिग्रेशन वास्तव में संयुक्त रूप से सभी लगाए गए डेटासेट पर फिट है।

कागज की जाँच करें :

चेन, क्यू और वांग, एस (2013)। "डाइऑक्सिन एक्सपोज़र स्टडी के लिए आवेदन के साथ बहु-प्रतिरूपित डेटा के लिए परिवर्तनीय चयन," चिकित्सा में सांख्यिकी, 32: 3646-59।

और एक प्रासंगिक आर कार्यक्रम


मुझे लगता है कि मैंने वास्तव में इस बारे में आपको कुछ साल पहले :)
DL Dahly

1

मैं इसी तरह की समस्या का सामना कर रहा हूं - मुझे एक डेटासेट मिला है जिसमें मुझे शुरू से पता था कि मैं सभी चर शामिल करना चाहता था (मुझे भविष्यवाणी से अधिक गुणांक में दिलचस्पी थी), लेकिन मुझे पता नहीं था प्राथमिकताएं क्या बातचीत निर्दिष्ट की जानी चाहिए।

मेरा दृष्टिकोण उम्मीदवार मॉडल का एक सेट लिखना, कई प्रतिरूपण करना, कई मॉडलों का अनुमान लगाना और प्रत्येक मॉडल से एआईसी को बचाने और औसत करना था। सबसे कम औसत-एआईसी के साथ मॉडल विनिर्देशन का चयन किया गया था।

मैंने एक सुधार को जोड़ने के बारे में सोचा, जिसमें मैं एआईसी में प्रतिरूपण प्रसार के बीच दंड देता हूं। हालांकि प्रतिबिंब पर, यह व्यर्थ लग रहा था।

दृष्टिकोण मुझे बहुत सीधा लग रहा था, लेकिन मैंने इसे खुद का आविष्कार किया, और मैं कोई प्रसिद्ध सांख्यिकीविद् नहीं हूं। इसका उपयोग करने से पहले, आप तब तक इंतजार करना चाह सकते हैं जब तक कि लोग मुझे सही न कर दें (जो कि आपका स्वागत है!) या इस उत्तर को उकेर देगा।


उत्तर के लिए धन्यवाद। दुर्भाग्य से जो मैं वास्तव में दिलचस्पी रखता हूं, वह मॉडल चयन के अधिक स्वचालित / खोजपूर्ण तरीकों का उपयोग कर रहा है जो कि उम्मीदवार मॉडल के उचित सेट को चुनने के लिए खुद को उधार नहीं देते हैं।
DL Dahly
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.