प्रतिगमन में कई मॉडल बनाने पर अभियोग का क्या फायदा है?


10

मुझे आश्चर्य है कि अगर कोई लापता डेटा के लिए अलग-अलग मॉडल बनाने से बेहतर है कि गुम डेटा के लिए अलग-अलग मॉडल बनाने से बेहतर क्यों है। विशेष रूप से [सामान्यीकृत] रैखिक मॉडल के मामले में (मैं शायद गैर-रैखिक मामलों में देख सकता हूं चीजें अलग हैं)

मान लें कि हमारे पास मूल रैखिक मॉडल है:

Y=β1एक्स1+β2एक्स2+β3एक्स3+ε

लेकिन हमारे डेटा सेट में लापता होने के साथ कुछ रिकॉर्ड हैं। भविष्यवाणी डेटा सेट में, जहां मॉडल का उपयोग किया जाएगा वहां भी लापता एक्स 3 के मामले होंगे । आगे बढ़ने के दो तरीके हैं:एक्स3एक्स3

कई मॉडल

हम डेटा को और गैर- X 3 मामलों में विभाजित कर सकते हैं और प्रत्येक के लिए एक अलग मॉडल बना सकते हैं। हम मान लें कि यदि एक्स 3 बारीकी से संबंधित है एक्स 2 तब लापता डेटा मॉडल अधिक वजन कर सकते हैं एक्स 2 सबसे अच्छा दो भविष्यवक्ता भविष्यवाणी प्राप्त करने के लिए। इसके अलावा अगर लापता डेटा के मामले थोड़े अलग हैं (लापता डेटा तंत्र के कारण) तो यह उस अंतर को शामिल कर सकता है। नीचे की ओर, दो मॉडल केवल डेटा के एक हिस्से पर फिट हो रहे हैं, और एक दूसरे को "मदद" नहीं कर रहे हैं, इसलिए फिट सीमित डेटासेट पर खराब हो सकता है।एक्स3एक्स3एक्स3एक्स2एक्स2

इलज़ाम

प्रतिगमन कई इलज़ाम पहले में भरने होगा एक मॉडल पर आधारित का निर्माण करके एक्स 1 और एक्स 2 और उसके बाद बेतरतीब ढंग से अध्यारोपित डेटा में शोर बनाए रखने के लिए नमूना। चूँकि यह फिर से दो मॉडल हैं, क्या यह केवल ऊपर की कई मॉडल विधि के समान नहीं होगा? यदि यह बेहतर प्रदर्शन करने में सक्षम है - लाभ कहाँ से आता है? क्या सिर्फ इतना है कि एक्स 1 के लिए फिट पूरे सेट पर किया जाता है?एक्स3एक्स1एक्स2एक्स1

संपादित करें:

जबकि स्टीफ़न का जवाब अब तक यह बताता है कि प्रतिरूपित डेटा पर पूर्ण केस मॉडल को पूरा करने से संपूर्ण डेटा पर फिटिंग बेहतर हो जाएगी, और ऐसा लगता है कि रिवर्स सच है, लापता डेटा पूर्वानुमान के बारे में अभी भी कुछ गलतफहमी है।

अगर मेरे पास उपरोक्त मॉडल है, यहां तक ​​कि पूरी तरह से फिट है, तो यह सामान्य रूप से एक भयानक पूर्वानुमान मॉडल होगा यदि मैं भविष्यवाणी करते समय सिर्फ शून्य डालता हूं। उदाहरण के लिए, कल्पना करें कि तो एक्स 2 पूरी तरह से बेकार है ( β 2 = 0 जब) एक्स 3 मौजूद है, लेकिन अभी भी के अभाव में उपयोगी होगा एक्स 3एक्स2=एक्स3+ηएक्स2β2=0एक्स3एक्स3

मुख्य प्रश्न जो मुझे समझ में नहीं आता है: क्या दो मॉडलों का निर्माण करना बेहतर है, एक का उपयोग करना और एक का उपयोग करना बेहतर है ( एक्स 1 , एक्स 2 , एक्स 3 ) , या एकल बनाना बेहतर है ( पूर्ण) मॉडल और पूर्वानुमान डेटासेट पर प्रतिरूपण का उपयोग - या ये एक ही बात हैं?(एक्स1,एक्स2)(एक्स1,एक्स2,एक्स3)

स्टेफ़न के जवाब में लाना, ऐसा प्रतीत होता है कि एक प्रतिपादित प्रशिक्षण सेट पर पूर्ण केस मॉडल का निर्माण करना बेहतर है, और इसके विपरीत साथ पूर्ण डेटा सेट पर लापता डेटा मॉडल का निर्माण करना संभवतः सबसे अच्छा है । क्या यह दूसरा कदम पूर्वानुमान डेटा में एक इंप्यूटेशन मॉडल का उपयोग करने से अलग है?एक्स3

जवाबों:


4

मुझे लगता है कि यहां की कुंजी गायब डेटा तंत्र को समझ रही है; या कम से कम कुछ सत्तारूढ़। सेपरेट मॉडल का निर्माण लापता और गैर-लापता समूहों को यादृच्छिक नमूनों के रूप में करने के लिए एक समान है। यदि X3 पर लापता होने का संबंध X1 या X2 या किसी अन्य अनयूज्ड वेरिएबल से है, तो संभवतः आपके अनुमान प्रत्येक मॉडल में पक्षपाती होंगे। विकास डेटा सेट पर एक से अधिक प्रतिरूपण का उपयोग क्यों नहीं किया जाता है और एक बहुलीकृत पूर्वानुमान सेट पर संयुक्त गुणांक का उपयोग करते हैं? भविष्यवाणियों में औसत और आपको अच्छा होना चाहिए।


लेकिन अगर गुमनामी X1 या X2 से संबंधित है, तो निश्चित रूप से दो अलग-अलग मॉडल होना अच्छा है - क्योंकि वे उस जानकारी को शामिल करेंगे। यह कहना है, जब भविष्य में मुझे एक लापता एक्स 3 मिलेगा तो मुझे सही दिशा में पक्षपाती होने का पता चलेगा।
कोरोन

3

मुझे लगता है कि आप प्रतिगमन गुणांक के निष्पक्ष अनुमान प्राप्त करने में रुचि रखते हैं। पूर्ण मामलों का विश्लेषण आपके प्रतिगमन गुणांक के निष्पक्ष अनुमानों का उत्पादन करता है बशर्ते कि X3 गायब होने की संभावना वाई पर निर्भर नहीं करता है। यह तब भी धारण करता है यदि गुम होने की संभावना X1 या X2 पर निर्भर करती है, और किसी भी प्रकार के प्रतिगमन विश्लेषण के लिए।

बेशक, अनुमान अक्षम हो सकते हैं यदि पूर्ण मामलों का अनुपात छोटा है। उस स्थिति में आप X3 दिए गए X2, X1 के कई उपयोग कर सकते हैं सटीकता बढ़ाने के लिए और Y के । विवरण के लिए व्हाइट और कार्लिन (2010) स्टेट मेड देखें।


आह, तो गुणांक सही होने के बारे में सब कुछ है? गुणांक स्वयं मेरे लिए कोई दिलचस्पी नहीं है - मैं सिर्फ नए डेटा पर अपनी भविष्य कहनेवाला शक्ति को अधिकतम करना चाहता हूं (जिसमें गायब भी हो सकता है)
कोरोन

1
कोई बात नहीं। अधिकतम भविष्य कहनेवाला शक्ति प्राप्त करने के लिए आप मॉडल गुणांक के सटीक और निष्पक्ष अनुमान भी चाहते हैं।
स्टेफ वैन ब्यूरेन

यदि मैं केवल पूर्ण मामलों का उपयोग करता हूं, तो मैं उस मॉडल का उपयोग भविष्यवाणी के लिए नहीं कर सकता जब मेरे पास लापता डेटा है, क्योंकि गुणांक आम तौर पर गलत होगा (उदाहरण के लिए यदि X2 और X3 के बीच सहसंबंध है)। इसलिए मुझे या तो X3 लगाना चाहिए और भविष्यवाणी करते समय या सिर्फ X1 & X2 में दूसरा मॉडल बनाना चाहिए। सवाल यह है कि क्या यह अलग-अलग भविष्यवाणियों में परिणाम देता है और कौन सा बेहतर है?
कोरोन

आह, मुझे लगता है कि मैं समझ रहा हूं कि आप जो एक बिंदु बना रहे हैं: यदि मैं प्रतिरूपण का उपयोग करके पूर्ण मामलों की भविष्यवाणी के लिए मॉडल फिट करता हूं, तो इससे पूरा मामला पूर्वानुमान में सुधार होगा, या इसे सिर्फ प्रतिस्पर्धा के मामलों के साथ फिट करना होगा। शेष सवाल यह है कि अपूर्ण मामलों के लिए सबसे अच्छा क्या है?
कोरोन

मान लीजिए कि beta_1 = beta_2 = 0 और beta_3 = 1. केवल X1 और X2 का उपयोग करने से एक निरंतरता का अनुमान लगाया जाएगा, जबकि X3 का उपयोग करने वाली भविष्यवाणी Y के कुछ प्रसंगों को समझाएगी, और इसलिए अवशिष्ट त्रुटि कम होगी। इस प्रकार, प्रतिरूपित संस्करण बेहतर भविष्यवाणियों का उत्पादन करता है।
स्टेफ वैन ब्यूरेन

0

हार्वर्ड में से एक अध्ययन में लापता डेटा के पांच पूर्वानुमानों के साथ कई प्रतिरूपण का सुझाव दिया गया है (यहां संदर्भ है,) http://m.circoutields.ahajournals.org/content/3/1/98.full )। फिर भी, मैं उन टिप्पणियों को याद करता हूं जो प्रतिरूपण मॉडल अभी भी मॉडल के मापदंडों के लिए कवर अंतराल का उत्पादन नहीं कर सकते हैं जो सही अंतर्निहित मूल्यों को शामिल नहीं करते हैं!

इसे ध्यान में रखते हुए, लापता मान के लिए पांच सरल भोले मॉडल का उपयोग करना सबसे अच्छा प्रतीत होता है (वर्तमान चर्चा में यादृच्छिक रूप से गायब नहीं होना), जो मूल्यों का एक अच्छा प्रसार पैदा करते हैं, ताकि कम से कम अंतराल, सही मापदंडों को शामिल कर सकें। ।

नमूनाकरण सिद्धांत में मेरा अनुभव यह है कि गैर-प्रतिक्रिया आबादी को कम करने में अक्सर बहुत सारे संसाधन खर्च किए जाते हैं, जो कई बार, प्रतिक्रिया की आबादी से बहुत अलग प्रतीत होता है। जैसे, मैं आवेदन के विशेष क्षेत्र में कम से कम एक बार लापता मूल्य प्रतिगमन में एक समान अभ्यास की सिफारिश करूंगा। लापता डेटा के ऐसे अन्वेषण में अपरिवर्तित रिश्ते भविष्य के लिए बेहतर लापता डेटा पूर्वानुमान मॉडल के निर्माण में ऐतिहासिक मूल्य के हो सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.