मुझे आश्चर्य है कि अगर कोई लापता डेटा के लिए अलग-अलग मॉडल बनाने से बेहतर है कि गुम डेटा के लिए अलग-अलग मॉडल बनाने से बेहतर क्यों है। विशेष रूप से [सामान्यीकृत] रैखिक मॉडल के मामले में (मैं शायद गैर-रैखिक मामलों में देख सकता हूं चीजें अलग हैं)
मान लें कि हमारे पास मूल रैखिक मॉडल है:
लेकिन हमारे डेटा सेट में लापता होने के साथ कुछ रिकॉर्ड हैं। भविष्यवाणी डेटा सेट में, जहां मॉडल का उपयोग किया जाएगा वहां भी लापता एक्स 3 के मामले होंगे । आगे बढ़ने के दो तरीके हैं:
कई मॉडल
हम डेटा को और गैर- X 3 मामलों में विभाजित कर सकते हैं और प्रत्येक के लिए एक अलग मॉडल बना सकते हैं। हम मान लें कि यदि एक्स 3 बारीकी से संबंधित है एक्स 2 तब लापता डेटा मॉडल अधिक वजन कर सकते हैं एक्स 2 सबसे अच्छा दो भविष्यवक्ता भविष्यवाणी प्राप्त करने के लिए। इसके अलावा अगर लापता डेटा के मामले थोड़े अलग हैं (लापता डेटा तंत्र के कारण) तो यह उस अंतर को शामिल कर सकता है। नीचे की ओर, दो मॉडल केवल डेटा के एक हिस्से पर फिट हो रहे हैं, और एक दूसरे को "मदद" नहीं कर रहे हैं, इसलिए फिट सीमित डेटासेट पर खराब हो सकता है।
इलज़ाम
प्रतिगमन कई इलज़ाम पहले में भरने होगा एक मॉडल पर आधारित का निर्माण करके एक्स 1 और एक्स 2 और उसके बाद बेतरतीब ढंग से अध्यारोपित डेटा में शोर बनाए रखने के लिए नमूना। चूँकि यह फिर से दो मॉडल हैं, क्या यह केवल ऊपर की कई मॉडल विधि के समान नहीं होगा? यदि यह बेहतर प्रदर्शन करने में सक्षम है - लाभ कहाँ से आता है? क्या सिर्फ इतना है कि एक्स 1 के लिए फिट पूरे सेट पर किया जाता है?
संपादित करें:
जबकि स्टीफ़न का जवाब अब तक यह बताता है कि प्रतिरूपित डेटा पर पूर्ण केस मॉडल को पूरा करने से संपूर्ण डेटा पर फिटिंग बेहतर हो जाएगी, और ऐसा लगता है कि रिवर्स सच है, लापता डेटा पूर्वानुमान के बारे में अभी भी कुछ गलतफहमी है।
अगर मेरे पास उपरोक्त मॉडल है, यहां तक कि पूरी तरह से फिट है, तो यह सामान्य रूप से एक भयानक पूर्वानुमान मॉडल होगा यदि मैं भविष्यवाणी करते समय सिर्फ शून्य डालता हूं। उदाहरण के लिए, कल्पना करें कि तो एक्स 2 पूरी तरह से बेकार है ( β 2 = 0 जब) एक्स 3 मौजूद है, लेकिन अभी भी के अभाव में उपयोगी होगा एक्स 3 ।
मुख्य प्रश्न जो मुझे समझ में नहीं आता है: क्या दो मॉडलों का निर्माण करना बेहतर है, एक का उपयोग करना और एक का उपयोग करना बेहतर है ( एक्स 1 , एक्स 2 , एक्स 3 ) , या एकल बनाना बेहतर है ( पूर्ण) मॉडल और पूर्वानुमान डेटासेट पर प्रतिरूपण का उपयोग - या ये एक ही बात हैं?
स्टेफ़न के जवाब में लाना, ऐसा प्रतीत होता है कि एक प्रतिपादित प्रशिक्षण सेट पर पूर्ण केस मॉडल का निर्माण करना बेहतर है, और इसके विपरीत साथ पूर्ण डेटा सेट पर लापता डेटा मॉडल का निर्माण करना संभवतः सबसे अच्छा है । क्या यह दूसरा कदम पूर्वानुमान डेटा में एक इंप्यूटेशन मॉडल का उपयोग करने से अलग है?