लापता प्रतिपादक चर के साथ एकाधिक प्रतिगमन


9

मान लीजिए कि हमें फॉर्म के डेटा का एक सेट दिया गया है (y,x1,x2,,xn) तथा (y,एक्स1,एक्स2,,एक्सn-1)। हमें भविष्यवाणी करने का काम दिया जाता हैy के मूल्यों पर आधारित है एक्स। हम दो अनुमानों का अनुमान लगाते हैं:

(1)y=1(एक्स1,,एक्सn-1,एक्सn)(2)y=2(एक्स1,,एक्सn-1)

हम एक ऐसे प्रतिगमन का भी अनुमान लगाते हैं जो मूल्यों की भविष्यवाणी करता है एक्सn के मूल्यों पर आधारित है (एक्स1,,एक्सn-1), अर्थात्:

(3)एक्सn=3(एक्स1,,एक्सn-1)

मान लीजिए अब हमें मान दिया गया है (एक्स1,,एक्सn-1), तब हमारे पास भविष्यवाणी करने के दो अलग-अलग तरीके होंगे y:

(4)y=1(एक्स1,,एक्सn-1,3(एक्स1,,एक्सn-1))(5)y=2(एक्स1,,एक्सn-1)

कौन सा सामान्य रूप से बेहतर होगा?

मैं अनुमान लगा रहा हूं कि पहला समीकरण बेहतर होगा क्योंकि यह डेटा बिंदुओं के दो रूपों से जानकारी का उपयोग करता है जबकि दूसरा समीकरण केवल डेटा बिंदुओं से जानकारी का उपयोग करता है जो n-1पूर्वसूचक मान। आंकड़ों में मेरा प्रशिक्षण सीमित है और इस प्रकार मैं कुछ पेशेवर सलाह लेना चाहूंगा।

इसके अलावा, सामान्य तौर पर, डेटा के प्रति सबसे अच्छा दृष्टिकोण क्या है जिसमें अधूरी जानकारी है? दूसरे शब्दों में, हम उन आंकड़ों से सबसे अधिक जानकारी कैसे निकाल सकते हैं जिनमें सभी मूल्य नहीं हैंn आयाम?


वास्तविक बनाम अनुमानों के साथ अनुमान लगाते हुए - आप तय करते हैं :)
पीएचडी

वास्तव में यह इतना आसान है?
Xiaowen Li

उत्तर हो सकता है, यह निर्भर करता है। कितना डेटा गायब है? आपके पास कुल मिलाकर कितना डेटा है? आपके पास कितने भविष्यवक्ता हैं?
जोएल डब्ल्यू

जवाबों:


6

+1, मुझे लगता है कि यह वास्तव में दिलचस्प और स्पष्ट रूप से कहा गया सवाल है। हालांकि, अधिक जानकारी हमें इस स्थिति के माध्यम से सोचने में मदद करेगी।

उदाहरण के लिए, आपस में क्या संबंध है एक्सn तथा y? यह बहुत संभव है कि कोई भी हो, जिस स्थिति में, प्रतिगमन(1) प्रतिगमन के सापेक्ष कोई लाभ प्रदान नहीं करता है (2)। (वास्तव में, यह बहुत मामूली नुकसान में है, इस अर्थ में कि मानक त्रुटियां थोड़ी बड़ी हो जाएंगी, और इस तरह बिटास अपने वास्तविक मूल्यों से थोड़ा आगे हो सकता है।) यदि कोई फ़ंक्शन मैपिंग है।एक्सn सेवा y, तब, परिभाषा से, वहाँ वास्तविक जानकारी है, और प्रतिगमन (1) प्रारंभिक स्थिति में बेहतर होगा।

आगे, आपस में रिश्ते की प्रकृति क्या है (एक्स1,,एक्सn-1) तथा एक्सn? वहाँ एक है? उदाहरण के लिए, जब हम प्रयोग करते हैं, (आमतौर पर) हम व्याख्यात्मक चर के मूल्यों के प्रत्येक संयोजन के लिए अध्ययन इकाइयों की समान संख्या आवंटित करने का प्रयास करते हैं। (यह दृष्टिकोण IV के स्तरों के कई कार्टेशियन उत्पाद का उपयोग करता है, और इसे 'पूर्ण भाज्य' डिजाइन कहा जाता है; ऐसे मामले भी होते हैं, जहां स्तर को जानबूझकर डेटा को बचाने के लिए भ्रमित किया जाता है, जिसे ' भिन्नात्मक भाज्य ' डिजाइन कहा जाता है । व्याख्यात्मक चर ऑर्थोगोनल हैं, आपका तीसरा प्रतिगमन बिल्कुल उपज देगा, ठीक 0. दूसरी ओर, एक अवलोकन अध्ययन में सहसंयोजक हमेशा बहुत सहसंबद्ध होते हैं। यह संबंध जितना मजबूत होता है, उतनी कम जानकारी मौजूद होती हैएक्सn। ये तथ्य प्रतिगमन के सापेक्ष गुणों को संशोधित करेंगे(1) और प्रतिगमन (2)

हालाँकि, (दुर्भाग्य से शायद) यह उससे कहीं अधिक जटिल है। कई प्रतिगमन में महत्वपूर्ण है, लेकिन मुश्किल है, अवधारणाओं में से एक है multicollinearity । क्या आपको प्रतिगमन का अनुमान लगाने का प्रयास करना चाहिए(4), आप पाएंगे कि आपके पास एकदम सही बहुसंस्कृति है, और आपका सॉफ्टवेयर आपको बताएगा कि डिज़ाइन मैट्रिक्स उल्टा नहीं है। इस प्रकार, जबकि प्रतिगमन(1) अच्छी तरह से प्रतिगमन के सापेक्ष एक लाभ प्रदान कर सकता है (2), प्रतिगमन (4) नहीं होगा।

यदि आप प्रतिगमन का उपयोग करते हैं तो अधिक दिलचस्प सवाल (और आप जो पूछ रहे हैं) वह है (1) के बारे में भविष्यवाणियाँ करना y अनुमानित का उपयोग कर एक्सn मूल्य प्रतिगमन की भविष्यवाणियों से उत्पादन करते हैं (3)? (अर्थात, आप अनुमान नहीं लगा रहे हैं प्रतिगमन का(4)-तुम प्रतिगमन में अनुमानित भविष्यवाणी समीकरण से आउटपुट को प्लग कर रहे हैं (3) भविष्यवाणी मॉडल में (4)।) बात यह है कि आप वास्तव में यहां कोई नई जानकारी प्राप्त नहीं कर रहे हैं। जो भी जानकारी पहले में मौजूद हैn-1 प्रत्येक अवलोकन के लिए पूर्वसूचक मान पहले से ही प्रतिगमन द्वारा आशावादी रूप से उपयोग किया जा रहा है (2), इसलिए कोई लाभ नहीं है।

इस प्रकार, आपके पहले प्रश्न का उत्तर यह है कि आप प्रतिगमन के साथ जा सकते हैं (2)अनावश्यक कार्यों को बचाने के लिए आपकी भविष्यवाणियों के लिए। ध्यान दें कि मैं इसे काफी अमूर्त तरीके से संबोधित कर रहा हूं, बजाय इसके कि आप जिस ठोस स्थिति का वर्णन करते हैं उसे संबोधित करने के बजाय जिसमें कोई व्यक्ति आपको दो डेटा सेट देता है (मैं सिर्फ इस होने की कल्पना नहीं कर सकता)। इसके बजाय, मैं इस सवाल के बारे में सोच रहा हूं क्योंकि प्रतिगमन की प्रकृति के बारे में काफी गहराई से कुछ समझने की कोशिश कर रहा हूं। इस अवसर पर क्या होता है, हालांकि, यह है कि कुछ प्रेक्षणों में सभी भविष्यवक्ताओं के मूल्य होते हैं, और कुछ अन्य प्रेक्षणों (समान डेटासेट के भीतर) में कुछ पूर्ववर्तियों पर कुछ मान गायब होते हैं। अनुदैर्ध्य डेटा के साथ काम करते समय यह विशेष रूप से आम है। ऐसी स्थिति में, आप एक से अधिक प्रतिरूपण की जांच करना चाहते हैं ।


आपके विस्तृत उत्तर के लिए शुक्रिया गंग और आप मेरे प्रश्न के शब्दों को संशोधित करने में मदद करते हैं। आपके जवाब की पूरी तरह से व्याख्या करने के बाद मैं जवाब दूंगा। आपकी जानकारी के लिए, यह प्रकाश बल्बों की कीमत के बारे में एक अवलोकन अध्ययन है।एक्सnबल्ब का जीवनकाल, प्रकाश और रंग तापमान शामिल हैं। उन खुदरा विक्रेताओं से जानकारी एकत्र की जाती है जो आमतौर पर सब कुछ नहीं देते हैं, जिसके परिणामस्वरूप भविष्यवक्ता लापता हो जाते हैं। फिर भी हम अपने द्वारा एकत्रित की गई जानकारी का अधिकतम लाभ उठाने की कोशिश कर रहे हैं।
ज़ियाओवन ली

1
ठीक है, मैंने सोचा कि यह केवल प्रतिगमन को समझने के बारे में था। मैं कई आरोपों पर गौर करूंगा।
गूँज - मोनिका

आपकी जानकारी के लिए धन्यवाद गंग। आप सही हैं कि समीकरण 4 का उपयोग करके कोई नई जानकारी प्राप्त नहीं की गई है। प्रतिष्ठा बिल्कुल वही हो जाती है जिसकी मुझे आवश्यकता थी। और आप सही हैं, मैंने गुणांक में भाग लिया, जिससे मुझे गुणांक के लिए बहुत बड़ा पी मूल्य मिला। तब मुझे या तो विकल्प के साथ सामना करना पड़ा था कि चर की संख्या को कम करने के लिए गुणांक के लिए एक छोटा पी मान प्राप्त करें, या एक बड़ा प्राप्त करेंआर2और बड़ा पी। मुझे लगता है कि जीवन व्यापार से भरा हुआ है।
Xiaowen Li

प्रतिगमन पर आपके सारगर्भित चर्चा के लिए फिर से धन्यवाद। आंकड़े खूबसूरती से पेचीदा हो सकते हैं अगर हम इसे सच्चाई खोजने की एक विधि के रूप में देखें। मैं अपने डेटा सेट :)
Xiaowen Li

आपको पैरामीट्रिक फ्रैक्शनल इंप्यूटेशन की जाँच करनी चाहिए। यह आयोवा स्टेट में जेई क्वांग किम द्वारा किया गया काम है जो इस स्थिति के लिए एकदम सही हो सकता है। देखें biomet.oxfordjournals.org/content/98/1/119.abstract
StatsStudent
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.