जब निर्भर चर "कट-ऑफ" होता है तो मॉडलिंग करना


12

अग्रिम में माफी यदि कोई शब्दावली मैं उपयोग करता है गलत है। मैं किसी भी सुधार का स्वागत करता हूँ। यदि मैं "कट-ऑफ" के रूप में जो वर्णन करता हूं वह एक अलग नाम से जाता है, तो मुझे बताएं और मैं प्रश्न को अपडेट कर सकता हूं।

जिस स्थिति में मेरी दिलचस्पी है वह यह है: आपके पास स्वतंत्र चर x और एक आश्रित चर y । मैं इसे अस्पष्ट छोड़ दूंगा, लेकिन यह मानता हूं कि इन चरों के लिए एक अच्छा प्रतिगमन मॉडल प्राप्त करना अपेक्षाकृत सरल होगा।

xw=min(y,a)ayyw

इसका (कुछ अवास्तविक) उदाहरण यह होगा कि यदि आप यह मॉडल बनाने की कोशिश कर रहे हैं कि लोग कितने वर्षों तक अपनी पेंशन जमा करेंगे। इस मामले में, प्रासंगिक जानकारी जैसे लिंग, वजन, प्रति सप्ताह व्यायाम के घंटे आदि हो सकता है। 'अंतर्निहित' चर जीवन प्रत्याशा होगा। हालाँकि, जिस चर की आप तक पहुँच होगी और जो आपके मॉडल में भविष्यवाणी करने की कोशिश कर रहा होगा वह जहाँ r सेवानिवृत्ति की आयु है (सादगी के लिए यह निश्चित है)।xyw=min(0,yr)

क्या प्रतिगमन मॉडलिंग में इससे निपटने के लिए एक अच्छा तरीका है?


1
मुझे यकीन नहीं है, लेकिन यह लगता है कि यह उत्तरजीविता विश्लेषण के कुछ बदलाव के माध्यम से स्वीकार्य हो सकता है। 1) इसमें सेंसर करना शामिल है 2) कम से कम आपके उदाहरण में, इसमें समय शामिल है। लेकिन इसे राइट-सेंसर (जो अधिक सामान्य है) के बजाय बाएं-सेंसर किया जाएगा। यदि आप मुझसे सहमत हैं, तो आप उत्तरजीविता टैग जोड़ सकते हैं और देख सकते हैं कि कोई इस पर कूदता है या नहीं।
पीटर Flom - को पुनः स्थापित मोनिका

4
@ पेटर यह निश्चित रूप से मेरे लिए सही-सेंसर लगता है। सेंसरिंग किस तरफ होती है, यह बहुत कम आयात पर होता है, क्योंकि आश्रित चर की उपेक्षा करके दाएं और बाएं-सेंसर के बीच स्विच होता है।
whuber

@ जब भी मुझे लगता है कि आप सही हैं। लेकिन, जैसा कि आप कहते हैं, सेंसर आसानी से पर्याप्त स्विच कर सकता है।
पीटर Flom - को पुनः स्थापित मोनिका

सेवानिवृत्ति का उदाहरण एक गिनती डेटा मॉडल के लिए कॉल करने के लिए लगता है (यदि आप पूरे वर्ष के लिए तैयार हैं और जब तक आप विश्लेषण चलाते हैं तब तक हर कोई मर चुका होता है)। अव्यक्त चर दृष्टिकोण इस तरह से खिंचाव के साथ लगता है क्योंकि समय नकारात्मक नहीं हो सकता है।
दिमित्री वी। मास्टरोव

जवाबों:


14

इस तरह का मॉडल कई नामों से जाता है, जो अनुशासन और विषय क्षेत्र पर निर्भर करता है। इसके लिए सामान्य नाम हैं, सेंसर डिपेंडेंट वेरिएबल्स, ट्रंककेटेड डिपेंडेंट वेरिएबल्स, लिमिटेड डिपेंडेंट वेरिएबल्स, सरवाइवल एनालिसिस, टोबिट और सेंसर रिग्रेशन। मैं शायद कई अन्य नामों को छोड़ रहा हूं।

आपके द्वारा सुझाया गया सेटअप जहां मनाया जाता है, उसे "सही " कहा जाता है, क्योंकि वास्तविक लाइन पर दाईं ओर मान सेंसर किया गया है --- और इसके बजाय हम बस सेंसर बिंदु को देखते हैं। ।min{yi,a}yia

इस तरह के डेटा से निपटने का एक तरीका अव्यक्त चर के उपयोग के माध्यम से है (और यह मूल रूप से आप क्या प्रस्ताव है)। आगे बढ़ने का एक तरीका यह है:

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

फिर, आप अधिकतम संभावना द्वारा इसका विश्लेषण कर सकते हैं। वे अवलोकन जहां योगदान होता है संभावना फ़ंक्शन के लिए, और वे अवलोकन जहां सेंसर का योगदान नहीं होता है संभावना समारोह के लिए। मानक सामान्य का CDF और मानक सामान्य का घनत्व । तो, संभावना समारोह जैसा दिखता है:P{yi>a}=Φ(1σxiβa)1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

आप इसे अधिकतम करके और अनुमान लगाते हैं । सामान्य अधिकतम संभावना मानक त्रुटियों के रूप में आपको मानक त्रुटियां मिलती हैं।βσ

जैसा कि आप सोच सकते हैं, यह कई लोगों के बीच सिर्फ एक दृष्टिकोण है।


1
+1 ML समाधान का एक काम किया गया उदाहरण आँकड़े.स्टैकएक्सचेंज . com / questions / 49443 पर दिखाई देता है ।
whuber

@whuber यह एक अच्छा प्रदर्शन है।
बिल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.