मैं यह कैसे निर्धारित करूं कि लापता डेटा वाला एक जीवित मॉडल उपयुक्त है?


9

थोड़ा सा घूमते हुए, मेरे पास लगभग एक लाख रिकॉर्ड हैं जो लगभग दस वर्षों में फैले सिस्टम में लोगों के प्रवेश समय और निकास समय को रिकॉर्ड करते हैं। हर रिकॉर्ड में एंट्री टाइम होता है, लेकिन हर रिकॉर्ड में एग्जिट टाइम नहीं होता। प्रणाली में औसत समय ~ 1 वर्ष है।

गायब होने का समय दो कारणों से होता है:

  1. जिस समय डेटा कैप्चर किया गया था, उस व्यक्ति ने सिस्टम को नहीं छोड़ा है।
  2. व्यक्ति के बाहर निकलने का समय दर्ज नहीं किया गया था। ऐसा 50% रिकॉर्ड्स को कहते हैं

रुचि के प्रश्न हैं:

  1. क्या लोग सिस्टम में कम समय बिता रहे हैं, और कितना कम समय।
  2. अधिक बाहर निकलने का समय दर्ज किया जा रहा है, और कितने।

हम यह कहकर इसका मॉडल तैयार कर सकते हैं कि बाहर निकलने की संभावना समय के साथ रैखिक रूप से बदलती रहती है, और यह कि सिस्टम के समय में एक वेइबल होता है जिसके पैरामीटर समय के साथ रैखिक रूप से भिन्न होते हैं। इसके बाद हम विभिन्न मापदंडों का अधिकतम अनुमान लगा सकते हैं और परिणामों को याद कर सकते हैं और उन्हें प्रशंसनीय बना सकते हैं। हमने वेइबुल वितरण को चुना क्योंकि इसका उपयोग जीवनकाल को मापने में किया जाता है और गामा वितरण की तुलना में डेटा को बेहतर तरीके से फिट करने के विपरीत कहने में मज़ा आता है।

मुझे एक सुराग प्राप्त करने के लिए कहां देखना चाहिए कि यह सही तरीके से कैसे किया जाए? हम कुछ हद तक गणितीय रूप से प्रेमी हैं, लेकिन सांख्यिकीय रूप से सामान्य नहीं हैं।

जवाबों:


5

यह देखने का मूल तरीका है कि क्या आपका डेटा वेइबुल है , संचयी खतरों के लॉग बनाम समय के लॉग को प्लॉट करने और यह देखने के लिए कि क्या एक सीधी रेखा एक अच्छी फिट हो सकती है। गैर-पैरामीट्रिक नेल्सन-एलेन अनुमानक का उपयोग करके संचयी खतरा पाया जा सकता है। वेइबुल रिग्रेशन के लिए इसी तरह के ग्राफिकल डायग्नोस्टिक्स हैं यदि आप अपने डेटा को कोवरिएट्स और कुछ संदर्भों के साथ फिट करते हैं।

क्लेन और Moeschberger पाठ बहुत अच्छा है और एक पैरामीट्रिक और अर्द्ध पैरामीट्रिक मॉडल के लिए मॉडल बिल्डिंग / निदान के साथ जमीन का बहुत (हालांकि ज्यादातर उत्तरार्द्ध) को शामिल किया गया। यदि आप आर में काम कर रहे हैं, तो थेऊ की पुस्तक बहुत अच्छी है (मेरा मानना ​​है कि उन्होंने उत्तरजीविता पैकेज लिखा है )। इसमें बहुत सी कॉक्स PH और संबंधित मॉडल शामिल हैं, लेकिन मुझे याद नहीं है कि यह पैरामीट्रिक मॉडल का बहुत कवरेज है, जैसे कि आप निर्माण कर रहे हैं।

BTW, क्या यह एक लाख विषय है जिसमें प्रत्येक व्यक्ति के छोटे पूल के लिए एक प्रविष्टि / निकास या आवर्तक प्रविष्टि / निकास घटनाओं के साथ है? क्या आप सेंसरिंग मैकेनिज्म के लिए अपनी संभावना को कंडीशनिंग कर रहे हैं?


धन्यवाद, यह वही है जो मैं देख रहा था। यह अनिवार्य रूप से एक प्रविष्टि और निकास समय के साथ एक लाख विषय है। हां हम सेंसर करने के लिए कंडीशनिंग कर रहे हैं।
डेस्ट जूल 27'10

2

आप अपने सिस्टम के सभी लोगों के लिए बाहर निकलने के समय का अनुमान लगाने के लिए अनुमानित मॉडल का उपयोग कर सकते हैं। फिर आप वास्तविक निकास समय (जहां आपके पास यह डेटा है) के साथ अनुमानित निकास समय की तुलना कर सकते हैं और यह आकलन करने के लिए RMSE जैसे मीट्रिक की गणना कर सकते हैं कि आपकी भविष्यवाणियां कितनी अच्छी हैं जो बदले में आपको मॉडल फिट होने का एहसास दिलाएंगी । इस लिंक को भी देखें ।


1
एक मिलन बिंदु और 8 पैरामीटर मॉडल के साथ, ची-स्क्वेड जैसे फिट परीक्षण की एक अच्छाई मुझे बताती है कि अनिवार्य रूप से कोई मौका नहीं है कि मॉडल सही है। (जो आश्चर्य की बात नहीं है, क्योंकि वास्तविकता को प्रभावित करने वाले अंतहीन कारक हैं जो मॉडल में नहीं हैं) आरएमएसई मुझे यह समझ देता है कि मॉडल डेटा को कितना अच्छा मानता है, लेकिन मुझे यह समझ नहीं देता है कि क्या एक बेहतर मॉडल है
deinst

वैसे यह पता लगाने के लिए कि क्या बेहतर मॉडल है, आप या तो विभिन्न योगों के साथ प्रयोग कर सकते हैं या आप यह देखने के लिए कि क्या आपके मॉडल मान्यताओं के अनुरूप है, यह देखने के लिए आप विभिन्न भूखंडों (जैसे, समय बनाम बाहर निकलने का समय) का उपयोग कर सकते हैं। आप मॉडल सुधार विचारों के लिए यादृच्छिक विज़-ए-विज़ वास्तविक समय में चयनित एक छोटे नमूने के लिए बाहर निकलने के समय की भविष्यवाणी कर सकते हैं।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.