थोड़ा सा घूमते हुए, मेरे पास लगभग एक लाख रिकॉर्ड हैं जो लगभग दस वर्षों में फैले सिस्टम में लोगों के प्रवेश समय और निकास समय को रिकॉर्ड करते हैं। हर रिकॉर्ड में एंट्री टाइम होता है, लेकिन हर रिकॉर्ड में एग्जिट टाइम नहीं होता। प्रणाली में औसत समय ~ 1 वर्ष है।
गायब होने का समय दो कारणों से होता है:
- जिस समय डेटा कैप्चर किया गया था, उस व्यक्ति ने सिस्टम को नहीं छोड़ा है।
- व्यक्ति के बाहर निकलने का समय दर्ज नहीं किया गया था। ऐसा 50% रिकॉर्ड्स को कहते हैं
रुचि के प्रश्न हैं:
- क्या लोग सिस्टम में कम समय बिता रहे हैं, और कितना कम समय।
- अधिक बाहर निकलने का समय दर्ज किया जा रहा है, और कितने।
हम यह कहकर इसका मॉडल तैयार कर सकते हैं कि बाहर निकलने की संभावना समय के साथ रैखिक रूप से बदलती रहती है, और यह कि सिस्टम के समय में एक वेइबल होता है जिसके पैरामीटर समय के साथ रैखिक रूप से भिन्न होते हैं। इसके बाद हम विभिन्न मापदंडों का अधिकतम अनुमान लगा सकते हैं और परिणामों को याद कर सकते हैं और उन्हें प्रशंसनीय बना सकते हैं। हमने वेइबुल वितरण को चुना क्योंकि इसका उपयोग जीवनकाल को मापने में किया जाता है और गामा वितरण की तुलना में डेटा को बेहतर तरीके से फिट करने के विपरीत कहने में मज़ा आता है।
मुझे एक सुराग प्राप्त करने के लिए कहां देखना चाहिए कि यह सही तरीके से कैसे किया जाए? हम कुछ हद तक गणितीय रूप से प्रेमी हैं, लेकिन सांख्यिकीय रूप से सामान्य नहीं हैं।