मैं मंथन की भविष्यवाणी करने के लिए एक पूर्वानुमान मॉडल का निर्माण करना चाहता हूं और एक व्यक्ति-काल प्रशिक्षण डेटासेट के लिए फिट किए गए एक असतत समय के जीवित रहने वाले मॉडल का उपयोग करना चाहता हूं (प्रत्येक ग्राहक के लिए एक पंक्ति और जोखिम के समय वे घटना के लिए एक संकेतक के साथ - बराबर 1 यदि उस अवधि में मंथन हुआ, तो 0)।
- मैं सिंगर और विलेट से तकनीक का उपयोग करके सामान्य लॉजिस्टिक प्रतिगमन का उपयोग करके मॉडल को फिट कर रहा हूं ।
- एक ग्राहक का मंथन एक महीने के दौरान कहीं भी हो सकता है, लेकिन यह केवल उस महीने के अंत में होता है, जिसके बारे में हमें पता होता है (यानी उस महीने के दौरान वे चले गए थे)। प्रशिक्षण के लिए 24 महीनों का उपयोग किया जा रहा है।
- उपयोग किए जा रहे समय चर नमूने का मूल समय है - सभी ग्राहक 12/31/2008 तक सक्रिय हैं - वे सभी जनवरी 2009 के अनुसार t = 0 प्राप्त करते हैं (ऐसा करने का शास्त्रीय तरीका नहीं है, लेकिन मेरा मानना है कि निर्माण के समय एक पारंपरिक मॉडल बनाम एक भविष्य कहनेवाला मॉडल)। उस समय ग्राहक के कार्यकाल का उपयोग किया गया एक कोवरिएट होता है।
कोविरेट की एक श्रृंखला है जो निर्माण की गई थी - कुछ जो डेटासेट की पंक्तियों में (किसी दिए गए ग्राहक के लिए) और कुछ में परिवर्तन नहीं करती हैं।
ये समय भिन्न प्रकार के सहसंयोजकों का मुद्दा है और जो मेरे लिए मंथन की भविष्यवाणी के लिए एक उत्तरजीविता मॉडल पर सवाल खड़ा कर रहा है (एक नियमित क्लासिफायर की तुलना में जो वर्तमान स्नैपशॉट डेटा के आधार पर अगले x महीनों में मंथन की भविष्यवाणी करता है)। समय-अपरिवर्तित व्यक्ति महीने की गतिविधि का वर्णन करते हैं और महत्वपूर्ण ट्रिगर होने की उम्मीद की जाती है।
कम से कम मेरी वर्तमान सोच के आधार पर, इस पूर्वानुमान मॉडल का कार्यान्वयन प्रत्येक महीने के अंत में ग्राहक आधार को स्कोर करना है, अगले महीने के दौरान कुछ समय के मंथन की संभावना / जोखिम की गणना करना। फिर अगले 1,2 या 3 महीने के लिए। फिर अगले 1,2,3,4,5,6 महीनों के लिए। 3 और 6 महीने के मंथन की संभावना के लिए, मैं अनुमानित उत्तरजीविता वक्र का उपयोग करूंगा।
समस्या:
जब स्कोरिंग के बारे में सोचने की बात आती है, तो मैं समय-भिन्न भविष्यवक्ताओं को कैसे शामिल कर सकता हूं? ऐसा लगता है कि मैं केवल समय-अपरिवर्तनीय भविष्यवक्ताओं के साथ स्कोर कर सकता हूं या उन लोगों को शामिल कर सकता हूं जो समय के लिए अपरिवर्तनीय हैं, आपको उन्हें समय-अपरिवर्तित करना होगा - "अभी के मूल्य" पर सेट करें।
क्या किसी को अस्तित्व के मॉडल के उपयोग पर अनुभव या विचार है?
@JVM टिप्पणी के आधार पर अपडेट:
मुद्दा मॉडल का आकलन करने, गुणांक की व्याख्या करने, प्रशिक्षण डेटा का उपयोग करने के लिए दिलचस्प सहसंयोजक मूल्यों के खतरे / उत्तरजीविता भूखंडों की साजिश करने के साथ नहीं है। मुद्दा किसी दिए गए ग्राहक के लिए जोखिम का अनुमान लगाने के लिए मॉडल का उपयोग करने में है। इस महीने के अंत में कहें, मैं उन सभी को स्कोर करना चाहता हूं जो अभी भी इस मॉडल के साथ सक्रिय ग्राहक हैं। मैं उस अवधि का अनुमान लगाना चाहता हूं, जो एक्स पीरियड (अगले महीने के अंत में खाता बंद करने का जोखिम), अब से दो महीने के अंत में खाता बंद करने का जोखिम, आदि) है। यदि अलग-अलग कोवरिएट्स हैं, तो उनके मूल्य भविष्य की किसी भी अवधि से अज्ञात हैं, इसलिए मॉडल का उपयोग कैसे करें?
अंतिम अपडेट:
एक व्यक्ति अवधि डेटा सेट में प्रत्येक व्यक्ति के लिए एक प्रविष्टि होगी और प्रत्येक समय की अवधि वे जोखिम में हैं। कहते हैं कि जे टाइम पीरियड्स हैं (शायद J = 1 ... 24 महीनों के लिए 24) आइए मैं एक असतत समय उत्तरजीविता मॉडल का निर्माण करता हूं, जहां सादगी के लिए हम समय टी को रैखिक मानते हैं और दो कोवरिएट्स एक्स और जेड हैं जहां एक्स समय है -इनवेरिएंट, मतलब यह ith व्यक्ति के लिए हर अवधि में स्थिर है और Z समय बदलती है, जिसका अर्थ है कि ith व्यक्ति के लिए प्रत्येक रिकॉर्ड एक अलग मूल्य पर ले सकता है। उदाहरण के लिए, X ग्राहकों का लिंग हो सकता है और Z हो सकता है कि पहले महीने में वे कंपनी के लिए कितने लायक थे। Jth समय अवधि में ith व्यक्ति के लिए खतरे के प्रवेश के लिए मॉडल है:
एकमात्र उपाय जो मैं सोच सकता हूं:
- जेड की तरह अलग-अलग कोवरिएट्स का उपयोग न करें। यह मंथन की घटना की भविष्यवाणी करने के लिए मॉडल को बहुत कमजोर कर देगा, हालांकि, उदाहरण के लिए, जेड में कमी देखकर हमें बताएगा कि ग्राहक विघटित हो रहा है और शायद छोड़ने की तैयारी कर रहा है।
- अलग-अलग समय का उपयोग करें कोवरिएट्स लेकिन उन्हें अंतराल (जैसे जेड ऊपर था) जो हमें कई अवधियों का पूर्वानुमान लगाने की अनुमति देता है लेकिन हम चर (फिर से, नए वर्तमान डेटा स्कोर करने वाले मॉडल की सोच) से पिछड़ गए हैं।
- अलग-अलग कोवरिएट्स का समय का उपयोग करें लेकिन उन्हें पूर्वानुमान में स्थिरांक के रूप में रखें (इसलिए मॉडल को अलग-अलग डेटा के लिए फिट किया गया था लेकिन भविष्यवाणी के लिए हम उन्हें लगातार छोड़ देते हैं और अनुकरण करते हैं कि इन मूल्यों में परिवर्तन, यदि बाद में वास्तव में देखा गया है, तो मंथन के जोखिम को प्रभावित करेगा।
- अलग-अलग कोवरिएट्स का उपयोग करें लेकिन ज्ञात डेटा से पूर्वानुमान के आधार पर उनके भविष्य के मूल्यों को लागू करें। जैसे पूर्वानुमान लिए प्रत्येक ग्राहक के लिए ।