सर्वाइवल मॉडल फॉर प्रड्यूसिंग द चर्न - टाइम-डिफरेंट प्रेडिक्टर्स?


17

मैं मंथन की भविष्यवाणी करने के लिए एक पूर्वानुमान मॉडल का निर्माण करना चाहता हूं और एक व्यक्ति-काल प्रशिक्षण डेटासेट के लिए फिट किए गए एक असतत समय के जीवित रहने वाले मॉडल का उपयोग करना चाहता हूं (प्रत्येक ग्राहक के लिए एक पंक्ति और जोखिम के समय वे घटना के लिए एक संकेतक के साथ - बराबर 1 यदि उस अवधि में मंथन हुआ, तो 0)।

  • मैं सिंगर और विलेट से तकनीक का उपयोग करके सामान्य लॉजिस्टिक प्रतिगमन का उपयोग करके मॉडल को फिट कर रहा हूं
  • एक ग्राहक का मंथन एक महीने के दौरान कहीं भी हो सकता है, लेकिन यह केवल उस महीने के अंत में होता है, जिसके बारे में हमें पता होता है (यानी उस महीने के दौरान वे चले गए थे)। प्रशिक्षण के लिए 24 महीनों का उपयोग किया जा रहा है।
  • उपयोग किए जा रहे समय चर नमूने का मूल समय है - सभी ग्राहक 12/31/2008 तक सक्रिय हैं - वे सभी जनवरी 2009 के अनुसार t = 0 प्राप्त करते हैं (ऐसा करने का शास्त्रीय तरीका नहीं है, लेकिन मेरा मानना ​​है कि निर्माण के समय एक पारंपरिक मॉडल बनाम एक भविष्य कहनेवाला मॉडल)। उस समय ग्राहक के कार्यकाल का उपयोग किया गया एक कोवरिएट होता है।
  • कोविरेट की एक श्रृंखला है जो निर्माण की गई थी - कुछ जो डेटासेट की पंक्तियों में (किसी दिए गए ग्राहक के लिए) और कुछ में परिवर्तन नहीं करती हैं।

  • ये समय भिन्न प्रकार के सहसंयोजकों का मुद्दा है और जो मेरे लिए मंथन की भविष्यवाणी के लिए एक उत्तरजीविता मॉडल पर सवाल खड़ा कर रहा है (एक नियमित क्लासिफायर की तुलना में जो वर्तमान स्नैपशॉट डेटा के आधार पर अगले x महीनों में मंथन की भविष्यवाणी करता है)। समय-अपरिवर्तित व्यक्ति महीने की गतिविधि का वर्णन करते हैं और महत्वपूर्ण ट्रिगर होने की उम्मीद की जाती है।

कम से कम मेरी वर्तमान सोच के आधार पर, इस पूर्वानुमान मॉडल का कार्यान्वयन प्रत्येक महीने के अंत में ग्राहक आधार को स्कोर करना है, अगले महीने के दौरान कुछ समय के मंथन की संभावना / जोखिम की गणना करना। फिर अगले 1,2 या 3 महीने के लिए। फिर अगले 1,2,3,4,5,6 महीनों के लिए। 3 और 6 महीने के मंथन की संभावना के लिए, मैं अनुमानित उत्तरजीविता वक्र का उपयोग करूंगा।

समस्या:

जब स्कोरिंग के बारे में सोचने की बात आती है, तो मैं समय-भिन्न भविष्यवक्ताओं को कैसे शामिल कर सकता हूं? ऐसा लगता है कि मैं केवल समय-अपरिवर्तनीय भविष्यवक्ताओं के साथ स्कोर कर सकता हूं या उन लोगों को शामिल कर सकता हूं जो समय के लिए अपरिवर्तनीय हैं, आपको उन्हें समय-अपरिवर्तित करना होगा - "अभी के मूल्य" पर सेट करें।

क्या किसी को अस्तित्व के मॉडल के उपयोग पर अनुभव या विचार है?

@JVM टिप्पणी के आधार पर अपडेट:

मुद्दा मॉडल का आकलन करने, गुणांक की व्याख्या करने, प्रशिक्षण डेटा का उपयोग करने के लिए दिलचस्प सहसंयोजक मूल्यों के खतरे / उत्तरजीविता भूखंडों की साजिश करने के साथ नहीं है। मुद्दा किसी दिए गए ग्राहक के लिए जोखिम का अनुमान लगाने के लिए मॉडल का उपयोग करने में है। इस महीने के अंत में कहें, मैं उन सभी को स्कोर करना चाहता हूं जो अभी भी इस मॉडल के साथ सक्रिय ग्राहक हैं। मैं उस अवधि का अनुमान लगाना चाहता हूं, जो एक्स पीरियड (अगले महीने के अंत में खाता बंद करने का जोखिम), अब से दो महीने के अंत में खाता बंद करने का जोखिम, आदि) है। यदि अलग-अलग कोवरिएट्स हैं, तो उनके मूल्य भविष्य की किसी भी अवधि से अज्ञात हैं, इसलिए मॉडल का उपयोग कैसे करें?

अंतिम अपडेट:

एक व्यक्ति अवधि डेटा सेट में प्रत्येक व्यक्ति के लिए एक प्रविष्टि होगी और प्रत्येक समय की अवधि वे जोखिम में हैं। कहते हैं कि जे टाइम पीरियड्स हैं (शायद J = 1 ... 24 महीनों के लिए 24) आइए मैं एक असतत समय उत्तरजीविता मॉडल का निर्माण करता हूं, जहां सादगी के लिए हम समय टी को रैखिक मानते हैं और दो कोवरिएट्स एक्स और जेड हैं जहां एक्स समय है -इनवेरिएंट, मतलब यह ith व्यक्ति के लिए हर अवधि में स्थिर है और Z समय बदलती है, जिसका अर्थ है कि ith व्यक्ति के लिए प्रत्येक रिकॉर्ड एक अलग मूल्य पर ले सकता है। उदाहरण के लिए, X ग्राहकों का लिंग हो सकता है और Z हो सकता है कि पहले महीने में वे कंपनी के लिए कितने लायक थे। Jth समय अवधि में ith व्यक्ति के लिए खतरे के प्रवेश के लिए मॉडल है:

एलजीमैंटी((टीमैंजे))=α0+α1टीजे+β1एक्समैं+β2जेडमैंजे

जेडजे

एकमात्र उपाय जो मैं सोच सकता हूं:

  • जेड की तरह अलग-अलग कोवरिएट्स का उपयोग न करें। यह मंथन की घटना की भविष्यवाणी करने के लिए मॉडल को बहुत कमजोर कर देगा, हालांकि, उदाहरण के लिए, जेड में कमी देखकर हमें बताएगा कि ग्राहक विघटित हो रहा है और शायद छोड़ने की तैयारी कर रहा है।
  • अलग-अलग समय का उपयोग करें कोवरिएट्स लेकिन उन्हें अंतराल (जैसे जेड ऊपर था) जो हमें कई अवधियों का पूर्वानुमान लगाने की अनुमति देता है लेकिन हम चर (फिर से, नए वर्तमान डेटा स्कोर करने वाले मॉडल की सोच) से पिछड़ गए हैं।
  • अलग-अलग कोवरिएट्स का समय का उपयोग करें लेकिन उन्हें पूर्वानुमान में स्थिरांक के रूप में रखें (इसलिए मॉडल को अलग-अलग डेटा के लिए फिट किया गया था लेकिन भविष्यवाणी के लिए हम उन्हें लगातार छोड़ देते हैं और अनुकरण करते हैं कि इन मूल्यों में परिवर्तन, यदि बाद में वास्तव में देखा गया है, तो मंथन के जोखिम को प्रभावित करेगा।
  • अलग-अलग कोवरिएट्स का उपयोग करें लेकिन ज्ञात डेटा से पूर्वानुमान के आधार पर उनके भविष्य के मूल्यों को लागू करें। जैसे पूर्वानुमानजेडजे लिए प्रत्येक ग्राहक के लिए ।

एक दो सवाल: सबसे पहले, क्या आप असतत समय मॉडल का उपयोग करने के लिए तैयार हैं? पैरामीट्रिक उत्तरजीविता मॉडल में आप जो करना चाहते हैं वह सरल हो सकता है। दूसरा, क्या आप मंथन से जो मतलब रखते हैं उसका एक उदाहरण प्रदान कर सकेंगे; उल्लू शायद सिर्फ एक उदाहरण है कि आपका डेटा कैसा दिखता है?
जेसन मॉर्गन

@JWM। मंथन का मतलब है कि ग्राहक ने अपना खाता रद्द कर दिया। चूंकि मुझे पता है कि ग्राहक द्वारा रद्द किया गया केवल महीना, मुझे लगता है कि असतत समय उपयुक्त है। मेरा मानना ​​है कि मॉडल के असतत या निरंतर समय (कॉक्स या एएफटी) नहीं होने पर अलग-अलग भविष्यवाणियों के साथ एक ही मुद्दा मौजूद है?
B_Miner

मैं अभी भी माफी माँगता हूँ कि आपकी चिंता को बहुत कम नहीं कर रहा हूँ। आपको अपने मॉडल का अच्छी तरह से अनुमान लगाने में सक्षम होना चाहिए। यद्यपि, क्योंकि आपके टीवीसी और आश्रित चर में माप त्रुटि की संभावना है, इसलिए आपको संभवतः मॉडल में टीवीसी के अंतराल का उपयोग करना चाहिए। अन्यथा, आप एक कोवरिएट मान का उपयोग करने का जोखिम उठाते हैं जो उस घटना के लिए भविष्यवक्ता के रूप में घटना की घटना के बाद मापा जाता है। आप समय-संगति समस्या देख सकते हैं। जबकि मुझे पता है कि आपका लक्ष्य भविष्यवाणी है, यदि आप उचित आत्मविश्वास अंतराल चाहते हैं, तो आप मजबूत मानक त्रुटियों (कम से कम) का अनुमान लगाना चाहेंगे।
जेसन मॉर्गन

@ जेवीएम जाहिर तौर पर मैं खुद को अच्छी तरह से समझाने में नाकाम रहा हूं। मैंने प्रश्न में एक प्रतिक्रिया जोड़ी।
B_Miner

t=0रों>0पी(टीमैं>रों+एक्स|एफरों)

जवाबों:


1

स्पष्टीकरण के लिए धन्यवाद, B_Miner। मैं अपने आप को बहुत अधिक पूर्वानुमान नहीं करता हूं, इसलिए एक चुटकी नमक के साथ इसका पालन करें। यहाँ मैं डेटा पर कम से कम पहली कटौती के रूप में करूँगा।

  • सबसे पहले, एक मॉडल तैयार करें और अनुमान लगाएं जो आपके टीवीसी को समझाए। यह सुनिश्चित करने के लिए कि डेटा के लिए एक सभ्य मॉडल है, सभी क्रॉस-वैलिडेशन, एरर चेकिंग आदि करें।
  • दूसरा, एक जीवित मॉडल (जो भी स्वाद का हो) का निर्माण और अनुमान लगाएं। यह सुनिश्चित करने के लिए कि यह मॉडल उचित है, सभी क्रॉस-वेलिडेशन, एरर चेकिंग करें।
  • तीसरा, टीवीसी मॉडल के पूर्वानुमानों को मंथन के जोखिमों और जो भी आप चाहते हैं, के आधार पर पूर्वानुमान का उपयोग करने की एक विधि पर व्यवस्थित करें। एक बार फिर, सत्यापित करें कि भविष्यवाणियां आपके नमूने का उपयोग करके उचित हैं।

एक बार जब आपके पास एक मॉडल होता है जिसे आप उचित समझते हैं, तो मैं पहले टीवीसी मॉडल में दूसरे मॉडल में त्रुटि को शामिल करने के तरीके के रूप में डेटा को बूटस्ट्रैप करने का सुझाव दूंगा। मूल रूप से, डेटा से बूटस्ट्रैप नमूना लेने और पूर्वानुमान का एक सेट बनाने के लिए, 1-3 बार हर बार कदम लागू करें। जब आपके पास पूर्वानुमानों की एक उचित संख्या होती है, तो उन्हें किसी भी तरह से संक्षेप में बताएं जो आपको लगता है कि आपके कार्य के लिए उपयुक्त है; उदाहरण के लिए, ब्याज के प्रत्येक व्यक्ति या कोवरिएट प्रोफाइल के साथ-साथ 95% विश्वास अंतराल के लिए मंथन का जोखिम प्रदान करें।


@JVM। क्या मैं आपको सही ढंग से पढ़ता हूं कि आपका सुझाव ऊपर (अंतिम अपडेट में) मेरा अंतिम समाधान विकल्प है। आप वास्तविक उत्तरजीविता मॉडल में उपयोग करने के लिए प्रत्येक Z (TVC) का अनुमान लगाने के लिए मॉडल विकसित करते हैं?
B_Miner

2

जैसा कि मैंने देखा कि दो अस्तित्व विश्लेषण प्रतिमान हैं जिनका उपयोग किया जा सकता है। कॉक्स रिग्रेशन फ्रेमवर्क में समय अलग-अलग कोवरिएट्स की अनुमति देता है और यह रद्द करने के औसत स्तर के सापेक्ष किसी भी विशेष रूप से कोवरिएट्स के सेट पर रद्द किए जाने के जोखिम के लिए एक अनुमान का उत्पादन करेगा। Poisson त्रुटियों के साथ glm फ्रेमवर्क भी आनुपातिक खतरों का मॉडल है और विशेष रूप से असतत अंतराल के अनुकूल है। जेवीएम ने कहा है कि चालू महीने में अधूरे डेटा का उपयोग करने में संभावित त्रुटि है, लेकिन मुझे जो समझ है वह यह है कि आप एक अनुमान चाहते हैं जो सह-चर के नवीनतम मूल्य या सहसंयोजकों के सेट पर सशर्त है। डेटा स्थिति का बेहतर वर्णन बेहतर काम किए गए उदाहरण दे सकता है ...।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.