मेरे डेटासेट में प्रत्येक रिकॉर्ड के लिए मेरे पास निम्न जानकारी है
कहाँ पे विशेषताएं हैं, यदि लक्ष्य घटना घटित होती है तो १ और अन्यथा होती है हुई घटना का टाइमस्टैम्प है। विशेष रूप से, अनुवर्ती समाप्त होने पर कोई घटना या समय निर्धारित न होने के कारण गायब हो सकता है।
मैं अपने डेटासेट में प्रत्येक रिकॉर्ड के लिए एक जोखिम सूचकांक की गणना करना चाहता हूं।
मैं एक वर्गीकरण मॉडल के लिए जाने की सोच रहा था जो सुविधाओं का उपयोग करता है वर्ग की भविष्यवाणी करने के लिए । तथापि, महत्वपूर्ण है: यदि घटना जल्द ही जोखिम अधिक होने की संभावना है।
इसीलिए इस समस्या के लिए एक उत्तरजीविता विश्लेषण अनुकूल होना चाहिए। मुझे इसके पूर्ण आकलन की आवश्यकता नहीं है लेकिन सिर्फ एक ही सूचकांक जो एकल रिकॉर्ड के लिए जोखिम का प्रतिनिधित्व करता है।
औसत उत्तरजीविता समय, जिसे प्रत्येक रिकॉर्ड के लिए गणना की जा सकती है, एक अच्छा जोखिम सूचकांक लगता है - जोखिम जितना कम होता है।
मेरा प्रश्न हैं:
- क्या उत्तरजीविता विश्लेषण मेरे उद्देश्यों के लिए उपयुक्त है?
- मैं अपने मॉडल के प्रदर्शन का मूल्यांकन कैसे कर सकता हूं?
प्रश्न के बारे में (2): मैं हरेल का उपयोग करने का इच्छुक हूं उदाहरण के लिए -index, लेकिन मुझे यकीन नहीं है कि इसकी गणना करने के लिए किस अनुमानित परिणाम का उपयोग किया जाता है। हरेल की पुस्तक प्रतिगमन मॉडलिंग रणनीतियाँ पृष्ठ 247 से:
अनुक्रमणिका [...] की गणना सभी सम्भावित विषयों के युग्मों के द्वारा की जाती है जैसे कि एक विषय ने उत्तर दिया और दूसरे ने नहीं। सूचकांक ऐसे जोड़े का अनुपात है, जिसमें उत्तरदाता के पास गैर-उत्तरदाता की तुलना में प्रतिक्रिया की अधिक अनुमानित संभावना है।
यदि उत्तरजीविता विश्लेषण एक सही विकल्प है, तो मुझे लगता है कि कुछ भिन्न तरीकों का उपयोग करना आसान होना चाहिए ताकि समय भिन्न हो। ।