क्या लॉजिस्टिक रिग्रेशन की ट्रेनिंग में "आंशिक क्रेडिट" (निरंतर परिणाम) देना कभी एक अच्छा विचार है?


10

मैं भविष्यवाणी करने के लिए एक लॉजिस्टिक रिग्रेशन का प्रशिक्षण ले रहा हूं कि कौन से धावक एक भीषण धीरज दौड़ को पूरा करने की संभावना रखते हैं।

बहुत कम धावक इस दौड़ को पूरा करते हैं, इसलिए मेरे पास गंभीर वर्ग असंतुलन और सफलताओं का एक छोटा सा नमूना है (शायद कुछ दर्जन)। मुझे ऐसा लगता है कि मुझे दर्जनों धावकों से कुछ अच्छा "संकेत" मिल सकता है जिन्होंने इसे लगभग बनाया है। (मेरा प्रशिक्षण डेटा न केवल पूरा हो गया है, बल्कि यह भी है कि जो अभी तक खत्म नहीं हुए थे वास्तव में इसे बनाया है।) इसलिए मैं सोच रहा हूं कि क्या यह एक भयानक विचार है या कुछ "आंशिक क्रेडिट" शामिल नहीं है। मैं आंशिक क्रेडिट, रैंप और लॉजिस्टिक वक्र के लिए कुछ कार्यों के साथ आया, जिसे विभिन्न मापदंडों को दिया जा सकता है।

यहां छवि विवरण दर्ज करें

प्रतिगमन के साथ एकमात्र अंतर यह होगा कि मैं द्विआधारी परिणाम के बजाय संशोधित, निरंतर परिणाम की भविष्यवाणी करने के लिए प्रशिक्षण डेटा का उपयोग करूंगा । एक परीक्षण सेट (द्विआधारी प्रतिक्रिया का उपयोग करके) पर उनकी भविष्यवाणियों की तुलना में मेरे पास काफी अनिर्णायक परिणाम थे - लॉजिस्टिक आंशिक क्रेडिट को आर-स्क्वायर्ड, एयूसी, पी / आर में सुधार करने के लिए लग रहा था, लेकिन यह एक ट्रस्ट का उपयोग करके एक मामले पर सिर्फ एक प्रयास था छोटा सा नमूना।

मुझे भविष्यवाणियों के बारे में परवाह नहीं है कि वे समान रूप से पूरा होने के पक्षपाती हैं - मुझे जिस चीज की परवाह है वह खत्म होने की संभावना पर प्रतियोगियों की सही ढंग से रैंकिंग कर रहा है, या शायद परिष्करण की उनकी सापेक्ष संभावना का भी अनुमान लगा रहा है।

मैं समझता हूं कि लॉजिस्टिक रिग्रेशन भविष्यवाणियों और ऑड्स अनुपात के लॉग के बीच एक रैखिक संबंध मानता है, और जाहिर है कि इस अनुपात की कोई वास्तविक व्याख्या नहीं है यदि मैं परिणामों के साथ खिलवाड़ करना शुरू करता हूं। मुझे यकीन है कि यह सैद्धांतिक दृष्टिकोण से स्मार्ट नहीं है, लेकिन यह कुछ अतिरिक्त संकेत प्राप्त करने और ओवरफिटिंग को रोकने में मदद कर सकता है। (मेरे पास लगभग भविष्यवाणियों के रूप में सफलताएं हैं, इसलिए यह आंशिक रूप से पूर्ण होने के साथ संबंधों का उपयोग करने के लिए सहायक हो सकता है।

क्या यह दृष्टिकोण कभी भी जिम्मेदार व्यवहार में उपयोग किया जाता है?

किसी भी तरह से, क्या वहाँ अन्य प्रकार के मॉडल हैं (शायद कुछ ऐसा है जो स्पष्ट रूप से समय के बजाय दूरी पर लागू खतरनाक दर को मॉडल करता है), जो इस प्रकार के विश्लेषण के लिए बेहतर अनुकूल हो सकता है?

जवाबों:


11

यह अस्तित्व विश्लेषण के लिए एक नौकरी की तरह लगता है, जैसे कॉक्स आनुपातिक खतरों का विश्लेषण या संभवतः कुछ पैरामीट्रिक उत्तरजीविता मॉडल।

जिस तरह से आप इसे समझा रहे हैं, उससे उलट इस समस्या के बारे में सोचें: पूर्ववर्ती दूरी से छोड़ने के लिए पूर्वसूचक चर क्या जुड़े हैं ?

छोड़ना घटना है। तय की गई दूरी को मानक उत्तरजीविता विश्लेषण में समय-से-घटना के समतुल्य माना जा सकता है। फिर आपके पास छोड़ने वाले व्यक्तियों की संख्या के बराबर कई घटनाएं होती हैं, इसलिए सीमित संख्या में भविष्यवाणियों के साथ आपकी समस्या कम हो जाएगी। वे सभी जो जानकारी प्रदान करते हैं।

एक कॉक्स मॉडल, यदि यह आपके डेटा पर काम करता है, तो सभी भविष्यवक्ता चर मूल्यों के आधार पर एक लीनियर प्रेडिक्टर प्रदान करेगा, भविष्यवाणी की गई दूरी को छोड़ने के लिए प्रतियोगियों की रैंकिंग करेगा।


इसके लिए धन्यवाद। ऐसा लगता है कि आप कह रहे हैं कि कॉक्स मॉडल का उपयोग करते हुए, छोड़ने की सबसे लंबी भविष्यवाणी की गई दूरी वाले धावक आनुपातिक खतरों के निर्माण के कारण परिष्करण दूरी से पहले छोड़ने की सबसे कम संभावना है। क्या यह सही है? इसके अलावा, जब से आप यह सिफारिश कर रहे हैं, अनुमान है कि आंशिक क्रेडिट विचार ने आपको अच्छी तरह से स्थापित नहीं किया?
C8H10N4O2

यह अनिवार्य रूप से सही है। मैं एक जीवित मॉडल में एक आंशिक रूप से "आंशिक क्रेडिट" देने के तरीके के रूप में दूरी से छोड़ने का समावेश देखता हूं, जिसमें एक अच्छी तरह से स्थापित सैद्धांतिक और व्यावहारिक औचित्य है। विवरणों के माध्यम से काम नहीं किया गया है, लेकिन मुझे संदेह है कि यह आपके उद्देश्य के अनुसार जैसा आप चाहते हैं वैसा ही पूरा करता है।
एडीएम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.