मैं भविष्यवाणी करने के लिए एक लॉजिस्टिक रिग्रेशन का प्रशिक्षण ले रहा हूं कि कौन से धावक एक भीषण धीरज दौड़ को पूरा करने की संभावना रखते हैं।
बहुत कम धावक इस दौड़ को पूरा करते हैं, इसलिए मेरे पास गंभीर वर्ग असंतुलन और सफलताओं का एक छोटा सा नमूना है (शायद कुछ दर्जन)। मुझे ऐसा लगता है कि मुझे दर्जनों धावकों से कुछ अच्छा "संकेत" मिल सकता है जिन्होंने इसे लगभग बनाया है। (मेरा प्रशिक्षण डेटा न केवल पूरा हो गया है, बल्कि यह भी है कि जो अभी तक खत्म नहीं हुए थे वास्तव में इसे बनाया है।) इसलिए मैं सोच रहा हूं कि क्या यह एक भयानक विचार है या कुछ "आंशिक क्रेडिट" शामिल नहीं है। मैं आंशिक क्रेडिट, रैंप और लॉजिस्टिक वक्र के लिए कुछ कार्यों के साथ आया, जिसे विभिन्न मापदंडों को दिया जा सकता है।
प्रतिगमन के साथ एकमात्र अंतर यह होगा कि मैं द्विआधारी परिणाम के बजाय संशोधित, निरंतर परिणाम की भविष्यवाणी करने के लिए प्रशिक्षण डेटा का उपयोग करूंगा । एक परीक्षण सेट (द्विआधारी प्रतिक्रिया का उपयोग करके) पर उनकी भविष्यवाणियों की तुलना में मेरे पास काफी अनिर्णायक परिणाम थे - लॉजिस्टिक आंशिक क्रेडिट को आर-स्क्वायर्ड, एयूसी, पी / आर में सुधार करने के लिए लग रहा था, लेकिन यह एक ट्रस्ट का उपयोग करके एक मामले पर सिर्फ एक प्रयास था छोटा सा नमूना।
मुझे भविष्यवाणियों के बारे में परवाह नहीं है कि वे समान रूप से पूरा होने के पक्षपाती हैं - मुझे जिस चीज की परवाह है वह खत्म होने की संभावना पर प्रतियोगियों की सही ढंग से रैंकिंग कर रहा है, या शायद परिष्करण की उनकी सापेक्ष संभावना का भी अनुमान लगा रहा है।
मैं समझता हूं कि लॉजिस्टिक रिग्रेशन भविष्यवाणियों और ऑड्स अनुपात के लॉग के बीच एक रैखिक संबंध मानता है, और जाहिर है कि इस अनुपात की कोई वास्तविक व्याख्या नहीं है यदि मैं परिणामों के साथ खिलवाड़ करना शुरू करता हूं। मुझे यकीन है कि यह सैद्धांतिक दृष्टिकोण से स्मार्ट नहीं है, लेकिन यह कुछ अतिरिक्त संकेत प्राप्त करने और ओवरफिटिंग को रोकने में मदद कर सकता है। (मेरे पास लगभग भविष्यवाणियों के रूप में सफलताएं हैं, इसलिए यह आंशिक रूप से पूर्ण होने के साथ संबंधों का उपयोग करने के लिए सहायक हो सकता है।
क्या यह दृष्टिकोण कभी भी जिम्मेदार व्यवहार में उपयोग किया जाता है?
किसी भी तरह से, क्या वहाँ अन्य प्रकार के मॉडल हैं (शायद कुछ ऐसा है जो स्पष्ट रूप से समय के बजाय दूरी पर लागू खतरनाक दर को मॉडल करता है), जो इस प्रकार के विश्लेषण के लिए बेहतर अनुकूल हो सकता है?