मैं यहां विभिन्न सूत्र ब्राउज़ कर रहा हूं, लेकिन मुझे नहीं लगता कि मेरे सटीक प्रश्न का उत्तर दिया गया है।
मेरे पास ~ 50,000 छात्रों का डेटासेट है और उनके छोड़ने का समय है। मैं बड़ी संख्या में संभावित कोवरिएट्स के साथ आनुपातिक खतरों के प्रतिगमन का प्रदर्शन करने जा रहा हूं। मैं ड्रॉपआउट / स्टे पर लॉजिस्टिक रिग्रेशन भी करने जा रहा हूं। मुख्य लक्ष्य छात्रों के नए सहकर्मियों के लिए भविष्यवाणी होगी, लेकिन हमारे पास यह विश्वास करने का कोई कारण नहीं है कि वे पिछले साल के काउहोट से बहुत भिन्न होंगे।
आमतौर पर, मेरे पास डेटा का ऐसा लक्जरी नहीं है और किसी तरह के दंड के साथ मॉडल फिटिंग करते हैं, लेकिन इस बार मैंने सोचा कि इंट प्रशिक्षण और परीक्षण डेटा सेट को विभाजित करना और फिर प्रशिक्षण सेट पर परिवर्तनशील चयन करना; फिर मापदंडों और भविष्य कहनेवाला क्षमता का आकलन करने के लिए परीक्षण डेटा सेट का उपयोग करना।
क्या यह एक अच्छी रणनीति है? यदि नहीं, तो बेहतर क्या है?
नागरिक स्वागत करते हैं लेकिन आवश्यक नहीं।