एक जीवित विश्लेषण समस्या में प्रशिक्षण, परीक्षण, सत्यापन


14

मैं यहां विभिन्न सूत्र ब्राउज़ कर रहा हूं, लेकिन मुझे नहीं लगता कि मेरे सटीक प्रश्न का उत्तर दिया गया है।

मेरे पास ~ 50,000 छात्रों का डेटासेट है और उनके छोड़ने का समय है। मैं बड़ी संख्या में संभावित कोवरिएट्स के साथ आनुपातिक खतरों के प्रतिगमन का प्रदर्शन करने जा रहा हूं। मैं ड्रॉपआउट / स्टे पर लॉजिस्टिक रिग्रेशन भी करने जा रहा हूं। मुख्य लक्ष्य छात्रों के नए सहकर्मियों के लिए भविष्यवाणी होगी, लेकिन हमारे पास यह विश्वास करने का कोई कारण नहीं है कि वे पिछले साल के काउहोट से बहुत भिन्न होंगे।

आमतौर पर, मेरे पास डेटा का ऐसा लक्जरी नहीं है और किसी तरह के दंड के साथ मॉडल फिटिंग करते हैं, लेकिन इस बार मैंने सोचा कि इंट प्रशिक्षण और परीक्षण डेटा सेट को विभाजित करना और फिर प्रशिक्षण सेट पर परिवर्तनशील चयन करना; फिर मापदंडों और भविष्य कहनेवाला क्षमता का आकलन करने के लिए परीक्षण डेटा सेट का उपयोग करना।

क्या यह एक अच्छी रणनीति है? यदि नहीं, तो बेहतर क्या है?

नागरिक स्वागत करते हैं लेकिन आवश्यक नहीं।

जवाबों:


8

एक समान परिणाम आवृत्ति के साथ मैंने पाया है कि डेटा बंटवारा काम कर सकता है अगर । और यह मॉडल के प्रदर्शन का निष्पक्ष अनुमान प्रदान करता है, मॉडल चयन के लिए ठीक से दंडित करना (यदि आपको वास्तव में मॉडल चयन की आवश्यकता है, तो दंड का अभी भी बेहतर मॉडल होने की संभावना है) यदि आप केवल एक बार परीक्षण नमूना का उपयोग करते हैं। लेकिन मापदंडों के किसी भी पुनर्मूल्यांकन के लिए परीक्षण नमूने का उपयोग न करें। डेटा बंटवारे के लिए बनाए गए प्रशिक्षण नमूने का उपयोग करके बनाए गए मॉडल पर निर्भर करता है जिसे "डीप फ्रीज" में डाल दिया जाता है और बिना ट्विक किए परीक्षण नमूने पर लागू किया जाता है।n>20,000


धन्यवाद। क्या आप 80-20 की सिफारिश करेंगे? 90-10? कुछ और? इस पर कोई संदर्भ?
पीटर फ्लॉम - मोनिका

2
n

3

मैं इस पेपर को क्रॉस-वैरिफाइड सर्वाइवल प्रेडिक्शन के समान कार्य के लिए स्वयं देख रहा हूं। अच्छे बिट्स अध्याय 2 से शुरू होते हैं।


यह मॉडल सीवी आधारित आकलन के लिए 5 गुना की तुलना करता है (और यह निष्कर्ष निकालता है कि 5 गुना बेहतर है)। लेकिन मुझे केवल 2 भागों में डेटा को विभाजित करने और दूसरे को मान्य करने के लिए एक का उपयोग करने में अधिक रुचि थी।
पीटर Flom - को पुनः स्थापित मोनिका

1
इस से मुझे जो टेक-ऑफ मिला, और मैं मूल रूप से इस पेपर की ओर आकर्षित हुआ, वह यह था कि सर्वाइवरशिप से कैसे बचा जा सकता है।
Cam.Davidson.Pilon

मेरे पास सेंसरशिप है और शोध प्रबंध दिलचस्प है, लेकिन यह मेरे सवाल का जवाब नहीं है, मुझे नहीं लगता।
पीटर फ्लॉम - मोनिका

1

मैंने इस पेपर को पाया है जो न केवल मेरे प्रश्न का उत्तर देता है, बल्कि विशेष डेटा सेट के लिए इष्टतम विभाजन का पता लगाने के लिए एक विधि प्रदान करता है। मुझे यह "इष्टतम विभाजन विन्यास" शब्द का उपयोग करने के लिए धन्यवाद मिला, जो मैंने तब गोगल किया।


2
पीटर मुझे लगता है कि कागज ने एक अनुचित स्कोरिंग नियम का इस्तेमाल किया। उचित स्कोरिंग नियमों का उपयोग करते समय विभिन्न परिणाम प्राप्त किए जा सकते हैं। इसके अलावा, पेपर ने विश्लेषण की "अस्थिरता" को संबोधित नहीं किया। वहाँ माना जाता है कि छोटे कुल नमूने आकार के साथ, एक अलग यादृच्छिक विभाजन का उपयोग कर प्रक्रिया को दोहराने से पहले विभाजन की तुलना में बहुत अलग मॉडल और बहुत अलग सटीकता होगी। मैं देखता हूं कि यह बहुत अवांछनीय है।
फ्रैंक हरेल

@FrankHarrell: मैं आपकी बात देख रहा हूं और यह वास्तव में बहुत अच्छा बिंदु है। तब आप क्या करने की सलाह देते हैं? Peform मोंटे कार्लो ट्रेन / टेस्ट स्प्लिट्स के रन और फिर प्रत्येक रन पर ix k- फोल्ड्स CV (या बूटस्ट्रैपिंग) करते हैं? लेकिन तब यह संपूर्ण डेटासेट को दूषित कर देगा .... मुझे कोई बेहतर समाधान नहीं मिल रहा है कि डेटासेट को ट्रेन और परीक्षण सेटों में विभाजित करने का एक उपयुक्त तरीका क्या है? (क्या मानदंड होगा?) मैं सभी का उपयोग करने में असहज नहीं हूं। डेटा (सीवी या बूट का उपयोग करके) को प्रशिक्षित करने और उन्हें सत्यापित करने के लिए मॉडल (जिसमें से एक (या कई) कुछ इनपुट डेटा के आधार पर अज्ञात आउटपुट मूल्यों की भविष्यवाणी करने के लिए उपयोग किया जाएगा)।
जपगंध्रे

मैंने संबोधित किया कि पोस्ट में आप सिर्फ दूसरे विषय पृष्ठ पर रखें।
फ्रैंक हरेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.