मेरे पास लगभग 5,000 सहसंबद्ध सुविधाएँ / सहसंयोजक और एक द्विआधारी प्रतिक्रिया के साथ एक डेटासेट है। डेटा मुझे दिया गया था, मैंने इसे एकत्र नहीं किया। मैं मॉडल बनाने के लिए लास्सो और ग्रेडिएंट बूस्टिंग का उपयोग करता हूं। मैं iterated, नेस्टेड क्रॉस सत्यापन का उपयोग करता हूं। मैं लैस्सो के सबसे बड़े (निरपेक्ष) 40 गुणांक और ढाल वाले पेड़ों में 40 सबसे महत्वपूर्ण विशेषताओं की रिपोर्ट करता हूं (40 के बारे में कुछ खास नहीं था; यह सिर्फ उचित मात्रा में जानकारी लगती थी)। मैं सीवी के सिलवटों और पुनरावृत्तियों पर इन मात्राओं के विचरण की भी रिपोर्ट करता हूं।
मैं "महत्वपूर्ण" विशेषताओं पर किसी भी तरह का छेड़छाड़ करता हूं, जिससे पी-वैल्यू या कारण या किसी भी चीज के बारे में कोई बयान नहीं मिलता है, लेकिन इस प्रक्रिया पर विचार करने के बजाय एक तरह का --- यद्यपि अपूर्ण और यादृच्छिक की तरह --- कुछ घटना में अंतर्दृष्टि।
यह मानते हुए कि मैंने यह सब सही ढंग से किया है (उदाहरण के लिए, सही तरीके से क्रॉस वेलिडेशन निष्पादित किया गया है, लसो के लिए बढ़ाया गया है), क्या यह दृष्टिकोण उचित है? वहाँ के साथ मुद्दों, जैसे, कई परिकल्पना परीक्षण, पोस्ट हॉक विश्लेषण, झूठी खोज है? या अन्य समस्याएं?
उद्देश्य
प्रतिकूल घटना की संभावना की भविष्यवाणी करें
- सबसे महत्वपूर्ण, संभावना का सटीक अनुमान लगाएं
- अधिक नाबालिग - एक पवित्रता की जाँच के रूप में, लेकिन शायद कुछ उपन्यास भविष्यवक्ताओं को भी प्रकट कर सकता है जिनकी आगे जांच की जा सकती है, जैसा कि ऊपर वर्णित गुणांक और आयात का निरीक्षण करते हैं।
उपभोक्ता
- शोधकर्ता इस घटना की भविष्यवाणी करने में रुचि रखते हैं और जो लोग इस घटना को ठीक करने के लिए समाप्त होते हैं
मैं चाहता हूं कि वे इससे बाहर निकलें
उन्हें घटना की भविष्यवाणी करने की क्षमता दें, यदि वे अपने स्वयं के डेटा के साथ, मॉडलिंग प्रक्रिया को दोहराना चाहते हैं।
अप्रत्याशित भविष्यवक्ताओं पर कुछ प्रकाश डाला। उदाहरण के लिए, यह पता चल सकता है कि कुछ पूरी तरह से अप्रत्याशित सबसे अच्छा भविष्यवक्ता है। मॉडलर कहीं और इसलिए भविष्य कहे जाने वाले को अधिक गंभीर विचार दे सकते हैं।