खोजे गए उच्च आयामी, सहसंबद्ध डेटा और शीर्ष विशेषताएं / सहसंयोजक; कई परिकल्पना परीक्षण?


9

मेरे पास लगभग 5,000 सहसंबद्ध सुविधाएँ / सहसंयोजक और एक द्विआधारी प्रतिक्रिया के साथ एक डेटासेट है। डेटा मुझे दिया गया था, मैंने इसे एकत्र नहीं किया। मैं मॉडल बनाने के लिए लास्सो और ग्रेडिएंट बूस्टिंग का उपयोग करता हूं। मैं iterated, नेस्टेड क्रॉस सत्यापन का उपयोग करता हूं। मैं लैस्सो के सबसे बड़े (निरपेक्ष) 40 गुणांक और ढाल वाले पेड़ों में 40 सबसे महत्वपूर्ण विशेषताओं की रिपोर्ट करता हूं (40 के बारे में कुछ खास नहीं था; यह सिर्फ उचित मात्रा में जानकारी लगती थी)। मैं सीवी के सिलवटों और पुनरावृत्तियों पर इन मात्राओं के विचरण की भी रिपोर्ट करता हूं।

मैं "महत्वपूर्ण" विशेषताओं पर किसी भी तरह का छेड़छाड़ करता हूं, जिससे पी-वैल्यू या कारण या किसी भी चीज के बारे में कोई बयान नहीं मिलता है, लेकिन इस प्रक्रिया पर विचार करने के बजाय एक तरह का --- यद्यपि अपूर्ण और यादृच्छिक की तरह --- कुछ घटना में अंतर्दृष्टि।

यह मानते हुए कि मैंने यह सब सही ढंग से किया है (उदाहरण के लिए, सही तरीके से क्रॉस वेलिडेशन निष्पादित किया गया है, लसो के लिए बढ़ाया गया है), क्या यह दृष्टिकोण उचित है? वहाँ के साथ मुद्दों, जैसे, कई परिकल्पना परीक्षण, पोस्ट हॉक विश्लेषण, झूठी खोज है? या अन्य समस्याएं?

उद्देश्य

प्रतिकूल घटना की संभावना की भविष्यवाणी करें

  • सबसे महत्वपूर्ण, संभावना का सटीक अनुमान लगाएं
  • अधिक नाबालिग - एक पवित्रता की जाँच के रूप में, लेकिन शायद कुछ उपन्यास भविष्यवक्ताओं को भी प्रकट कर सकता है जिनकी आगे जांच की जा सकती है, जैसा कि ऊपर वर्णित गुणांक और आयात का निरीक्षण करते हैं।

उपभोक्ता

  • शोधकर्ता इस घटना की भविष्यवाणी करने में रुचि रखते हैं और जो लोग इस घटना को ठीक करने के लिए समाप्त होते हैं

मैं चाहता हूं कि वे इससे बाहर निकलें

  • उन्हें घटना की भविष्यवाणी करने की क्षमता दें, यदि वे अपने स्वयं के डेटा के साथ, मॉडलिंग प्रक्रिया को दोहराना चाहते हैं।

  • अप्रत्याशित भविष्यवक्ताओं पर कुछ प्रकाश डाला। उदाहरण के लिए, यह पता चल सकता है कि कुछ पूरी तरह से अप्रत्याशित सबसे अच्छा भविष्यवक्ता है। मॉडलर कहीं और इसलिए भविष्य कहे जाने वाले को अधिक गंभीर विचार दे सकते हैं।


यह जानना उपयोगी होगा कि यहां क्या इरादा है। आपने ये काम किया, क्यों? उपभोक्ता कौन है, और आप उन्हें विश्लेषण से बाहर निकालना चाहते हैं?
मैथ्यू ड्र्यू

जवाबों:


2

भविष्यवाणियों की सटीकता के साथ कोई समस्या नहीं है। आपकी भविष्यवाणियों में अनिश्चितता का अनुमान क्रॉसवेलिडेशन द्वारा अच्छी तरह से लगाया गया है। हो सकता है कि एक चेतावनी यह हो कि यदि आप बहुत सारी पैरामीटर सेटिंग्स का परीक्षण करते हैं, तो आप सटीकता को कम कर देते हैं, इसलिए आपको अपने अंतिम मॉडल की सटीकता का अनुमान लगाने के लिए सत्यापन सेट का उपयोग करना चाहिए। साथ ही, आपका डेटा उस डेटा का प्रतिनिधि होना चाहिए, जिस पर आप भविष्यवाणियां करने जा रहे हैं।

यह आपके लिए स्पष्ट है, और यह पाठक को स्पष्ट होना चाहिए, कि आपके भविष्यवक्ता प्रभाव का कारण नहीं हैं, वे सिर्फ भविष्यवाणियां हैं जो एक अच्छी भविष्यवाणी करते हैं, और अनुभवजन्य रूप से काम करते हैं। जबकि मैं आपकी सावधानी से पूरी तरह सहमत हूं, किसी भी मामले में अवलोकन डेटा से किसी भी कारण का उल्लेख करना समस्याग्रस्त है। महत्व और इस तरह की चीजें अच्छी तरह से डिजाइन किए गए, नियंत्रित अध्ययनों में "वैध" अवधारणाएं हैं, और इसके बाहर वे केवल उपकरण हैं जो आपको और दूसरों को समझदारी और सावधानी से व्याख्या करना चाहिए। रिपोर्ट किए गए आत्मविश्वास अंतराल के साथ एक सामान्य रैखिक प्रतिगमन में और साथ ही साथ एक लस्सो मॉडल में, साथ ही एक ढाल बूस्टेड ट्री मॉडल में सामान्य रेखीय प्रतिगमन में सामान्य कारण, सहज प्रभाव, मास्किंग और अन्य चीजें हो सकती हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.