पृष्ठभूमि
मैं दवा में नैदानिक अनुसंधान कर रहा हूं और कई सांख्यिकी पाठ्यक्रम ले चुका हूं। मैंने लीनियर / लॉजिस्टिक रिग्रेशन का उपयोग करते हुए कभी कोई पेपर प्रकाशित नहीं किया है और वह चर चयन को सही तरीके से करना चाहता है। व्याख्या करना महत्वपूर्ण है, इसलिए कोई फैंसी मशीन सीखने की तकनीक नहीं। मैंने चर चयन की अपनी समझ को संक्षेप में प्रस्तुत किया है - क्या कोई व्यक्ति किसी गलत धारणा पर प्रकाश डालना चाहेगा? मुझे इसमें से दो (1) समान (2) सीवी पोस्ट मिले, लेकिन उन्होंने मेरी चिंताओं का पूरी तरह से जवाब नहीं दिया। किसी भी विचार की बहुत सराहना की जाएगी! मेरे पास अंत में 3 प्राथमिक प्रश्न हैं।
समस्या और चर्चा
मेरी विशिष्ट प्रतिगमन / वर्गीकरण समस्या में 200-300 अवलोकन, 15% की प्रतिकूल घटना दर (यदि वर्गीकरण) है, और 40 में से 25 चर पर जानकारी है जो कि साहित्य में "सांख्यिकीय रूप से महत्वपूर्ण" प्रभाव होने या प्रशंसनीय बनाने का दावा किया गया है। डोमेन ज्ञान द्वारा समझ।
मैंने उद्धरणों में "सांख्यिकीय रूप से महत्वपूर्ण" लगाया, क्योंकि ऐसा लगता है कि हर कोई और उनकी माँ स्टेप वाइज रिग्रेशन का उपयोग करते हैं, लेकिन हार्ले (3) और फ्लॉम (4) कई अच्छे कारणों से इसे पसंद नहीं करते हैं। यह आगे एक जेलमैन ब्लॉग पोस्ट चर्चा (5) द्वारा समर्थित है । ऐसा लगता है कि एकमात्र वास्तविक समय है जब स्टेप वाइज स्वीकार्य है, अगर यह वास्तव में खोजपूर्ण विश्लेषण है, या किसी को भविष्यवाणी में दिलचस्पी है और इसमें क्रॉस-वैलिडेशन स्कीम शामिल है। खासकर जब से कई चिकित्सा comorbidities collinearity से पीड़ित हैं और अध्ययन छोटे नमूना आकार से पीड़ित हैं, मेरी समझ यह है कि साहित्य में बहुत सारी गलत सकारात्मकताएं होंगी; इससे मुझे संभावित चरों को शामिल करने के लिए साहित्य पर भरोसा करने की भी कम संभावना है।
एक अन्य लोकप्रिय तरीका है, एक प्रारंभिक बिंदु के रूप में भविष्यवक्ताओं और स्वतंत्र चर के बीच एकतरफा रजिस्टरों / संघों की एक श्रृंखला का उपयोग करना। एक विशेष सीमा के नीचे (कहते हैं, पी <0.2)। इस StackExchange पोस्ट (6) में उल्लिखित कारणों के लिए यह गलत या कम से कम भ्रामक लगता है ।
अंत में, एक स्वचालित दृष्टिकोण जो मशीन लर्निंग में लोकप्रिय दिखाई देता है, वह है L1 (Lasso), L2 (रिज) या L1 + L2 कॉम्बो (इलास्टिक नेट) जैसे दंड का उपयोग करना। मेरी समझ यह है कि इनमें ओएलएस या लॉजिस्टिक प्रतिगमन के समान आसान व्याख्याएं नहीं हैं।
गेलमैन + हिल निम्नलिखित प्रस्ताव:
अपने स्टैटस कोर्स में, मैं पूर्ण और नेस्टेड मॉडल की तुलना करने के लिए एफ टेस्ट या डीवियनस के विश्लेषण का उपयोग करके भी याद करता हूं कि मॉडल / वेरिएबल सलेक्शन वेरिएबल को वेरिएबल से कर सकता है। यह उचित प्रतीत होता है, लेकिन क्रमिक रूप से नेस्टेड मॉडल को व्यवस्थित रूप से फिट करने के लिए वैरिएबल को खोजने के लिए जो प्रति df में सबसे बड़ी गिरावट का कारण बनता है, ऐसा लगता है कि इसे आसानी से स्वचालित किया जा सकता है (इसलिए मैं थोड़ा चिंतित हूं) और ऐसा भी लगता है कि यह उस क्रम की समस्याओं से ग्रस्त है जिसमें आप चर समावेश का परीक्षण करें। मेरी समझ यह है कि इसे बहुसंख्या और अवशिष्ट भूखंडों (अवशिष्ट बनाम अनुमानित) की जांच करके भी पूरक होना चाहिए।
प्रशन:
क्या गेलमैन सारांश जाने का रास्ता है? आप उसकी प्रस्तावित रणनीति में क्या जोड़ेंगे या बदलेंगे?
संभावित बातचीत और परिवर्तनों के बारे में विशुद्ध रूप से सोचने के अलावा (जो कि बहुत पूर्वाग्रह / त्रुटि / चूक प्रवण लगता है), क्या संभावित लोगों की खोज करने का एक और तरीका है? बहुभिन्नरूपी अनुकूली प्रतिगमन स्पलाइन (MARS) की सिफारिश की गई थी, लेकिन मुझे सूचित किया गया था कि गैर-नियमन / परिवर्तन एक मानक प्रतिगमन मॉडल में एक ही चर में अनुवाद नहीं करते हैं।
मान लीजिए कि मेरा लक्ष्य बहुत सरल है: कहते हैं, "मैं वाई पर एक्स 1 के सहयोग का अनुमान लगाना चाहता हूं, केवल एक्स 2 के लिए लेखांकन"। क्या यह केवल Y ~ X1 + X2 को पुन: प्राप्त करने के लिए पर्याप्त है, परिणाम की रिपोर्ट करें, वास्तविक भविष्य कहनेवाला क्षमता के संदर्भ के बिना (जैसा कि क्रॉस-मान्यता आरएमएसई या सटीकता उपायों द्वारा मापा जा सकता है)? क्या यह घटना दर या नमूना आकार के आधार पर बदलता है या यदि R ^ 2 सुपर कम है (मुझे पता है कि R ^ 2 अच्छा नहीं है क्योंकि आप हमेशा इसे ओवरफिट करके बढ़ा सकते हैं)? मैं आमतौर पर पूर्वानुमानात्मक शक्ति को अनुकूलित करने की तुलना में अनुमान / व्याख्या में अधिक रुचि रखता हूं।
उदाहरण निष्कर्ष:
- "X2 के लिए नियंत्रित करना, X1, X1 के संदर्भ स्तर के सापेक्ष Y के साथ सांख्यिकीय रूप से महत्वपूर्ण रूप से जुड़ा नहीं था।" (लॉजिस्टिक रिग्रेशन गुणांक)
- "एक्स 1 वाई में सांख्यिकीय रूप से महत्वपूर्ण भविष्यवक्ता नहीं था क्योंकि डिफेन्स में मॉडल ड्रॉप df में बदलाव के सापेक्ष पर्याप्त नहीं था।" (डीवियनस का विश्लेषण)
क्या क्रॉस-वेलिडेशन हमेशा आवश्यक होता है? जिस स्थिति में, कोई व्यक्ति SMOTE, नमूनाकरण, आदि के माध्यम से कक्षाओं का कुछ संतुलन करना भी चाहेगा।