स्टेपवाइज लॉजिस्टिक रिग्रेशन और सैंपलिंग


13

मैं SPSS में डेटा के एक सेट पर एक स्टेपवाइज लॉजिस्टिक रिग्रेशन फिट कर रहा हूं। इस प्रक्रिया में, मैं अपने मॉडल को एक यादृच्छिक सबसेट में फिट कर रहा हूं जो लगभग है। कुल नमूने का 60%, जो लगभग 330 मामले हैं।

मुझे जो दिलचस्प लगता है वह यह है कि हर बार जब मैं अपने डेटा का पुन: नमूना लेता हूं, तो मुझे अंतिम मॉडल में और बाहर अलग-अलग चर मिल रहे हैं। कुछ भविष्यवक्ता हमेशा अंतिम मॉडल में मौजूद होते हैं, लेकिन अन्य नमूना के आधार पर अंदर और बाहर पॉप करते हैं।

मेरा सवाल यह है। इसे संभालने का सबसे अच्छा तरीका क्या है? मैं भविष्यवक्ता चर के अभिसरण को देखने की उम्मीद कर रहा था, लेकिन ऐसा नहीं है। कुछ मॉडल एक परिचालन दृष्टिकोण से बहुत अधिक सहज ज्ञान युक्त समझ बनाते हैं (और निर्णय निर्माताओं को समझाने में आसान होगा), और अन्य डेटा को थोड़ा बेहतर तरीके से फिट करते हैं।

संक्षेप में, चूंकि चर चारों ओर फेरबदल कर रहे हैं, आप मेरी स्थिति से निपटने की सिफारिश कैसे करेंगे?

अग्रिम में बहुत धन्यवाद।

जवाबों:


16

यदि आप एक चरणवार प्रक्रिया का उपयोग करने जा रहे हैं, तो फिर से न करें। एक बार और सभी के लिए एक यादृच्छिक सदस्यता बनाएं। उस पर अपना विश्लेषण करें। आयोजित डेटा के विरुद्ध परिणामों की पुष्टि करें। यह संभव है कि अधिकांश "महत्वपूर्ण" चर महत्वपूर्ण नहीं होंगे।

( सम्पादन १२/२०१५: आप वास्तव में इस तरह के एक सरल दृष्टिकोण से परे जा सकते हैं, फिर से शुरू करना, चरणबद्ध प्रक्रिया को दोहराना और फिर से मान्य करना: यह आपको क्रॉस-सत्यापन के रूप में ले जाएगा। लेकिन ऐसे मामले में चर के अधिक परिष्कृत तरीके। रिज रिग्रेशन, लैस्सो और इलास्टिक नेट जैसे चयन स्टेप वाइज रिग्रेशन के लिए बेहतर हैं।)

CpFt

(मुझे लगता है कि आपने पहले से ही स्वतंत्र चर की उचित पुनः अभिव्यक्ति की पहचान करने के लिए विश्लेषण और अन्वेषण किया है, कि आपने संभावित इंटरैक्शन की पहचान की है, और आपने यह स्थापित किया है कि वास्तव में निर्भर चर के लॉग के बीच लगभग रैखिक संबंध है और रजिस्ट्रार। यदि नहीं, तो यह आवश्यक प्रारंभिक कार्य करें और उसके बाद ही स्टेप वाइज रिग्रेशन पर लौटें।)

जेनेरिक सलाह का पालन करने के बारे में सतर्क रहें जैसे मैंने अभी दिया था, वैसे :-)। आपका दृष्टिकोण विश्लेषण के उद्देश्य पर निर्भर होना चाहिए (भविष्यवाणी? अपव्यय? वैज्ञानिक समझ; निर्णय लेने?) साथ ही डेटा की प्रकृति, चर की संख्या, आदि।


2
मॉडल व्याख्या के महत्व को उजागर करने के लिए +1। मैं और अधिक जटिल क्रॉस-मान्यता योजनाओं के साथ असंबद्ध एमएल दृष्टिकोण (या कलाकारों की टुकड़ी के तरीकों) के बारे में कुछ भी नहीं जोड़ूंगा, क्योंकि मुझे लगता है कि आपने पहले ही कहा है कि वास्तव में यहां क्या मामला है: (1) resampling के माध्यम से चयन सुविधा शायद ही अलगाव में व्याख्या योग्य है (यानी, एक के बाद एक परिणाम की तुलना करके), और (2) यह सब निर्भर करता है अगर हम एक पूर्वानुमान या व्याख्यात्मक मॉडल की तलाश कर रहे हैं।
CHL

आपकी अंतर्दृष्टि के लिए धन्यवाद। मैंने अपनी खोज की जगह को कम करने के लिए कुछ पूर्व-स्क्रीनिंग की है और बस सबसे कम चर के साथ भविष्यवाणी के लिए सबसे अच्छा मॉडल ढूंढना चाहता हूं। मैं केवल 7 भविष्यवाणियों को मॉडल में फेंक रहा हूं, जैसा कि मैं समझता हूं कि यह ठीक होना चाहिए। मैं एक नमूने के साथ चिपके रहने के विचार को समझता हूं, लेकिन फ्लिप पक्ष पर, मेरा मॉडल मौलिक रूप से अलग था और दिखाता है कि परिणाम पूरी तरह से नमूना-निर्भर हैं, जिसने मुझे विराम दिया।
बत्तीबर्ट 3

@ Btibert3 अधिकार: जब आपके डेटा के यादृच्छिक सबसेट के बीच परिणाम भिन्न होते हैं, तो आप इसे सबूत के रूप में ले सकते हैं कि स्वतंत्र चर मजबूत या स्वतंत्र चर के अनुरूप भविष्यवाणियों नहीं हैं।
whuber

12

एक महत्वपूर्ण सवाल यह है कि "आप कुछ चरों के साथ एक मॉडल क्यों चाहते हैं?" यदि आप अपने मॉडल के परिचालन उपयोग के लिए डेटा संग्रह की लागत को कम से कम करना चाहते हैं, तो व्हिबर और mbq द्वारा दिए गए उत्तर एक उत्कृष्ट शुरुआत है।

यदि भविष्य कहनेवाला प्रदर्शन वास्तव में महत्वपूर्ण है, तो आप शायद किसी भी फीचर का चयन बिल्कुल नहीं कर रहे हैं और इसके बजाय नियमित रूप से लॉजिस्टिक रिग्रेशन का उपयोग करें (सीएफ रिज रिग्रेशन)। वास्तव में अगर पूर्वानुमानात्मक प्रदर्शन प्राथमिक महत्व का था, तो मैं एक छोटे डेटासेट से बचने के लिए "बेल्ट-एंड-ब्रेसेस" रणनीति के एक प्रकार के रूप में नियमित रूप से लॉजिस्टिक लॉजिस्टिक प्रतिगमन का उपयोग करूंगा। प्रतिगमन में सबसेट चयन पर अपनी पुस्तक में मिलर ने परिशिष्ट में उस सलाह को बहुत अधिक दिया है, और मैंने इसे बहुत सारी विशेषताओं के साथ समस्याओं के लिए उत्कृष्ट सलाह माना है और बहुत अधिक टिप्पणियों का नहीं।

यदि डेटा को समझना महत्वपूर्ण है, तो डेटा को समझने के लिए उपयोग किए जाने वाले मॉडल की कोई आवश्यकता नहीं है जो भविष्यवाणियों को बनाने के लिए उपयोग किया जाता है। उस स्थिति में, मैं कई बार डेटा को फिर से भेजूंगा और नमूने के पार चयनित चर के पैटर्न को देखूंगा कि कौन से चर जानकारीपूर्ण थे (जैसा कि mbq से पता चलता है, यदि सुविधा चयन अस्थिर है, तो एक भी नमूना पूरी तस्वीर नहीं देगा), लेकिन मैं अभी भी भविष्यवाणियों के लिए नियमित लॉजिस्टिक प्रतिगमन मॉडल पहनावा का उपयोग करता हूं।


1
सूचक को नियमित लॉजिस्टिक प्रतिगमन के लिए +1। हालांकि यह स्पष्ट नहीं है कि कोई व्यक्ति "डेटा को कई बार" पुन: नमूना करते समय औपचारिक रूप से "पैटर्न को कैसे देख सकता है"। यह डेटा स्नूपिंग की तरह लगता है और इसलिए निराशा और त्रुटि की संभावना है।
whuber

5
चयन के अस्थिर होने पर फ़ीचर चयन हमेशा कुंठा और त्रुटि के लिए एक नुस्खा होगा। केवल एक नमूना का उपयोग करने से हताशा में कमी आती है, लेकिन त्रुटि की संभावना बढ़ जाती है क्योंकि यह आपको उस समस्या के लिए प्रासंगिक विशेषताओं के बारे में निष्कर्ष निकालने के लिए प्रोत्साहित करता है जो आपके द्वारा देखे गए विशेष नमूने पर सबसे अच्छा काम करता है - जो कि ओवर का एक रूप है- फिटिंग। री-सैंपलिंग से आपको फीचर चयन में अनिश्चितता का अंदाजा होता है - जो अक्सर महत्वपूर्ण होता है। इस मामले में हमें संबंधित विशेषताओं के बारे में कोई ठोस निष्कर्ष नहीं निकालना चाहिए क्योंकि पर्याप्त डेटा नहीं है।
डिक्रान मार्सुपियल

अच्छी बात; मुझे नफरत है जब लोग केवल रेज़मैपलिंग से मतलब रखते हैं, यह इस तरह की बर्बादी है।

10

सामान्य तौर पर, सुविधा चयन की दो समस्याएं हैं:

  • न्यूनतम इष्टतम , जहां आप सबसे छोटे सेट के लिए चर की तलाश करते हैं जो आपको सबसे छोटी त्रुटि देते हैं
  • सभी प्रासंगिक , जहां आप किसी समस्या में प्रासंगिक सभी चर के लिए चाहते हैं

भविष्यवक्ता चयन का अभिसरण सभी प्रासंगिक समस्या के एक क्षेत्र में है, जो कि कठिन है और इस तरह लॉजिस्टिक रिग्रेशन, भारी गणना और बहुत सावधानीपूर्वक उपचार की तुलना में बहुत अधिक शक्तिशाली उपकरण की आवश्यकता होती है।

लेकिन ऐसा लगता है कि आप पहली समस्या कर रहे हैं, इसलिए आपको इस बारे में चिंता नहीं करनी चाहिए। मैं आम तौर पर दूसरे व्हिबर के उत्तर दे सकता हूं, लेकिन मैं इस दावे से असहमत हूं कि आप को पुन: नमूना छोड़ देना चाहिए - यहां यह सुविधा चयन को स्थिर करने का तरीका नहीं होगा, लेकिन फिर भी यह एक युग्मित फीचर चयन के प्रदर्शन के आकलन के लिए एक सिमुलेशन होगा - प्रशिक्षण , इसलिए आपको अपनी सटीकता के विश्वास में अंतर्दृष्टि प्रदान करेगा।


+1 मैं चिंता करता हूं कि बहुत से रेज़मैपलिंग केवल भ्रमित और भ्रामक होंगे। सत्यापन के लिए क्रॉस सत्यापन या होल्ड-आउट नमूने के माध्यम से एक नियंत्रित तरीके से फिर से शुरू करना, स्पष्ट रूप से समस्याग्रस्त नहीं है।
whuber

6

आप JR स्टेटिस्ट में Meinshausen और Buhlmann द्वारा पेपर स्थिरता चयन पर नज़र डाल सकते हैं। समाज बी (2010) 72 भाग 4, और इसके बाद की चर्चा। वे विचार करते हैं कि क्या होता है जब आप बार-बार अपने डेटा बिंदुओं के सेट को दो हिस्सों में यादृच्छिक रूप से विभाजित करते हैं और प्रत्येक आधे में सुविधाओं की तलाश करते हैं। यह मानकर कि आप एक आधे में जो देखते हैं वह स्वतंत्र है जो आप मिलान वाले अन्य आधे हिस्से में देखते हैं आप गलत तरीके से चयनित चर की अपेक्षित संख्या पर सीमा साबित कर सकते हैं।


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.