चर चयन क्यों आवश्यक है?


31

सामान्य डेटा-आधारित चर चयन प्रक्रियाएं (उदाहरण के लिए, आगे, पिछड़े, स्टेपवाइज, सभी सबसेट) अवांछनीय गुणों वाले मॉडल का उत्पादन करते हैं, जिनमें शामिल हैं:

  1. गुणांक शून्य से दूर पक्षपाती।
  2. मानक त्रुटियां जो बहुत छोटी हैं और आत्मविश्वास अंतराल जो बहुत संकीर्ण हैं।
  3. परीक्षण के आँकड़े और पी-मान जिनका विज्ञापित अर्थ नहीं है।
  4. मॉडल फिट के अनुमान जो अत्यधिक आशावादी हैं।
  5. शामिल शब्द जो अर्थहीन हो सकते हैं (जैसे, निचले क्रम की शर्तों का बहिष्करण)।

फिर भी, चर चयन प्रक्रिया बनी रहती है। चर चयन के साथ समस्याओं को देखते हुए, ये प्रक्रियाएं क्यों आवश्यक हैं? उनके उपयोग को क्या प्रेरित करता है?

चर्चा शुरू करने के लिए कुछ प्रस्ताव ...।

  • व्याख्यात्मक प्रतिगमन गुणांक की इच्छा? (कई आईवीएस के साथ एक मॉडल में गुमराह?)
  • अप्रासंगिक चर द्वारा शुरू किए गए विचरण को समाप्त करें?
  • स्वतंत्र चर के बीच अनावश्यक सहसंयोजक / अतिरेक को हटा दें?
  • पैरामीटर अनुमानों की संख्या कम करें (शक्ति, नमूना आकार के मुद्दे)

क्या अन्य हैं? क्या चर चयन तकनीकों द्वारा समस्याओं को संबोधित किया जाता है जो चर चयन प्रक्रियाओं की समस्याओं की तुलना में कम या ज्यादा महत्वपूर्ण है? इनका उपयोग कब किया जाना चाहिए? इनका उपयोग कब नहीं किया जाना चाहिए?


मेरी राय में, किसी समस्या पर स्पष्ट रूप से चर्चा करने के लिए, हमें पहले इसे कुछ अच्छे तरीके से निर्दिष्ट करने की आवश्यकता है और फिर इसे एक उपयुक्त गणितीय रूप में तैयार करना चाहिए ताकि हमारे पास एक रूपरेखा हो सके जिसके तहत समस्या पर स्पष्ट रूप से चर्चा की जाए। के लिए चर चयन समस्या, उदाहरण के लिए, रैखिक प्रतिगमन मॉडल। पहले एक मॉडल को ठीक करना उचित लगता है, और (i) चर चयन के फायदे / नुकसान (जैसे, सुधार / अनुमान या भविष्यवाणी में बिगड़ना) का अध्ययन करना उचित है? (ii) एलएस अनुमान की तुलना में परिवर्तनीय चयन प्रक्रिया के फायदे?

जवाबों:


17

परिवर्तनीय चयन (दंड के बिना) केवल चीजों को बदतर बनाता है। परिवर्तनीय चयन में "सही" चर खोजने का लगभग कोई मौका नहीं है, और शेष चर के प्रभावों के बड़े पैमाने पर परिणाम और मानक त्रुटियों की बड़ी समझ है। यह मानना ​​एक गलती है कि सामान्य रूप से किया गया चर चयन "बड़े पी छोटे एन" समस्या के आसपास एक को प्राप्त करने में मदद करता है। लब्बोलुआब यह है कि अंतिम मॉडल हर तरह से भ्रामक है। यह एक आश्चर्यजनक कथन से संबंधित है जिसे मैंने एक महामारी विज्ञान के पेपर में पढ़ा था: "हमारे पास एक बहुउपयोगी मॉडल विकसित करने के लिए पर्याप्त नमूना आकार नहीं था, इसलिए इसके बजाय हमने 2x2 तालिकाओं के लिए सभी संभावित परीक्षण किए।"

किसी भी समय हाथ में डेटासेट का उपयोग चर को खत्म करने के लिए किया जाता है, निर्णय लेने के लिए वाई का उपयोग करते समय, सभी सांख्यिकीय मात्राएं विकृत हो जाएंगी। विशिष्ट चर चयन एक मृगतृष्णा है।

संपादित करें : (नीचे की ओर से छिपाई गई टिप्पणियों की प्रतिलिपि बनाना)

मैं स्वयं सेवा नहीं करना चाहता, लेकिन मेरी पुस्तक प्रतिगमन मॉडलिंग रणनीतियाँ कुछ गहराई में इस पर जाती हैं। हैंडआउट्स सहित ऑनलाइन सामग्री मेरे वेबपेज पर मिल सकती है । कुछ उपलब्ध विधियां दंड (रिज रिग्रेशन), दंड (लसो), और तथाकथित लोचदार जाल ( और का संयोजन ) हैं। या प्रतिगमन करने से पहले डेटा में कमी (प्रतिक्रिया लिए अंधा ) का उपयोग करें । मेरी किताब पेनल्टीकरण की तुलना में इस पर अधिक स्थान खर्च करती है।L2L1L1L2Y


6
मुझे लगता है कि आगे बढ़ने के बारे में कुछ संकेत प्रदान करके इस उत्तर में सुधार किया जाएगा। जवाब बहुत व्यापक और निश्चित बयान देता है (जिनमें से कई मैं आमतौर पर सहमत होते हैं) उन संसाधनों के संदर्भ के बिना जो दावों को दबाएंगे। निश्चित रूप से दंड एक रामबाण नहीं है, या तो, और कई विकल्प हैं यदि कोई उस सड़क से नीचे जाता है।
कार्डिनल

3
कृपया ऊपर देखें जहां मैंने अधिक जानकारी प्रदान की है। समस्या को बताने का सबसे संक्षिप्त तरीका यह है कि एक मुख्य कारण यह है कि एक चर "चयनित" है, क्योंकि इसका प्रभाव कम करके आंका गया था।
फ्रैंक हरेल

2
हां, मैं मानता हूं कि आपकी पुस्तक में इस पर कुछ अच्छी सामग्री है, उदाहरण के लिए, ईएसएल। (कहा कि, ESL में कम से कम कुछ उदाहरण हैं जहां पिछड़े चयन के कुछ रूप भी कार्यरत हैं।) आप दंड (उर्फ रिज प्रतिगमन) का उल्लेख , लेकिन यह आम तौर पर चर या मॉडल के संदर्भ में बहुत दूर नहीं मिलता है। चयन प्रति से। लोचदार जाल में कुछ ठीक व्यवहार होता है, लेकिन मेरे दिमाग में इसका दोष यह है कि आप इसे कैसे भी देखें, यह बहुत अच्छी या प्राकृतिक "सांख्यिकीय" व्याख्या को स्वीकार नहीं करता है, जबकि और दंड दोनों कुछ इंद्रियों में करते हैं। L2L1L2
कार्डिनल

2
अच्छे बिंदु हालांकि मुझे लगता है कि एक प्राकृतिक व्याख्या देता है क्योंकि यह समान मॉडल गुणांक का अनुमान लगाने का सिर्फ एक और तरीका है। आप सही कह रहे हैं कि बिना कोई भी चर नहीं निकालता है। हम इसे बेहतर भविष्य कहनेवाला प्रदर्शन और बड़े छोटे मामले को संभालने के लिए करते हैं । L2L2L1pn
फ्रैंक हरेल

2
शायद मेरी टिप्पणी उतनी स्पष्ट नहीं थी जितनी कि मेरा इरादा था। हां, मैं इस बात से सहमत हूं कि स्वयं के द्वारा दंड में कई अच्छी व्याख्याएं हैं, भले ही इसका कोई चर चयन न हो। यह लोचदार जाल है जो मुझे इस तथ्य से परे एक सांख्यिकीय दृष्टिकोण से विशेष रूप से अच्छी तरह से प्रेरित या प्राकृतिक नहीं लगता है कि कुछ मामलों में बेहतर भविष्य कहनेवाला प्रदर्शन प्राप्त होता है। L2
कार्डिनल

14

सबसे पहले, आपके द्वारा बताए गए नुकसान , गलत तरीके से किए गए फ़ीचर चयन के प्रभाव हैं , यानी अधूरा, अधूरा या ओवरशूट।

"आदर्श" एफएस के दो चरण हैं; पहला DV से असंबंधित सभी चरों को हटाना है (तथाकथित सभी प्रासंगिक समस्या, बहुत कठिन कार्य, उपयोग किए गए मॉडल / क्लासिफायर के लिए असंबंधित), दूसरा केवल उन चरों के लिए सेट को सीमित करने के लिए है, जो आसानी से उपयोग किए जा सकते हैं मॉडल (उदाहरण के लिए और , को समझाने में समान रूप से अच्छे हैं , लेकिन रैखिक मॉडल सामान्य रूप से का उपयोग करने में विफल रहेगा ) - यह एक न्यूनतम इष्टतम कहा जाता है ।eYYYeY

सभी प्रासंगिक स्तर एक अंतर्दृष्टि प्रदान करते हैं जो वास्तव में दी गई प्रक्रिया को संचालित करता है, इसलिए व्याख्यात्मक मूल्य है। न्यूनतम इष्टतम स्तर (डिज़ाइन द्वारा) गैर-ओवरफ़ीड मॉडल के रूप में संभव के रूप में बिना डेटा के काम कर रहा है।

वास्तविक दुनिया एफएस केवल उन लक्ष्यों में से एक (आमतौर पर बाद में) प्राप्त करना चाहते हैं।


4
मुझे लगता है कि आप हाथ में डेटा का उपयोग किए बिना चर को हटाने की बात कर रहे हैं। आप ऐसा करने के लिए हाथ में डेटासेट का उपयोग नहीं कर सकते। यह अविश्वसनीय और विकृत अनुमान होगा।
फ्रैंक हरेल

जैसा कि मैंने लिखा, यह समस्या का एक सैद्धांतिक आधार है (बायेसियन नेट से आने वाला)। इसे साकार करने का सटीक तरीका स्पष्ट रूप से असंभव है, और मैं निश्चित रूप से सहमत हूं कि सांख्यिकीय मॉडलिंग को RFE और इसी तरह के सामान के बेजान उपयोग से बहुत नुकसान हुआ है - फिर भी मशीन लर्निंग में कुछ अनुमानी एल्गोरिदम हैं जो निश्चित रूप से निराशाजनक नहीं हैं (यानी स्थिर चयन और मॉडल बनाते हैं) जो निष्पक्ष परीक्षणों में बहुत अधिक साबित नहीं हुआ)।

RFE क्या है ???????
kjetil b halvorsen

@kjetilbhalvorsen रिकर्सिव फीचर एलिमिनेशन

अपने दिलचस्प जवाब के लिए @mbx Thx! क्या आप कोई संदर्भ (पुस्तकें, पत्र आदि) प्रदान कर सकते हैं? आपके उत्तर की सराहना!
कारे

10

परिवर्तनीय चयन आवश्यक है क्योंकि अधिकांश मॉडल अप्रासंगिक चर की बड़ी संख्या के साथ अच्छी तरह से व्यवहार नहीं करते हैं। ये चर केवल आपके मॉडल में या इससे भी बदतर शोर का परिचय देंगे, जिससे आप अधिक फिट होंगे। इन चरों को विश्लेषण से बाहर करना एक अच्छा विचार है।

इसके अलावा, आप उन सभी चरों को शामिल नहीं कर सकते जो हर विश्लेषण में मौजूद हैं, क्योंकि वहाँ उनकी संख्या अनंत है। कुछ बिंदु पर आपको रेखा खींचनी होगी, और ऐसा कठोर तरीके से करना अच्छा होगा। इसलिए चर चयन पर सभी चर्चा।

चर चयन के अधिकांश मुद्दों को क्रॉस-मान्यता के साथ, या अंतर्निहित दंड और सुविधा चयन (जैसे रैखिक मॉडल के लिए लोचदार जाल) के साथ एक मॉडल का उपयोग करके निपटाया जा सकता है।

यदि आप ओवर-फिटिंग के कारण कई चर से संबंधित कुछ अनुभवजन्य परिणामों में रुचि रखते हैं, तो केगल से न करें ओवरफिट प्रतियोगिता के परिणामों की जांच करें


1
मुझे लगता है कि पहले पैराग्राफ में समस्या की एक महत्वपूर्ण गलतफहमी है। परिवर्तनीय चयन किसी भी तरह से उन समस्याओं के साथ मदद नहीं करता है, यह केवल उन्हें छुपाता है। परिवर्तनीय चयन के परिणामस्वरूप जबरदस्त ओवरफिटिंग समस्याएं होती हैं, हालांकि जैसा कि आपने बाद में उल्लेख किया है कि चर चयन से होने वाले नुकसान के लिए ईमानदारी से खुद को दंडित करने के कुछ तरीके हैं।
फ्रैंक हर्रेल

3
@ फ्रेंक हैरेल: आप कैसे तय करते हैं कि किस चर को एक मॉडल से बाहर रखा जाए?
Zach

11
(1) डेटासेट देखने से पहले विषय वस्तु ज्ञान का उपयोग करें; (2) वाई के लिए अंधाधुंध विश्लेषण / डेटा कटौती का उपयोग करें; (३) एक ऐसी विधि का उपयोग करें जो सुविधा चयन के कारण होने वाली भारी बहु तुलनात्मक समस्या के लिए पर्याप्त रूप से दंडित करती है (इस पृष्ठ पर अन्यत्र देखें)।
फ्रैंक हरेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.