क्या मैं केवल दो भविष्यवाणियों में से एक को हटा सकता हूं जो अत्यधिक रैखिक रूप से सहसंबद्ध हैं?


18

पियर्सन के सहसंबंध गुणांक का उपयोग करते हुए, मेरे पास कई चर हैं जो अत्यधिक सहसंबद्ध हैं ( 2 मॉडल के जोड़े के लिए और ρ = 0.989 जो मेरे मॉडल में हैं)।ρ=0.978ρ=0.989

कारण चर के कुछ अत्यधिक सहसंबद्ध होते हैं क्योंकि एक चर में इस्तेमाल किया जाता है गणना एक और चर के लिए।

उदाहरण:

और = वी * डीB=V/3000E=VD

और में ρ = 0.989 हैBEρ=0.989

क्या यह संभव है कि मैं चर में से केवल एक को फेंक दूं?

जवाबों:


26

B और E दोनों V. B से प्राप्त हुए हैं और E स्पष्ट रूप से एक दूसरे से "स्वतंत्र" चर नहीं हैं। अंतर्निहित चर जो वास्तव में यहां मायने रखता है, वी है। आपको शायद इस मामले में बी और ई दोनों को अस्वीकार करना चाहिए और केवल वी को रखना चाहिए।

अधिक सामान्य स्थिति में, जब आपके पास दो स्वतंत्र चर होते हैं जो बहुत अधिक सहसंबद्ध होते हैं, तो आपको निश्चित रूप से उनमें से एक को हटा देना चाहिए क्योंकि आप मल्टीकोलिनियरिटी कॉन्डम में चलते हैं और दो अत्यधिक सहसंबद्ध चर से संबंधित आपके प्रतिगमन मॉडल के प्रतिगमन गुणांक अविश्वसनीय होंगे। इसके अलावा, सादे अंग्रेजी में अगर दो चर इतने अधिक सहसंबद्ध हैं, तो वे स्पष्ट रूप से आपके प्रतिगमन मॉडल के लगभग समान जानकारी प्रदान करेंगे। लेकिन, दोनों को शामिल करके आप वास्तव में मॉडल को कमजोर कर रहे हैं। आप वृद्धिशील जानकारी नहीं जोड़ रहे हैं। इसके बजाय, आप अपने मॉडल को शोर के साथ संक्रमित कर रहे हैं। अच्छी बात नहीँ हे।

एक तरह से आप अपने मॉडल के भीतर अत्यधिक सहसंबद्ध चर रख सकते हैं, प्रतिगमन के बजाय एक प्रधान घटक विश्लेषण (पीसीए) मॉडल का उपयोग करना है। पीसीए मॉडल को मल्टीकोलिनरिटी से छुटकारा पाने के लिए बनाया गया है। व्यापार बंद यह है कि आप अपने मॉडल के भीतर दो या तीन प्रमुख घटकों के साथ समाप्त होते हैं जो अक्सर सिर्फ गणितीय निर्माण होते हैं और तार्किक रूप से बहुत अधिक समझ से बाहर होते हैं। पीसीए इसलिए अक्सर एक विधि के रूप में छोड़ दिया जाता है जब भी आपको अपने परिणामों को बाहर के दर्शकों जैसे कि प्रबंधन, नियामक, आदि को पेश करना होता है ... पीसीए मॉडल क्रिप्टिक ब्लैक बॉक्स बनाते हैं जो समझाने के लिए बहुत चुनौतीपूर्ण हैं।


1
(+1) पीसीए की व्याख्या के लिए।
स्टीफन

1
धन्यवाद, यह एक महान व्याख्या थी। मैंने पीसीए के बारे में सुना और पढ़ा है, लेकिन यह एक "प्रतिगमन" स्नातक पाठ्यक्रम के लिए एक अंतिम परियोजना के लिए है जो मैं ले रहा हूं, और प्रोफेसर बस हमें एलआर का उपयोग करना चाहते हैं। भले ही, मैं वास्तव में पीसीए के स्पष्टीकरण की सराहना करता हूं और संभवतः इसे खुद को मनोरंजन के लिए उपयोग करूंगा।
.CloudlessSky

3
कुछ परिस्थितियों में इस उत्तर में सिफारिशें काम नहीं करेंगी। उदाहरण के लिए, अगर सच्चा संबंध Y = B + E = V / 3000 + V * D है तो क्या होगा? तब वेरिएबल में V और D की श्रेणी के कारण चर का उच्च सहसंबंध होता है - जो कि (या हो सकता है) शुद्ध दुर्घटना है - जबकि B या E में से किसी एक को फेंकने से गलत मॉडल आएगा। संक्षेप में, "निर्भरता" सामान्य रूप से एक मॉडल से कुछ चर निकालने के लिए एक वैध कारण नहीं है; दृढ़ता से निर्भर चर सहित एक मॉडल को "कमजोर" करना जरूरी नहीं है; पीसीए हमेशा बाहर का रास्ता नहीं है।
whuber

@whuber, मुझे यकीन नहीं है कि मैं आपकी टिप्पणियों से सहमत हूं। मुझे लगता है कि "निर्भरता" सामान्य रूप से एक प्रतिगमन मॉडल से कुछ चर निकालने के लिए एक बहुत वैध कारण है। अन्यथा, आपके प्रतिगमन गुणांक विश्वसनीय नहीं हो सकते। उदाहरण में आप उपयोग करते हैं जो प्रतिगमन के लिए समस्याग्रस्त होगा, एक सरल समाधान एक एकल चर के रूप में संपूर्ण अभिव्यक्ति (V / 3000 + V * D) का उपयोग करना है।
सिम्पा

3
आम तौर पर, यदि मॉडल बीटा 1 * (वी / 3000) + बीटा 2 * (वी डी) है तो आप ऐसा नहीं कर सकते हैं: दूसरे शब्दों में, आपका सुझाव यह मानता है कि आप गुणांकों के बीच एक रैखिक बाधा जानते हैं। यह सच है कि प्रतिगमन गुणांक में * अपेक्षाकृत बड़ी VIF या मानक त्रुटियां हो सकती हैं, लेकिन पर्याप्त मात्रा में डेटा के साथ - या अच्छी तरह से चुनी गई टिप्पणियों के साथ - अनुमान पर्याप्त विश्वसनीय होंगे इसलिए, हम सहमत हैं कि एक समस्या है और वास्तव में मैं आपके समाधान पर विचार करने के लिए कई विकल्पों में से एक के रूप में सहमत हूं । मैं असहमत हूं कि यह उतना ही सामान्य और आवश्यक है जितना कि आप इसे बाहर करना चाहते हैं।
whuber

7

यहां एक मशीन सीखने वाले के दृष्टिकोण से एक जवाब है, हालांकि मुझे डर है कि मैं इसके लिए असली सांख्यिकीविदों द्वारा पीटा जाऊंगा।

क्या यह संभव है कि मैं चर में से केवल एक को फेंक दूं?

खैर, सवाल यह है कि भविष्यवाणी के लिए आप किस प्रकार का मॉडल उपयोग करना चाहते हैं। यह उदाहरण पर निर्भर करता है ...

  • सहसंबंधित भविष्यवक्ताओं के साथ मॉडल? उदाहरण के लिए, हालांकि NaiveBayes सैद्धांतिक रूप से सहसंबद्ध चर के साथ समस्या है, प्रयोगों से पता चला है कि यह अभी भी अच्छा प्रदर्शन कर सकता है।
  • मॉडल भविष्यवक्ता चर को कैसे संसाधित करता है? उदाहरण के लिए, B और V के बीच के अंतर को संभाव्यता घनत्व के अनुमान में सामान्यीकृत किया जाएगा, शायद E और V के लिए समान है जो D के विचरण पर निर्भर करता है (जैसा कि पहले से ही कहा गया है)
  • B और E (एक, कोई नहीं, दोनों) का कौन-सा उपयोग संयोजन सबसे अच्छा परिणाम देता है, एक माइंडफुल क्रॉसवलिडेशन + जो कि एक होल्डआउट सेट पर एक परीक्षण द्वारा अनुमानित है?

कभी-कभी हम मशीन सीखने वाले भी भविष्यवाणियों के एक सेट का सबसे अच्छा अंकगणितीय संयोजन खोजने के लिए आनुवंशिक अनुकूलन करते हैं।


7

B, V का एक रैखिक रूपांतर है। E, V और D के बीच की बातचीत का प्रतिनिधित्व करता है। क्या आपने एक मॉडल को निर्दिष्ट करने पर विचार किया है जो Y = इंटरसेप्ट + V + D + V: D है? जैसा कि @ euphoria83 सुझाव देता है, यह संभावना है कि डी में थोड़ी भिन्नता है, इसलिए यह आपकी समस्या को हल नहीं कर सकता है; हालांकि इसे कम से कम वी और डी के स्वतंत्र योगदान को स्पष्ट करना चाहिए। वी और डी दोनों को पहले से ही केंद्र में रखना सुनिश्चित करें।


4
+1: न केवल यह सुझाव प्रश्न में समस्या के लिए एक अच्छा दृष्टिकोण है, यह दिखाता है कि दूर-दूर की समस्याओं को हल करने के लिए चर को फेंकना हमेशा सही (या एक अच्छा) दृष्टिकोण नहीं है।
whuber

0

यदि D एक स्थिरांक नहीं है, तो D में भिन्नता के कारण B और E प्रभावी रूप से दो भिन्न चर हैं। उच्च सहसंबंध इंगित करता है कि D, व्यावहारिक रूप से पूरे प्रशिक्षण डेटा में स्थिर है। अगर ऐसा है, तो आप B या E को त्याग सकते हैं।


1
वेल डी अपने आप में एक अन्य समीकरण है जिसकी गणना अन्य चर द्वारा की जाती है :डी=n12*एन2n2। क्या यह अभी भी लागू होता है?
TheCloudlessSky

यदि आप B या E को त्यागते हैं और उन्हें समान मानते हैं तो आप अनुमान लगा रहे हैं कि V वास्तव में मायने रखता है। अगर ऐसा है, तो आप मॉडल को B बनाए रखना बेहतर होगा क्योंकि इसकी व्याख्या स्पष्ट है। इसके अलावा, यदि आप E को बनाए रखते हैं, लेकिन D का वास्तव में सीमित विचलन है, तो आपके परिणामों की व्याख्या की वैधता डी के विभिन्न मूल्यों के लिए और भी अधिक संदिग्ध (सामान्य से अधिक) होगी
russellpierce
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.