एकाधिक प्रतिगमन में व्याख्यात्मक चर के बीच रैखिक संबंध


10

मैं डेटा विश्लेषण और ग्राफिक्स आर के कई प्रतिगमन अध्याय का उपयोग कर पढ़ रहा था : एक उदाहरण-आधारित दृष्टिकोण और यह पता लगाने के लिए थोड़ा उलझन में था कि यह व्याख्यात्मक चर (स्कैटलपॉट का उपयोग करके) के बीच रैखिक रिश्तों की जाँच करने की सिफारिश करता है और यदि कोई मामला हो तो किसी भी टी, उन्हें बदलने ताकि वे करते हो जाते हैं और अधिक के बीच सीधा संबंध। इसके कुछ अंश इस प्रकार हैं:

6.3 कई प्रतिगमन मॉडल फिटिंग के लिए एक रणनीति

(...)

सभी व्याख्यात्मक चरों को शामिल करते हुए स्कैप्लेटोट मैट्रिक्स की जांच करें। (इस बिंदु पर आश्रित चर शामिल है, वैकल्पिक। ) एक दूसरे के खिलाफ व्याख्यात्मक चर के भूखंडों में गैर-रैखिकता के सबूत के लिए पहले देखें।

(...)

यह बिंदु एक मॉडल खोज रणनीति की पहचान करता है - ऐसे मॉडल की तलाश करता है जिसमें व्याख्यात्मक चर के बीच प्रतिगमन संबंध "सरल" रैखिक रूप का अनुसरण करते हैं । इस प्रकार, यदि कुछ जोड़ीदार भूखंड गैर-रैखिकता के प्रमाण दिखाते हैं, तो अधिक लगभग रैखिक संबंधों को देने के लिए परिवर्तन (रों) के उपयोग पर विचार करें । जबकि यह आवश्यक नहीं हो सकता है कि इस रणनीति का पालन करते हुए, प्रतिगमन संबंध को पर्याप्त रूप से मॉडल करने के लिए, यह एक अच्छी रणनीति है, नीचे दिए गए कारणों से, खोज शुरू करने में पालन करने के लिए।

(...)

यदि व्याख्यात्मक चर के बीच के संबंध लगभग रैखिक हैं, तो शायद रूपांतरण के बाद, विश्वास के साथ प्रतिक्रिया चर के खिलाफ पूर्वसूचक चर के भूखंडों की व्याख्या करना संभव है।

(...)

एक या एक से अधिक व्याख्यात्मक चर के परिवर्तनों को खोजना संभव नहीं हो सकता है जो यह सुनिश्चित करते हैं कि पैनलों में दिखाए गए (जोड़ीदार) रिश्ते रैखिक दिखाई देते हैं। यह किसी भी फिट प्रतिगमन समीकरण के लिए नैदानिक ​​भूखंडों की व्याख्या और फिट समीकरण में गुणांक की व्याख्या के लिए दोनों समस्याएं पैदा कर सकता है। कुक और वीज़बर्ग (1999) देखें।

क्या मुझे सक्रिय रूप से पीछा करने के बजाय आश्रित चर (बहुसंस्कृति के जोखिम के कारण) के बीच रैखिक संबंधों के बारे में चिंतित नहीं होना चाहिए? लगभग रैखिक रूप से संबंधित चर होने के क्या फायदे हैं?

लेखक बाद में अध्याय में मल्टीकोलिनरिटी के मुद्दे को संबोधित करते हैं, लेकिन यह सिफारिशें मल्टीकोलिनरिटी से बचने के साथ मुश्किलों में लगती हैं।

जवाबों:


8

यहाँ दो बिंदु हैं:

  1. यह मार्ग केवल IVs को रैखिकता में बदलने की सिफारिश करता है, जब अशुद्धता का सबूत हो। IVs के बीच गैर-संबंध संबंध भी कोलीनियरिटी का कारण बन सकते हैं और अधिक केंद्रीय रूप से, अन्य रिश्तों को जटिल बना सकते हैं। मुझे यकीन नहीं है कि मैं पुस्तक में सलाह से सहमत हूं, लेकिन यह मूर्खतापूर्ण नहीं है।

  2. निश्चित रूप से बहुत मजबूत रेखीय संबंध संपार्श्विकता के कारण हो सकते हैं, लेकिन समस्यात्मक टकराव के लिए उच्च सहसंबंध न तो आवश्यक हैं और न ही पर्याप्त हैं। Collinearity का निदान करने का एक अच्छा तरीका स्थिति सूचकांक है।

टिप्पणी के जवाब में EDIT

हालत अनुक्रमितों को यहां संक्षेप में "न्यूनतम आइगेनवैल्यू द्वारा विभाजित अधिकतम ईजेनवल्यू के वर्गमूल" के रूप में वर्णित किया गया है। CV पर यहाँ कुछ पोस्ट हैं जो उनकी और उनकी खूबियों के बारे में चर्चा करते हैं। डेविड बेल्सली की दो पुस्तकें हैं: कंडीशनिंग डायग्नोस्टिक्स एंड रिग्रेशन डायग्नोस्टिक्स (जिसमें एक नया संस्करण, 2005 भी है)।


1
+1 - अच्छा जवाब लेकिन क्या आप स्थिति सूचकांक पर विस्तार कर सकते हैं? मुझे अभी तक उम्मीदवार व्याख्यात्मक चर में संपार्श्विकता से निपटने का एक संतोषजनक साधन नहीं मिला है।
बीजीरीन

जानकारीपूर्ण उत्तर के लिए धन्यवाद। क्या आप इस बारे में विस्तार से बता सकते हैं कि अन्य संबंध क्या गैर-रैखिकता द्वारा जटिल हैं। चर? और क्या अब आप लेखक के बारे में बात कर रहे हैं जब वे कहते हैं कि खोज के बीच गैर-संबंध हैं। चर गुणांक और नैदानिक ​​भूखंडों की व्याख्या के साथ समस्याएं पैदा कर सकते हैं?
रिकार्डो

मैं अभी एक उदाहरण नहीं दे सकता, लेकिन मैंने ऐसा होते देखा है। यह लग सकता है Y और एक्स के बीच अरेखीय संबंधों देखते हैं जैसे
पीटर Flom

3

प्रत्येक व्याख्यात्मक चर और आश्रित चर के बीच रैखिक संबंध, व्याख्यात्मक चर के बीच रैखिक संबंध भी सुनिश्चित करेंगे। रिवर्स बिल्कुल सच नहीं है।

यह सही है कि अनुमानित रैखिकता देने के लिए डिज़ाइन किया गया परिवर्तन (टों) संपार्श्विकता को बढ़ाएगा। इस तरह के परिवर्तन (नों) की अनुपस्थिति में, हालांकि, संपार्श्विकता छिपी हुई है। इस प्रकार छिपी हुई संपुटितता को बनाए रखने पर जोर देने से एक जटिल और निर्विवाद प्रतिगमन समीकरण हो सकता है, जहां समीकरण का एक सरल रूप उपलब्ध है।

मान लीजिए कि yएक रैखिक कार्य के करीब है log(x1), ऐसे मामले में जहां xमानों की सीमा 10 या अधिक के कारक से भिन्न होती है। फिर यदि xएक रजिस्ट्रार के रूप में उपयोग किया जाता है, तो अन्य व्याख्यात्मक चर यदि संभव हो तो X1 के साथ संबंध में गैर-हीनता के लिए आमंत्रित किया जा सकता है। परिणाम एक बहुत ही जटिल प्रतिगमन संबंध हो सकता है, बिना किसी व्याख्या के गुणांक के साथ, प्रतिगमन समीकरण के एक सरल रूप के स्थान पर जो सभी उपलब्ध व्याख्यात्मक शक्ति को कैप्चर करता है।

विचित्र रूप से संबंधित चर के साथ काम करने और काम करने में विफलता के परिणामस्वरूप होने वाले विचित्र परिणाम हाल ही के पेपर में अच्छी तरह से चित्रित किए गए हैं, जिसमें दावा किया गया था कि 1950 के बाद से अमेरिका के ऊपर 94 अटलांटिक तूफान से हुई मौतों के आंकड़ों में तूफान नाम के प्रभाव का एक मादाता है। Http://www.pnas.org/content/111/24/8782.abstract देखें । डेटा अनुपूरक जानकारी के हिस्से के रूप में उपलब्ध हैं। ध्यान दें कि log(deaths)एक नॉरमल थ्योरी रैखिक मॉडल (R का कार्य lm()) के साथ काम करना और उपयोग करना लगभग एक नकारात्मक द्विपद प्रतिगमन मॉडल के जंग एट अल के उपयोग के बराबर है।

एक regresses हैं log(E[deaths])पर log(NDAM), कुछ भी न्यूनतम दबाव चर, femaleness चर, और बातचीत के लिए छोड़ दिया है, समझाने के लिए। वैरिएबल log(NDAM), नहीं NDAM, एक स्कैल्पलॉट मैट्रिक्स में, रैखिक रूप से न्यूनतम दबाव चर से संबंधित है। इसका वितरण भी बहुत कम तिरछा है, सममित के बहुत करीब है।

जंग एट अल log(E[deaths])ने NDAM(सामान्यीकृत क्षति) पर फिर से कब्जा कर लिया , साथ ही उन अन्य चर और बातचीत। तब जो समीकरण उभरा, उसका उपयोग एक कहानी को बताने के लिए किया गया था जिसमें नाम की स्त्रीत्व का बड़ा प्रभाव होता है।

यह देखने के लिए कि NDAMएक प्रतिगमन में व्याख्यात्मक चर के रूप में इसका उपयोग कितना विचित्र है log(E[deaths]), जहां परिणाम चर , भूखंड log(deaths+0.5)या log(deaths+1)विरुद्ध है NDAM। फिर के log(NDAM)स्थान के साथ साजिश को दोहराएं NDAM। अगर कैटरीना और ऑड्रे, जो जंग एट अल आउटलेर के रूप में छोड़े गए हैं, तो इसके विपरीत भी अधिक महत्वपूर्ण है। NDAMव्याख्यात्मक चर के रूप में उपयोग करने पर जोर देने के बजाय log(NDAM), जंग एट अल ने प्रतिगमन संबंध का एक बहुत ही सरल रूप खोजने का अवसर दिया।

एनबी कि E[deaths]मॉडल द्वारा भविष्यवाणी की गई मौतों की संख्या है।

जंग एट अल डेटा में, आवश्यक परिवर्तनों को सभी चर के स्कैप्लेटोट मैट्रिक्स से पहचाना जा सकता है। spm()आर के साथ, transform=TRUEऔर ( deathsएक चर के रूप में) के लिए कार पैकेज की नवीनतम रिलीज में शायद आर फ़ंक्शन का प्रयास करें family="yjPower"। या प्रारंभिक स्कैल्पलॉट मैट्रिक्स द्वारा सुझाए गए परिवर्तनों के साथ प्रयोग करें। सामान्य तौर पर, पसंदीदा सलाह पहले व्याख्यात्मक चर के लिए देख सकते हैं जो रैखिक भविष्यवाणियों की आवश्यकता को पूरा करते हैं, फिर परिणाम चर में भाग लेते हैं, शायद कार फ़ंक्शन का उपयोग करते हुए invTranPlot()

प्रश्नकर्ता द्वारा संदर्भित "डेटा विश्लेषण और ग्राफिक्स आर का उपयोग" के अलावा देखें:

  • वीज़बर्ग: एप्लाइड लाइनर रिग्रेशन। चौथा एडन, विली 2014, पीपी .85-203।
  • फॉक्स एंड वीज़बर्ग: एन आर कम्पैनियन टू एप्लाइड रिग्रेशन। 2 ईडीएन, सेज, 2011, पीपी.127-148।

1

मुझे यह पूरा रास्ता मिल जाता है बल्कि गूढ़ है अगर नीच संदिग्ध नहीं है। आदर्श रूप से, आप चाहते हैं कि आपके स्वतंत्र चर एक दूसरे से यथासंभव असंबद्ध हों ताकि आश्रित चर का अनुमान लगाने में मॉडल को वृद्धिशील और अतिरिक्त जानकारी प्रदान की जा सके। आप स्वतंत्र चर के बीच उच्च सहसंबंधों के माध्यम से बहुसंस्कृति के मुद्दे को उठाते हैं, और आप इस परिस्थिति में उस मुद्दे को उठाने के लिए पूरी तरह से सही हैं।

प्रत्येक स्वतंत्र चर और आश्रित चर के बीच बिखराव की साजिश और संबंधित रैखिक संबंध की जांच करना अधिक महत्वपूर्ण है, लेकिन स्वतंत्र चर के बीच नहीं। ऐसे समय में ऐसे तितर बितर भूखंडों (एक्स-एक्सिस पर स्वतंत्र और वाई-एक्सिस पर निर्भर) को देखते हुए, एक बेहतर फिट का निरीक्षण करने के लिए स्वतंत्र चर को बदलने के अवसर हो सकते हैं चाहे वह एक लॉग, एक घातांक या बहुपद रूप में हो।


1
आपके दूसरे वाक्य पर: यदि स्वतंत्र चर पूरी तरह से असंबंधित थे, तो प्रतिगमन के लिए तर्क की बहुत सारी मात्रा मूट हो जाएगी। वाई के साथ एक भविष्यवक्ता का प्रत्येक रिश्वत संबंध अन्य सभी भविष्यवक्ताओं के नियंत्रित होने पर संबंध के समान ही दिखाई देगा। उस मामले में, नियंत्रण क्यों?
रोलैंडो 2
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.