एक जोड़ा प्रतिगमन प्लॉट (आंशिक प्रतिगमन प्लॉट) एक बहु प्रतिगमन में क्या समझाता है?


18

मेरे पास मूवी डेटासेट का एक मॉडल है और मैंने प्रतिगमन का उपयोग किया है:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

जिसने आउटपुट दिया:

यहाँ छवि विवरण दर्ज करें

अब मैंने पहली बार Add Variable Plot नाम से कुछ काम करने की कोशिश की और मुझे निम्न आउटपुट मिला:

car::avPlots(model, id.n=2, id.cex=0.7)

जोड़ा चर

समस्या यह है कि मुझे Google का उपयोग करके जोड़ा गया वैरिएबल प्लॉट समझने की कोशिश की गई है लेकिन मैं इसकी गहराई को समझ नहीं पाया, जिस प्लॉट को मैंने समझा कि आउटपुट से संबंधित इनपुट चर के प्रत्येक के आधार पर तिरछी तरह का प्रतिनिधित्व।

क्या मैं थोड़ा और विवरण प्राप्त कर सकता हूं जैसे कि इसका डेटा सामान्यीकरण कैसे उचित है?


4
@Silverfish ने आपके प्रश्न का अच्छा उत्तर दिया है। अपने विशेष डेटासेट के साथ क्या करना है, इसके छोटे विवरण पर, एक रैखिक मॉडल एक बहुत बुरा विचार जैसा दिखता है। वोट स्पष्ट रूप से एक अत्यधिक तिरछा गैर-नकारात्मक चर है, इसलिए पॉइसन मॉडल जैसा कुछ संकेत दिया गया है। उदाहरण के लिए देखें blog.stata.com/tag/poisson-regression ध्यान दें कि इस तरह का मॉडल आपको इस धारणा के लिए प्रतिबद्ध नहीं करता है कि प्रतिक्रिया का सीमांत वितरण बिल्कुल एक मानक रैखिक मॉडल की तुलना में किसी भी अधिक पॉइज़न है जो आपको सीमांत सामान्यता पोस्ट करने के लिए प्रतिबद्ध है।
निक कॉक्स

2
यह देखने का एक तरीका है कि रैखिक मॉडल खराब तरीके से काम करता है यह ध्यान दें कि यह मामलों के पर्याप्त अंश के लिए नकारात्मक मूल्यों की भविष्यवाणी करता है। पहले अवशिष्ट भूखंड पर फिट बचे क्षेत्र को देखें । =0
निक कॉक्स

धन्यवाद निक कॉक्स, यहां मैंने पाया कि अत्यधिक तिरछी गैर-नकारात्मक प्रकृति है, मुझे पॉइसन मॉडल पर विचार करना चाहिए, इसलिए क्या कोई लिंक है जो मुझे एक उचित विचार देता है कि कौन से मॉडल का उपयोग करें जो डेटासेट के आधार पर किस परिदृश्य में उपयोग करें और मैंने उपयोग करने का प्रयास किया। मेरे डेटासेट के लिए बहुपद प्रतिगमन, क्या यहाँ एक सही विकल्प होगा ...
अभिषेक चौधरी

1
मैंने पहले ही एक लिंक दिया है जो बदले में आगे के संदर्भ देता है। क्षमा करें, लेकिन मैं आपके प्रश्न के उत्तरार्ध को "डेटासेट पर आधारित परिदृश्य" और "बहुपद प्रतिगमन" के संदर्भ में नहीं समझता। मुझे संदेह है कि आपको अधिक विस्तार के साथ एक नया प्रश्न पूछने की आवश्यकता है।
निक कॉक्स

आपने क्या पैकेज स्थापित किया ताकि R फ़ंक्शन को पहचान सके avPlots?
बेलाट्रिक्स डिक्

जवाबों:


36

उदाहरण के लिए मैं एक कम जटिल प्रतिगमन मॉडल ले जाएगा Y=β1+β2X2+β3X3+ϵ जहां भविष्यवक्ता चर X2 और X3 सहसंबद्ध किया जा सकता है। चलो ढलानों कहना β2 और β3 इसलिए हम कह सकते हैं दोनों सकारात्मक रहे हैं कि (i) Y के रूप में बढ़ जाती है X2 बढ़ता है, तो X3 रखे हुए निरंतर, के बाद से है β2 सकारात्मक है, (ii) Yके रूप में बढ़ जाती है X3 बढ़ता है, तो X2 आयोजित स्थिर है के बाद से β3 सकारात्मक है।

ध्यान दें कि जब अन्य चर स्थिर ("ceteris paribus") आयोजित किए जाते हैं तो क्या होता है , इस पर विचार करके कई प्रतिगमन गुणांक की व्याख्या करना महत्वपूर्ण है । मान लीजिए मैं सिर्फ वहीं Y के खिलाफ X2 एक मॉडल के साथ Y=β1+β2X2+ϵ । ढलान गुणांक के लिए मेरा अनुमान β2 , जिस पर प्रभाव का आकलन करता Y में एक एक इकाई वृद्धि की X2 के बिना पकड़े X3निरंतर, के अपने अनुमान से अलग हो सकता β2 एकाधिक प्रतिगमन से - वह भी पर प्रभाव का आकलन करता Y में एक एक इकाई वृद्धि की X2 , लेकिन यह करता है पकड़ X3 निरंतर। मेरे अनुमान के साथ समस्या β2^ है कि यह से ग्रस्त है लोप-चर पूर्वाग्रह अगर X2 और X3 सहसंबंध हैं।

यह समझने के लिए कि क्यों, कल्पना X2 और X3 नकारात्मक रूप से सहसंबद्ध हैं। अब जब मैं वृद्धि X2 एक इकाई द्वारा, मुझे पता है की औसत मान Y के बाद से वृद्धि करनी चाहिए β2>0 । लेकिन जैसे-जैसे X2 बढ़ जाती है, हमारे पास मौजूद है, तो नहीं X3 निरंतर तो X3 कम करने के लिए जाता है, और के बाद से β3>0 इस का मतलब मूल्य कम करने के लिए करते हैं Y । यदि मैं X की अनुमति देता हूं तो X2 में एक इकाई वृद्धि का समग्र प्रभाव कम दिखाई देगाX3 भी भिन्न करने की है, इसलिएβ2<β2 । हालात बदतर और अधिक दृढ़ता से प्राप्तX2 औरX3 सहसंबद्ध होते हैं, और बड़े के प्रभावX3 के माध्यम सेβ3 - एक बहुत गंभीर मामले में हम भी मिल सकता हैβ2<0 भले ही हम जानते हैं कि, paribus Ceteris,X2 काY पर सकारात्मक प्रभाव है!

उम्मीद है कि अब आप देख सकते हैं कि क्यों एक्स 2 के खिलाफ Y ग्राफ खींचना आपके मॉडल में वाई और एक्स 2 के बीच के रिश्ते की कल्पना करना एक खराब तरीका होगा । मेरे उदाहरण में, अपनी आंख ढाल के साथ सबसे अच्छा फिट की एक पंक्ति के लिए तैयार किया जाएगा ^ β ' 2 कि प्रतिबिंबित नहीं करता है ^ β 2 अपने प्रतिगमन मॉडल से। सबसे खराब स्थिति में, अपने मॉडल की भविष्यवाणी कर सकते हैं कि वाई के रूप में बढ़ जाती है एक्स 2 और अभी तक ग्राफ पर अंक (अन्य चर रखे हुए निरंतर के साथ) बढ़ जाती है का सुझाव वाई के रूप में कम हो जाती है एक्स 2 बढ़ जाती है।X2YX2β2^β2^YX2YX2

समस्या यह है कि X 2 के मुकाबले Y के सरल ग्राफ में , अन्य चर स्थिर नहीं हैं। यह एक अतिरिक्त परिवर्तनीय भूखंड (जिसे एक आंशिक प्रतिगमन भूखंड भी कहा जाता है) के लाभ में महत्वपूर्ण अंतर्दृष्टि है - यह अन्य भविष्यवक्ताओं के प्रभाव को "आंशिक रूप से बाहर" करने के लिए फ्रिस्क-वॉ-लवेल प्रमेय का उपयोग करता है। भूखंड पर क्षितिज और ऊर्ध्वाधर कुल्हाड़ियों को शायद सबसे आसानी से समझा जाता है * " एक्स 2 के रूप में अन्य भविष्यवक्ताओं के लिए हिसाब लगाया जाता है" और " वाई के बाद अन्य भविष्यवाणियों के लिए जिम्मेदार हैं"। अब आप Y और X 2 के बीच के संबंध को देख सकते हैं, जब अन्य सभी भविष्यवाणियों का हिसाब हो गया हैX2X2YYX2 । उदाहरण के लिए, अब आप प्रत्येक प्लॉट में जिस ढलान को देख सकते हैं, वह आपके मूल मल्टीपल रिग्रेशन मॉडल से आंशिक प्रतिगमन गुणांक को दर्शाता है।

एक अतिरिक्त परिवर्ती भूखंड का बहुत सा मूल्य प्रतिगमन निदान चरण में आता है, विशेष रूप से क्योंकि परिवर्धित चर भूखंड में अवशिष्ट मूल मूल प्रतिगमन से ठीक अवशिष्ट होते हैं। इसका मतलब यह है कि आउटलेर और हेटेरोसेडासिटी को एक समान तरीके से पहचाना जा सकता है जब एक से अधिक प्रतिगमन मॉडल के बजाय एक सरल की साजिश को देखते हैं। प्रभावशाली बिंदुओं को भी देखा जा सकता है - यह कई प्रतिगमन में उपयोगी है क्योंकि कुछ प्रभावशाली बिंदु मूल डेटा में स्पष्ट नहीं हैं इससे पहले कि आप अन्य चर को ध्यान में रखते हैं। मेरे उदाहरण में, मध्यम बड़ी X2 मान डेटा तालिका में जगह से बाहर नहीं दिख सकती है, लेकिन यदि X3 मान X2 और X के बावजूद बड़ा हैX3 नकारात्मक रूप से सहसंबद्ध होने के बाद संयोजन दुर्लभ है। "अन्य भविष्यवाणियों के लिए लेखांकन", किX2 मूल्य असामान्य रूप से बड़ा है और आपके जोड़े गए चर भूखंड पर अधिक प्रमुखता से चिपक जाएगा।

अधिक तकनीकी रूप से वे दो अन्य कई प्रतिगमनों को चलाने से अवशिष्ट होंगे: एक्स 2 के अलावा सभी भविष्यवाणियों के खिलाफY को पुनःप्राप्त करने वाले अवशेषऊर्ध्वाधर अक्ष पर जाते हैं, जबकिअन्य सभी घटकों के विरुद्धप्रतिगमन एक्स 2 से अवशिष्टक्षैतिज अक्ष पर चलते हैं। यह वास्तव में " Y दिए गए अन्य" और " X 2 दिए गए अन्य"की किंवदंतियांआपको बता रही हैं। चूँकि इन दोनों प्रतिगमन से माध्य अवशिष्ट शून्य है, ( X 2 दिए गए अन्य, Y का माध्य बिंदुX2X2YX2X2Yदिए गए अन्य) बस (0, 0) होंगे जो बताते हैं कि क्यों जोड़ा चर भूखंड में प्रतिगमन रेखा हमेशा मूल के माध्यम से जाती है। लेकिन मुझे अक्सर लगता है कि कुल्हाड़ियों का उल्लेख करना अन्य रेजगारों से बस अवशिष्ट है, लोगों को भ्रमित करता है (शायद हम अब चार अलग-अलग रजिस्टरों के बारे में बात कर रहे हैं!) इसलिए मैंने इस मामले पर ध्यान नहीं देने की कोशिश की है। उन्हें " X2 दिए गए अन्य" और " Y दिए गए अन्य" के रूप में समझें और आपको ठीक होना चाहिए।


निश्चित नहीं है कि यह कैसे पूछा जाए, लेकिन क्या ऐसा कुछ भी है जो वास्तव में भूखंडों में देखी गई प्रवृत्तियों के बारे में कहा जा सकता है? उदाहरण के लिए, प्रत्येक प्रवृत्ति के फिट होने की भलाई का अनुमान है कि प्रत्येक भविष्यवक्ता कितने स्वतंत्र हैं, या ऐसा कुछ है?
n

3
अंतर्निहित चर की इकाइयों में क्षैतिज और ऊर्ध्वाधर अक्षों पर अवशिष्ट की इकाइयों के अनुवाद के लिए एक विधि मौजूद है?
निकोलस जी

यह एक ऐसा उत्कृष्ट उत्तर है। लेकिन क्या आपके पहले पैराग्राफ (भविष्यवक्ता चर) में कोई टाइपो है? क्या उन्हें X2 और X3 होना चाहिए?
detly

@ धन्यवाद, परिवर्तित!
सिल्वरफिश जूल

सिल्वरफिश, क्या आपको @ निचलोलस सवाल का जवाब पता है? क्या अवशेषों को एक्स-चर की इकाइयों के संदर्भ में व्याख्या करने योग्य बनाने का कोई तरीका है?
परसुलेटोंग्यू

-1

वहाँ कुछ भी है कि वास्तव में भूखंडों में देखा रुझान के बारे में कहा जा सकता है

निश्चित रूप से, उनकी ढलान मूल मॉडल से प्रतिगमन गुणांक हैं (आंशिक प्रतिगमन गुणांक, अन्य सभी पूर्वानुमानित गुणक हैं)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.