कई प्रतिगमन करते समय भविष्यवक्ता चर को कब बदलना है?


10

मैं वर्तमान में स्नातक स्तर पर अपनी पहली लागू रैखिक प्रतिगमन कक्षा ले रहा हूं, और कई रैखिक प्रतिगमन में पूर्वसूचक चर परिवर्तनों के साथ संघर्ष कर रहा हूं। मैं जिस पाठ का उपयोग कर रहा हूं, कुटनर एट अल "एप्लाइड रैखिक सांख्यिकीय मॉडल" उस प्रश्न को कवर नहीं करता है जो मैं कर रहा हूं। (यह सुझाव देने के अलावा कि कई भविष्यवाणियों को बदलने के लिए एक बॉक्स-कॉक्स विधि है)।

जब एक प्रतिक्रिया चर और कई भविष्यवक्ता चर का सामना करना पड़ता है, तो कौन-सी स्थिति प्रत्येक भविष्यवक्ता चर के साथ मिलने का प्रयास करती है? मैं समझता हूं कि हम अंततः त्रुटि विचलन की स्थिति की तलाश कर रहे हैं और सामान्य रूप से वितरित त्रुटियों (कम से कम तकनीकें जो मुझे अब तक सिखाई गई हैं।) मैंने कई अभ्यास वापस किए हैं, जहां समाधान एक उदाहरण के रूप में था y ~ x1 + (1/x2) + log(x3), जहां एक या एक से अधिक भविष्यवाणियों को बदल दिया गया था।

मैं सरल रेखीय प्रतिगमन के तहत तर्क को समझता था, क्योंकि यह y ~ X1 और संबंधित डायग्नोस्टिक्स (अवशिष्टों के qq भूखंडों, अवशिष्ट बनाम y, अवशिष्ट बनाम x, आदि) को देखना आसान था और y ~ लॉग (देखने के लिए परीक्षण) X1) हमारी मान्यताओं को बेहतर तरीके से फिट करता है।

क्या कई भविष्यवक्ताओं की उपस्थिति में एक भविष्यवक्ता को बदलने के लिए समझने के लिए एक अच्छी जगह है?

पहले ही, आपका बहुत धन्यवाद। मैट

जवाबों:


3

मैं आपके प्रश्न को लेता हूं: आप कैसे पता लगाते हैं कि जब परिवर्तन की स्थिति उपयुक्त होती है, तो तार्किक स्थिति क्या होती है । अन्वेषण के साथ डेटा विश्लेषणों को बुक करना हमेशा अच्छा होता है, खासकर ग्राफिकल डेटा की खोज। (विभिन्न परीक्षण आयोजित किए जा सकते हैं, लेकिन मैं यहां ग्राफिकल ईडीए पर ध्यान केंद्रित करूंगा।)

कर्नेल घनत्व प्लॉट हिस्टोग्राम की तुलना में बेहतर होते हैं, जो प्रत्येक चर के अविभाजित वितरण के प्रारंभिक अवलोकन के लिए होते हैं। कई चर के साथ, एक स्कैल्पलॉट मैट्रिक्स काम कर सकता है। शुरुआत में हमेशा नीचता की भी सलाह दी जाती है। यह आपको एक त्वरित और गंदी नज़र देगा कि क्या रिश्ते लगभग रैखिक हैं। जॉन फॉक्स का कार पैकेज उपयोगी रूप से इन्हें जोड़ता है:

library(car)
scatterplot.matrix(data)

अपने चर को कॉलम के रूप में रखना सुनिश्चित करें। यदि आपके पास कई चर हैं, तो व्यक्तिगत भूखंड छोटे हो सकते हैं। प्लॉट विंडो को अधिकतम करें और आप जो प्लॉट्स व्यक्तिगत रूप से जांचना चाहते हैं, उन्हें बाहर निकालना और फिर सिंगल प्लॉट्स बनाने के लिए स्कैप्लेट्स काफी बड़ा होना चाहिए। उदाहरण के लिए,

windows()
plot(density(X[,3]))
rug(x[,3])
windows()
plot(x[,3], y)
lines(lowess(y~X[,3]))

मल्टीपल रिग्रेशन मॉडल फिट करने के बाद, आपको अभी भी सरल रेखीय रिग्रेशन की तरह ही अपने डेटा को प्लॉट और चेक करना चाहिए। अवशिष्ट के लिए QQ भूखंड केवल आवश्यक हैं, और आप पहले की तरह एक समान प्रक्रिया का पालन करते हुए, अपने भविष्यवाणियों के खिलाफ अपने अवशिष्ट का एक मैट्रिक्स मैट्रिक्स कर सकते हैं।

windows()
qq.plot(model$residuals)
windows()
scatterplot.matrix(cbind(model$residuals,X))

यदि कुछ भी संदिग्ध लगता है, तो इसे व्यक्तिगत abline(h=0)रूप से साजिश करें और एक दृश्य मार्गदर्शिका के रूप में जोड़ें । यदि आपके पास एक इंटरैक्शन है, तो आप एक X [, 1] * X [, 2] चर बना सकते हैं, और उसके खिलाफ अवशिष्टों की जांच कर सकते हैं। इसी तरह, आप रेसिड्यूल्स बनाम एक्स [, 3] ^ 2, आदि के एक स्कैल्पलॉट बना सकते हैं। रेसिड्यूल्स बनाम एक्स के अन्य प्रकार के प्लॉट जो आपको पसंद हैं उन्हें इसी तरह से किया जा सकता है। ध्यान रखें कि ये सभी अन्य x आयामों की अनदेखी कर रहे हैं जिन्हें प्लॉट नहीं किया जा रहा है। यदि आपका डेटा समूहीकृत है (यानी एक प्रयोग से), आप सीमांत भूखंडों के अलावा / के बजाय आंशिक भूखंड बना सकते हैं।

उम्मीद है की वो मदद करदे।


2
मैं एक अधिक प्रत्यक्ष दृष्टिकोण को प्रोत्साहित करूंगा: भविष्यवाणियों के प्रभावों को मॉडल करने के लिए प्रतिगमन विभाजन का उपयोग करें ताकि (1) रैखिकता न मानें और (2) सभी परिवर्तनों का एक साथ अनुमान लगा सकें। यह द्विघात प्रतिगमन के समान है - सभी भविष्यवक्ताओं के लिए एक वर्ग शब्द जोड़ना। उदाहरण के लिए, प्रतिबंधित क्यूबिक स्प्लिन के साथ, प्रत्येक एक भविष्यवक्ता के लिए मॉडल में एक या एक से अधिक नॉनलाइन आधार कार्य जोड़ता है जिसे रैखिक रूप से संचालित करने के लिए नहीं जाना जाता है।
फ्रैंक हरेल

@ फ्रेंक मुझे अक्सर प्रतिबंधित क्यूबिक स्प्लिन पसंद है। एकमात्र नकारात्मक व्याख्या में से एक है, जो थोड़ा मुश्किल है और अक्सर मेरे ग्राहकों को बंद कर देता है। (केंद्रित होने पर) एक बहुपद अवधि जोड़ा जा रहा है और अधिक व्याख्या हो रहा है
पीटर Flom

इनपुट के लिए आप सभी का धन्यवाद, मैं इसकी बहुत सराहना करता हूं। मुझे लगता है कि आप वर्तमान में मुझे बहुत अधिक श्रेय दे रहे हैं। मेरा प्रश्न वास्तव में इस बात पर केन्द्रित है कि परिवर्तन कब / क्या लागू हो, यह जानने के लिए व्यक्तिगत भविष्यवाणियों में क्या देखना चाहिए। उदाहरण के लिए, यदि मेरे पास 3 भविष्यवक्ताओं के साथ एक सख्ती से जोड़ सकने वाला मॉडल है, तो मैं एक उपयुक्त परिवर्तन का निर्धारण कैसे करूंगा? कई भविष्यवाणियों के मामले में, क्या हम आम तौर पर उन्हीं सिद्धांतों के लिए प्रयास कर रहे हैं जिन्हें हम सरल रेखीय प्रतिगमन में देखते हैं? (अर्थात अनुकूल अवशिष्ट बनाम पूर्वानुमेय कथानक और अवशिष्टों का qqplot)।
मैट

1
पीटर- प्रतिगमन विभाजन क्वाड्रैटिक्स की तुलना में अधिक जटिल नहीं हैं। कौन जानता है कि उम्र के गुणांक की व्याख्या कैसे करें जब उम्र ^ 2 वैसे भी मॉडल में है? और मैं नहीं देखता कि केंद्र कहाँ मदद करता है। मैं रेखांकन की व्याख्या ग्राफ के साथ करता हूं, जो मेरे सहयोगियों को पसंद है। मैट एक परिवर्तन लगभग हमेशा की जरूरत है। यह नॉनलाइन प्रभाव फिट करने के लिए पर्याप्त मापदंडों का आकलन करने के लिए नमूना आकार की पर्याप्तता का सवाल है। प्रतिगमन विभाजन सीधे रूपांतरों का अनुमान लगाते हैं, और उपयुक्त आत्मविश्वास अंतराल को जन्म देते हैं जो "डेटा दिखता है" के लिए दंडित किया जाता है। अवशिष्टों में एक अप्रत्यक्ष दृष्टिकोण शामिल होता है।
फ्रैंक हार्ले

क्षमा करें, अभी भी यहाँ पर पोस्टिंग का लटका हुआ है। मुझे माफ कीजिऐ। अपनी अंतिम टिप्पणी को उजागर करने के लिए: एक हालिया उदाहरण मैं एक पाठ के माध्यम से गया था जिसके परिणामस्वरूप मॉडल y ~ X1 + log (x2) था, और परिवर्तन के बारे में एकमात्र नोट है "यह स्पष्ट था कि x2 एक लघुगणक परिवर्तन के लिए अनुकूल था । " जब परिवर्तन लागू होते हैं, तो मैं अपनी समझ को बेहतर बनाने की कोशिश कर रहा हूं। क्या यह केवल y ~ x_i भूखंडों को देखने के लिए पर्याप्त है और हम एकल-पूर्वसूचक मामले में आगे बढ़ेंगे? मुझे और क्या विचार करना चाहिए?
मैट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.