प्रतिगमन: परिवर्तनशील चर


41

परिवर्तनशील चर बनाते समय, क्या आपको एक ही परिवर्तन का उपयोग करना होगा? उदाहरण के लिए, क्या मैं अलग-अलग रूपांतरित चर चुन सकता हूं, जैसे:

आज्ञा देना, आयु, रोजगार की लंबाई, निवास की लंबाई और आय।x1,x2,x3

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

या, क्या आपको अपने परिवर्तनों के अनुरूप होना चाहिए और सभी का उपयोग करना चाहिए? जैसे की:

Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 

मेरी समझ यह है कि परिवर्तन का लक्ष्य सामान्यता की समस्या को दूर करना है। प्रत्येक चर के हिस्टोग्राम को देखते हुए हम देख सकते हैं कि वे बहुत भिन्न वितरण प्रस्तुत करते हैं, जो मुझे विश्वास दिलाता है कि परिवर्तन आवश्यक चर चर के आधार पर भिन्न होते हैं।

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7]) 

वैकल्पिक शब्द

log(xn+1)xn00

## R Code 
plot(df[1:7])

वैकल्पिक शब्द

जवाबों:


59

एक बदल देती निर्भर अनुमानित प्राप्त करने के लिए चर समरूपता और homoscedasticity के बचस्वतंत्र चर के रूपांतरण का एक अलग उद्देश्य होता है: आखिरकार, इस प्रतिगमन में सभी स्वतंत्र मूल्यों को निर्धारित किया जाता है, यादृच्छिक नहीं, इसलिए "सामान्यता" अनुचित है। इन परिवर्तनों में मुख्य उद्देश्य निर्भर चर के साथ रैखिक संबंधों को प्राप्त करना है (या, वास्तव में, इसके लॉगिट के साथ)। (यह उद्देश्य सहायक लोगों की अधिक सवारी करता है जैसे कि अतिरिक्त उत्तोलन को कम करनाया गुणांकों की एक सरल व्याख्या प्राप्त करना।) ये रिश्ते डेटा और उन घटनाओं का एक गुण हैं, जिन्होंने उन्हें उत्पन्न किया है, इसलिए आपको प्रत्येक चर के उपयुक्त फिर से अभिव्यक्तियों को दूसरों से अलग चुनने के लिए लचीलेपन की आवश्यकता है। विशेष रूप से, न केवल यह एक लॉग, एक रूट और एक पारस्परिक उपयोग करने के लिए एक समस्या नहीं है, बल्कि यह आम है। सिद्धांत यह है कि डेटा आमतौर पर कैसे व्यक्त किया जाता है, इसके बारे में कुछ भी विशेष नहीं है, इसलिए आपको डेटा को फिर से अभिव्यक्त करने का सुझाव देना चाहिए जो प्रभावी, सटीक, उपयोगी और (यदि संभव हो) सैद्धांतिक रूप से उचित मॉडल का नेतृत्व करते हैं।

हिस्टोग्राम - जो एकतरफा वितरण को दर्शाते हैं - अक्सर एक प्रारंभिक परिवर्तन पर संकेत देते हैं, लेकिन डिस्पोजेबल नहीं होते हैं। उन्हें बिखेरने वाले मैट्रिस के साथ एक साथ रखें ताकि आप सभी चर के बीच संबंधों की जांच कर सकें।


log(x+c)cxlog(x)xzxxx=0और 0 अन्यथा है। ये शब्द एक राशि का योगदान करते हैं

βlog(x)+β0zx

x>0zx=0βlog(x)x=0log(x)zx=1β0β0x=0βlog(x)


1
बहुत उपयोगी विवरण, दिशा और विस्तार के लिए धन्यवाद मेरे उप-भाग पर भी।
ब्रेंडन बर्टेल्सन

pareonline.net/getvn.asp?v=15&n=12 ओसबोर्न (2002) बिल्कुल 1.0 में एक वितरण में न्यूनतम मूल्य को लंगर डालने की सलाह देता है। pareonline.net/getvn.asp?v=8&n=6
क्रिस

1
11

1
मेरे एक डेटासेट में, जिस पर मैं काम कर रहा हूं, मैंने देखा कि अगर मैंने 1 पर लंगर प्रतिक्रिया निर्भर चर को स्थानांतरित कर दिया और तिरछा को खत्म करने के लिए एक बॉक्स कॉक्स परिवर्तन का उपयोग किया, तो परिणामस्वरूप परिवर्तन आपके आलोचक के लिए अग्रणी विश्वसनीयता कमजोर हो गया था। ;)
क्रिस

1
β0zx
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.