मुझे लगा कि मैं इस मुद्दे को समझ गया हूं, लेकिन अब मैं निश्चित नहीं हूं और आगे बढ़ने से पहले मैं दूसरों के साथ जांच करना चाहूंगा।
मेरे पास दो चर हैं, X
और Y
। Y
एक अनुपात है, और यह 0 और 1 से घिरा नहीं है और आम तौर पर वितरित किया जाता है। X
एक अनुपात है, और यह 0 और 1 से घिरा है (यह 0.0 से 0.6 तक चलता है)। जब मैं की एक रेखीय प्रतिगमन चलाने Y ~ X
और मुझे लगता है कि यह पता लगाना X
और Y
काफी बीच सीधा संबंध है। अब तक सब ठीक है।
लेकिन फिर मैं आगे की जांच करता हूं और मुझे लगता है कि शायद X
और Y
रिश्ते रैखिक से अधिक वक्रता हो सकते हैं। मेरे लिए, यह के रिश्ते की तरह दिखता है X
और Y
के करीब हो सकता Y ~ log(X)
, Y ~ sqrt(X)
या Y ~ X + X^2
, या ऐसा ही कुछ। मेरे पास अनुभवजन्य कारण यह है कि संबंध वक्रतापूर्ण हो सकते हैं, लेकिन यह मानने के कारण नहीं हैं कि कोई भी एक गैर-रैखिक संबंध किसी भी अन्य से बेहतर हो सकता है।
मेरे पास यहां से संबंधित कुछ प्रश्न हैं। सबसे पहले, मेरा X
चर चार मान लेता है: 0, 0.2, 0.4, और 0.6। जब मैं इन डेटा को लॉग-या स्क्वायर-रुट-ट्रांसफ़ॉर्म करता हूं, तो इन वैल्यूज़ के बीच की स्पेसिंग विकृत हो जाती है, ताकि 0 वैल्यू बाकी सभी से बहुत आगे निकल जाए। पूछने के बेहतर तरीके की कमी के लिए, यह वही है जो मुझे चाहिए? मुझे लगता है कि यह नहीं है, क्योंकि मुझे विकृति के स्तर के आधार पर मुझे बहुत भिन्न परिणाम मिलते हैं। यदि यह वह नहीं है जो मैं चाहता हूं, तो मुझे इससे कैसे बचना चाहिए?
दूसरा, इन आंकड़ों को लॉग-ट्रांसफ़ॉर्म करने के लिए, मुझे प्रत्येक X
वैल्यू में कुछ राशि मिलानी होगी क्योंकि आप 0. का लॉग नहीं ले सकते। जब मैं बहुत कम राशि जोड़ता हूं, तो 0.001 कहते हैं, मुझे बहुत अधिक विकृति आती है। जब मैं एक बड़ी राशि जोड़ता हूं, तो 1 कहें, मुझे बहुत कम विकृति मिलती है। क्या एक X
चर में जोड़ने के लिए "सही" राशि है ? या वैकल्पिक परिवर्तन (जैसे क्यूब-रूट) या मॉडल (उदाहरण के लिए लॉजिस्टिक रिग्रेशन) को चुनने के एवज में एक चर में कुछ भी जोड़ना अनुचित है X
?
इस मुद्दे पर मुझे क्या पता चल पाया है कि मुझे क्या सावधानी से चलना चाहिए। साथी आर उपयोगकर्ताओं के लिए, यह कोड कुछ डेटा को एक समान संरचना के साथ मेरा बना देगा।
X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)