जब वे एक स्वतंत्र चर हैं, तो अनुपात को बदलने के लिए सबसे उपयुक्त तरीका क्या है?


12

मुझे लगा कि मैं इस मुद्दे को समझ गया हूं, लेकिन अब मैं निश्चित नहीं हूं और आगे बढ़ने से पहले मैं दूसरों के साथ जांच करना चाहूंगा।

मेरे पास दो चर हैं, Xऔर YYएक अनुपात है, और यह 0 और 1 से घिरा नहीं है और आम तौर पर वितरित किया जाता है। Xएक अनुपात है, और यह 0 और 1 से घिरा है (यह 0.0 से 0.6 तक चलता है)। जब मैं की एक रेखीय प्रतिगमन चलाने Y ~ Xऔर मुझे लगता है कि यह पता लगाना Xऔर Yकाफी बीच सीधा संबंध है। अब तक सब ठीक है।

लेकिन फिर मैं आगे की जांच करता हूं और मुझे लगता है कि शायद Xऔर Yरिश्ते रैखिक से अधिक वक्रता हो सकते हैं। मेरे लिए, यह के रिश्ते की तरह दिखता है Xऔर Yके करीब हो सकता Y ~ log(X), Y ~ sqrt(X)या Y ~ X + X^2, या ऐसा ही कुछ। मेरे पास अनुभवजन्य कारण यह है कि संबंध वक्रतापूर्ण हो सकते हैं, लेकिन यह मानने के कारण नहीं हैं कि कोई भी एक गैर-रैखिक संबंध किसी भी अन्य से बेहतर हो सकता है।

मेरे पास यहां से संबंधित कुछ प्रश्न हैं। सबसे पहले, मेरा Xचर चार मान लेता है: 0, 0.2, 0.4, और 0.6। जब मैं इन डेटा को लॉग-या स्क्वायर-रुट-ट्रांसफ़ॉर्म करता हूं, तो इन वैल्यूज़ के बीच की स्पेसिंग विकृत हो जाती है, ताकि 0 वैल्यू बाकी सभी से बहुत आगे निकल जाए। पूछने के बेहतर तरीके की कमी के लिए, यह वही है जो मुझे चाहिए? मुझे लगता है कि यह नहीं है, क्योंकि मुझे विकृति के स्तर के आधार पर मुझे बहुत भिन्न परिणाम मिलते हैं। यदि यह वह नहीं है जो मैं चाहता हूं, तो मुझे इससे कैसे बचना चाहिए?

दूसरा, इन आंकड़ों को लॉग-ट्रांसफ़ॉर्म करने के लिए, मुझे प्रत्येक Xवैल्यू में कुछ राशि मिलानी होगी क्योंकि आप 0. का लॉग नहीं ले सकते। जब मैं बहुत कम राशि जोड़ता हूं, तो 0.001 कहते हैं, मुझे बहुत अधिक विकृति आती है। जब मैं एक बड़ी राशि जोड़ता हूं, तो 1 कहें, मुझे बहुत कम विकृति मिलती है। क्या एक Xचर में जोड़ने के लिए "सही" राशि है ? या वैकल्पिक परिवर्तन (जैसे क्यूब-रूट) या मॉडल (उदाहरण के लिए लॉजिस्टिक रिग्रेशन) को चुनने के एवज में एक चर में कुछ भी जोड़ना अनुचित है X?

इस मुद्दे पर मुझे क्या पता चल पाया है कि मुझे क्या सावधानी से चलना चाहिए। साथी आर उपयोगकर्ताओं के लिए, यह कोड कुछ डेटा को एक समान संरचना के साथ मेरा बना देगा।

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

आप कहते हैं कि Y एक अनुपात है, लेकिन आपके डेटा में यह 6 और 10 के बीच है?

हाँ, मैंने इसे ऊपर तय किया है - यह एक अनुपात है, एक अनुपात नहीं है।
बाज़ू

जवाबों:


13

अनुपात बदलने के बारे में मुख्य प्रश्न (मैं को प्रतीक के रूप में उपयोग करूंगा , इसी तरह लेकिन आपके अंकन के लिए समान रूप से नहीं) कुछ सामान्य टिप्पणियों की अनुमति देता है।x

इसके बाद, मैं इसे लेता हूं कि अनुपात बदलने के लिए मुख्य उद्देश्य जो सहसंयोजक हैं (भविष्यवक्ता, स्वतंत्र चर) संबंध की रैखिकता के सन्निकटन में सुधार करना है, या यदि खोजपूर्ण मोड में रेखांकन आकार या वास्तव में अस्तित्व का स्पष्ट विचार प्राप्त करना है कोई रिश्ता। हमेशा की तरह सामान्य रूप से वितरित एक कोवरिएट (जैसे) सामान्य रूप से महत्वपूर्ण नहीं है। (अनुपात साथ संकेतक चर के बहुत दूर के सापेक्ष नहीं हैं , जिन्हें कभी भी सामान्य रूप से वितरित नहीं किया जा सकता है, और अनुपात भी आवश्यक रूप से बाध्य हैं।)0,1

यदि अनुपात सटीक शून्य या सटीक लोगों को प्राप्त कर सकते हैं, तो यह आवश्यक है कि एक परिवर्तन उन सीमाओं के लिए परिभाषित किया जाए, जो स्पष्ट रूप से नियम बनाते हैं , क्योंकि लॉग 0 अनिश्चित है। परे एक विशेष आकार आदर्श कुछ ठोस (वैज्ञानिक, व्यावहारिक) औचित्य आवश्यकता है, लेकिन कमी है कि यह कुछ सरल विश्लेषण से इस प्रकार है कि कि लॉग ( एक्स + ) अत्यधिक का मूल्य के प्रति संवेदनशील है , जैसा कि आप संकेत। logxlog0log(x+c)c

यह थोड़ा आसान करने के लिए आधार लघुगणक के साथ देख रहा है है, तो अस्थायी रूप से की पर विचार करते हैं = 10 कश्मीर ताकि लॉग 10 ( x + 10 कश्मीर ) नक्शे x = 0 करने के लिए k10c=10klog10(x+10k)x=0k

इसलिए मैप्स x = 0 से 0 और x = 1 से लेकर 0.301 तक , जबकि k = - 3 , c = 0.001 मैप्स x = 0 से - 3 और x = 1 केवल 0 से अधिक की स्मिडजेन ।k=0,c=1x=00x=10.301k=3,c=0.001x=03x=10

इसी तरह, जिसका अर्थ है कि 0 को उन्हीं सीमाओं के लिए मैप किया गया है, जबकि तेजी से अच्छे सन्निकटन x = 1 को 0 पर मैप किया गया है ।k=6,9,0x=10

तो निचली सीमा को छोटे और छोटे अतिरिक्त स्थिरांक साथ बाहर की ओर बढ़ाया जाता है , जबकि ऊपरी सीमा उसी के बारे में रहती है। इस तरह के परिवर्तन सीमा के निचले हिस्से को अत्यधिक खींच सकते हैं और यहां तक ​​कि 0 से या इसके निकट बहुत छोटे मूल्यों से आउटलेर भी बना सकते हैंc0

बस, यह सुझाव देने वाले लोग अनुमान लगाते हैं कि (अब आपको कोई भी आधार पसंद है) छोटे सी के लिए x लॉग करने के लिए बहुत समान व्यवहार करना चाहिए , जो स्पष्ट रूप से बड़े x के लिए सही है , लेकिन छोटे x के लिए बिल्कुल भी सही नहीं है । अन्यथा शब्दों में कहें, की ढलान और ढलान ढलान लॉग एक्स के एक समारोह के रूप में एक्स के रूप में एक्स 0 यहाँ काटने बहुत मुश्किल कर सकते हैं।log(x+c)logxcxxlogxxx0

ऐसे परिवर्तनों पर ध्यान देना बेहतर लगता है जो धीरे-धीरे पास और (अन्य, लेकिन संबंधित, कारणों से) x = 1 के पास भिन्न होते हैं ।x=0x=1

xpx=0,10

xp(1x)pp=1/2p=1/3

logit x=logxlog(1x)p0x=0,1p0

01

  • 0.010.02x0.01

  • 0.980.99x0.011x

  • 0.500.51x0.01

01

x=0,1

log(x+0.001)

मैं जिन दो मुख्य बिंदुओं को बनाना चाहता हूं, वे हैं

  1. log(x+c)x

  2. आपके उदाहरण डेटा के लिए, मेरे द्वारा किए गए कोई भी परिवर्तन मदद के लिए नहीं लगता है।

इसी समय, अन्य संभावनाएं समाप्त हो गई हैं। (विशेष रूप से, मैंने वर्गमूल या घनमूल की कोशिश नहीं की, और इस बात पर ज़ोर दिया कि कई अन्य समस्याओं में वे स्पष्ट और गंभीर उम्मीदवार हो सकते हैं।)

01

यहाँ छवि विवरण दर्ज करें

R2=3.7=0.994

यहाँ छवि विवरण दर्ज करें

y610

EDIT: मूल डेटा को यहां प्लॉट किया जा सकता है क्योंकि ओपी ने संक्षेप में डेटा पोस्ट किया था, लेकिन फिर बाद में उन्हें हटा दिया।

मुड़ी हुई शक्तियों का उपयोग करते हुए यहां अन्य धागे शामिल हैं

ट्रांसफ़ॉर्मिंग अनुपात डेटा: जब आर्क्सिन स्क्वायर रूट पर्याप्त नहीं होता है

प्रतिगमन: कम आर वर्ग और उच्च पी-मान के साथ स्कैटरप्लॉट

अत्यधिक तिरछे डेटासेट को प्लॉट करें


उत्कृष्ट उत्तर और बहुत गहन। मुझे लगता है कि मुझे कहना चाहिए कि मेरा Yअनुपात एक अनुपात के बजाय एक अनुपात है, जो कि संभवतः एक काफी अंतर है, इसलिए यह इंगित करना आपके लिए अच्छा था।
बाजीग

जैसा कि मैंने उन्हें परिभाषित किया है अनुपात आनुपातिक हैं। स्पष्टीकरण के लिए धन्यवाद, जिससे मेरे विश्लेषण पर कोई फर्क नहीं पड़ता (यही कारण है कि मैंने इसे एक छोटा विवरण कहा है)।
निक कॉक्स

2
आगे की टिप्पणी: सिद्धांत रूप में, आप विभाजन या चिकनाई का उपयोग करके वक्रता आदि की जांच कर सकते हैं, लेकिन भविष्यवक्ता के सिर्फ 4 अलग स्तरों के साथ यह आसान नहीं है। मैं आपके डेटा के लिए मात्रात्मक प्रतिगमन पर विचार करूंगा।
निक कॉक्स

x2x310x=0,1
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.