क्या इस मामले में x पर y का प्रतिगमन स्पष्ट रूप से x पर y की तुलना में बेहतर है?


10

किसी व्यक्ति के रक्त में ग्लूकोज के स्तर को मापने के लिए इस्तेमाल किया जाने वाला एक उपकरण 10 लोगों के यादृच्छिक नमूने पर नजर रखता है। स्तरों को बहुत सटीक प्रयोगशाला प्रक्रिया का उपयोग करके भी मापा जाता है। इंस्ट्रूमेंट माप को x द्वारा निरूपित किया जाता है। प्रयोगशाला प्रक्रिया उपाय y द्वारा निरूपित किया जाता है।

मुझे व्यक्तिगत रूप से लगता है कि x पर y अधिक सही है क्योंकि प्रयोगशाला रीडिंग की भविष्यवाणी करने के लिए इंस्ट्रूमेंट रीडिंग का उपयोग करने का इरादा है। और x पर y ऐसी भविष्यवाणियों की त्रुटियों को कम करता है।

लेकिन प्रदान किया गया उत्तर y पर x था।


2
साइट पर आपका स्वागत है, @Neo। यदि यह प्रश्न एक कक्षा / पाठ्यपुस्तक अभ्यास से प्रेरित था, तो कृपया [self-study]टैग जोड़ें ।
गंग -

जवाबों:


6

प्रयोगशाला के कागजात के बहुत सारे, विशेष रूप से उपकरण परीक्षण प्रयोगों, y प्रतिगमन पर इस तरह के एक्स को लागू करते हैं।

उनका तर्क है कि प्रयोग में डेटा संग्रह से, वाई की स्थिति नियंत्रित होती है, और इंस्ट्रूमेंट रीडिंग से x प्राप्त करते हैं (इसमें कुछ त्रुटि का परिचय देते हुए)। यह प्रयोग का मूल भौतिक मॉडल है, इसलिए x ~ y + त्रुटि अधिक उपयुक्त है।

प्रयोग त्रुटि को कम करने के लिए, कभी-कभी, एक ही स्थिति पर y नियंत्रित किया जाता है, तो x को कई बार (या दोहराया प्रयोग) के लिए मापा जाता है। यह प्रक्रिया आपको उनके पीछे के तर्क को समझने और x ~ y + त्रुटि को अधिक स्पष्ट रूप से खोजने में मदद कर सकती है।


+1 मुझे लगता है कि अब तक के उत्तर का वास्तव में, यह संभवतः मूल पोस्ट को सबसे अच्छा संबोधित करता है। यह सवाल लगभग निश्चित रूप से एक प्रॉक्सी को कैलिब्रेट करने के बजाय उपकरण को समझने से प्रेरित था। यदि आपके पास प्रत्येक वाई के लिए सिर्फ एक एक्स माप है, तो मुझे पूरा यकीन है (पूरी तरह से टिप्पणी की गई है) कि वाई-ऑन-एक्स एक सही दृष्टिकोण है। मल्टीपल X का नष्ट होना हालांकि, लेकिन X-on-Y अभी भी सही है (लेकिन Y की भविष्यवाणी के लिए उपयोग करने योग्य नहीं है)।
कोरोन

आपको एक समस्या है, @Corone: यदि X बनाम Y और Y बनाम X दोनों सही हैं, तो हम सभी जानते हैं कि जब भी R 2 1 से कम हो , तो आपको अलग- अलग अलग - अलग लाइन मिलें । आप उन दो लाइनों में से किसका चयन करेंगे और किस आधार पर करेंगे? इस दुविधा का सही समाधान यह है कि - जैसा कि विंसेंट बताते हैं - माप त्रुटि की हमारी अवधारणा में एक विषमता है: साधन को प्रशंसनीय त्रुटि से मापा जाता है; माना जाता है कि लैब में कोई सराहनीय त्रुटि नहीं है। साधारण प्रतिगमन प्रक्रियाएं मानती हैं कि X में कोई त्रुटि नहीं है और सभी त्रुटि Y में है, इसलिए इसे सुलझाती है। आर21
whuber

@ वे दोनों सही हैं, लेकिन विभिन्न समस्याओं का जवाब देते हैं। कई एक्स माप के साथ वाई-ऑन-एक्स अब उस समस्या के लिए भी सही नहीं है जिसे इसका जवाब देना चाहिए। मेरी टिप्पणी मूर्खतापूर्ण हो रही है, हालांकि इसके बजाय मेरे जवाब को संपादित करेगा
Korone

6

जैसा कि आम तौर पर होता है, विभिन्न विश्लेषण अलग-अलग सवालों के जवाब देते हैं। दोनों और X  पर  Y यहां मान्य हो सकते हैं, आप बस यह सुनिश्चित करना चाहते हैं कि आपका विश्लेषण उस प्रश्न से मेल खाता है जिसका आप जवाब देना चाहते हैं। (इन पंक्तियों के साथ और अधिक जानने के लिए, आप यहाँ मेरा उत्तर पढ़ना चाह सकते हैं: Y के साथ X और X के साथ Y पर रैखिक प्रतिगमन में क्या अंतर है? )Y पर एक्सएक्स पर Y

आप सही हैं कि यदि आप सभी करना चाहते हैं तो एक एक्स मूल्य के सबसे अधिक संभावित मूल्य के ज्ञान की भविष्यवाणी करना है , तो आप एक्स  पर वाई को पुनः प्राप्त  करेंगे । हालाँकि, यदि आप यह समझना चाहते हैं कि ये उपाय एक-दूसरे से कैसे संबंधित हैं, तो आप त्रुटियों-में-चर दृष्टिकोण का उपयोग करना चाह सकते हैं , क्योंकि आप मानते हैं कि एक्स में माप त्रुटि है । Yएक्सY पर एक्सएक्स

दूसरी ओर, Y  पर (और Y को पूरी तरह से त्रुटि-रहित कहना - एक तथाकथित सोना मानक ) आपको X के माप गुणों का अध्ययन करने की अनुमति देता है । उदाहरण के लिए, आप यह निर्धारित कर सकते हैं कि क्या उपकरण पक्षपाती हो जाता है क्योंकि फ़ंक्शन सीधे या घुमावदार होने का आकलन करके सही मूल्य बढ़ता है (या घटता है)। एक्स पर YYएक्स

जब एक माप उपकरण के गुणों को समझने की कोशिश की जाती है, तो माप त्रुटि की प्रकृति को समझना बहुत महत्वपूर्ण है, और यह करके किया जा सकता है । उदाहरण के लिए, जब होमोसिस्टैसिटी के लिए जाँच की जाती है, तो आप यह निर्धारित कर सकते हैं कि माप त्रुटि निर्माण के सही मूल्य के स्तर के एक फ़ंक्शन के रूप में भिन्न होती है या नहीं। अक्सर उपकरणों के मामले में ऐसा होता है कि इसकी सीमा के मध्य की तुलना में इसकी सीमा के चरम पर अधिक माप त्रुटि होती है (यानी, इसकी 'मीठी जगह'), इसलिए आप इसे निर्धारित कर सकते हैं, या शायद यह निर्धारित कर सकते हैं कि इसका सबसे उपयुक्त क्या है सीमा है। आप राशि का अनुमान भी लगा सकते हैंएक्स पर Yअपने साधन में माप त्रुटि की जड़ के साथ चुकता त्रुटि (अवशिष्ट मानक विचलन); निश्चित रूप से यह मान लिया गया है homoscedasticity, लेकिन आप यह भी पर अंक भिन्न पर अनुमान प्राप्त कर सकते एक चिकनी समारोह फिटिंग, एक तरह के माध्यम से पट्टी , बच गया है। Y

इन विचारों को देखते हुए, मैं अनुमान लगा रहा हूं कि Y  पर  बेहतर है, लेकिन यह निश्चित रूप से इस बात पर निर्भर करता है कि आपके लक्ष्य क्या हैं। एक्स पर Y


+1 पहचानने के लिए कि X पर को पुनः प्राप्त करने के लिए त्रुटियों-में-चर की आवश्यकता होती है और जवाब को वास्तव में विश्लेषण के उद्देश्यों को समझने की आवश्यकता होती है। Yएक्स
whuber

वेरिएबल्स में @whuber त्रुटियाँ भविष्यवाणी के लिए उपयुक्त नहीं हैं। चर में त्रुटियां उपयोगी होती हैं यदि आप किसी रिश्ते की भयावहता को समझना चाहते हैं, लेकिन एक्स और वाई में माप त्रुटियां हैं। भविष्यवाणी के लिए, एक्स "त्रुटि के बिना जाना जाता है" इसलिए जब तक यह आपके प्रशिक्षण सेट में उसी तरीके से एकत्र नहीं किया जाता है भविष्यवाणी सेट।
कोरोन

@Corone आप सही हैं कि त्रुटियां-चर भविष्यवाणी के लिए अच्छा नहीं है, लेकिन यह वह नहीं है जिसकी सिफारिश की जा रही है, जहां तक ​​मैं बता सकता हूं। वास्तव में, यह ठीक यही है कि किसी को वास्तव में प्रयोगशाला के खिलाफ साधन को पुनः प्राप्त करने की आवश्यकता होती है (जो केवल ओएलएस का उपयोग करता है) और आसपास का दूसरा तरीका नहीं। कृपया इस धागे की एक और टिप्पणी में ड्रेपर एंड स्मिथ संदर्भ का हवाला दें। मैं दूसरे संस्करण के खंड 1.7 पर भरोसा कर रहा हूं।
whuber

@Corone, आप भविष्यवाणी / त्रुटियों-में-चर के बारे में सही हैं, लेकिन यह बिल्कुल वैसा नहीं है जैसा कि मेरा कहने का मतलब है। मैं इसे उद्धृत करने के बेहतर तरीके के बारे में सोचने की कोशिश करूँगा।
गूँग - मोनिका

4

भविष्यवाणी और पूर्वानुमान

हां, आप सही हैं, जब आप इसे भविष्यवाणी की समस्या के रूप में देखते हैं, तो एक वाई-ऑन-एक्स प्रतिगमन आपको एक मॉडल देगा, जिसमें एक उपकरण माप दिया गया है, जिससे आप लैब की प्रक्रिया किए बिना सटीक प्रयोगशाला माप का निष्पक्ष अनुमान लगा सकते हैं ।

एक और तरीका रखो, अगर तुम सिर्फ तब आप Y-on-X रिग्रेशन चाहते हैं।[Y|एक्स]

यह प्रति-सहज लग सकता है क्योंकि त्रुटि संरचना "वास्तविक" नहीं है। मान लें कि लैब विधि एक स्वर्ण मानक त्रुटि मुक्त विधि है, तो हम "डेटा" जानते हैं कि सच्चा डेटा-जेनरेटर मॉडल है

एक्समैं=βYमैं+εमैं

जहां और ε मैं कर रहे हैं स्वतंत्र हूबहू वितरण, और [ ε ] = 0Yमैंεमैं[ε]=0

हम का सबसे अच्छा अनुमान प्राप्त करने में रुचि कर रहे हैं । हमारी स्वतंत्रता की धारणा के कारण हम उपरोक्त व्यवस्था कर सकते हैं:[Yमैं|एक्समैं]

Yमैं=एक्समैं-εβ

अब, यह देखते हुए अपेक्षाओं को ले जा रही वह जगह है जहाँ बातें बालों मिलएक्समैं

[Yमैं|एक्समैं]=1βएक्समैं-1β[εमैं|एक्समैं]

समस्या यह है पद - क्या यह शून्य के बराबर है? यह वास्तव में मायने नहीं रखता है, क्योंकि आप इसे कभी नहीं देख सकते हैं, और हम केवल रेखीय शब्दों को मॉडलिंग कर रहे हैं (या तर्क जो भी आप मॉडलिंग कर रहे हैं, उसके लिए विस्तारित होते हैं)। Depend और X के बीच कोई निर्भरता बस उस स्थिरांक में अवशोषित की जा सकती है जिसका हम अनुमान लगा रहे हैं।[εमैं|एक्समैं]εएक्स

स्पष्ट रूप से, सामान्यता के नुकसान के बिना हम कर सकते हैं

εमैं=γएक्समैं+ηमैं

जहाँ परिभाषा के अनुसार, ताकि अब हमारे पास है[ηमैं|एक्स]=0

Yमैं=1βएक्समैं-γβएक्समैं-1βηमैं

Yमैं=1-γβएक्समैं-1βηमैं

जो ओएलएस की सभी आवश्यकताओं को पूरा करता है, क्योंकि अब बहिर्जात है। यह थोड़ी सी में कोई फर्क नहीं पड़ता कि त्रुटि अवधि भी एक होता है β न के बाद से β और न ही σ वैसे भी जाना जाता है और अनुमान लगाया जाना चाहिए। इसलिए हम उन स्थिरांक को नए के साथ बदल सकते हैं और सामान्य दृष्टिकोण का उपयोग कर सकते हैंηββσ

Yमैं=αएक्समैं+ηमैं

β

साधन विश्लेषण

जिस व्यक्ति ने आपको यह प्रश्न निर्धारित किया है, वह स्पष्ट रूप से ऊपर का जवाब नहीं चाहता था क्योंकि वे कहते हैं कि X-on-Y सही तरीका है, इसलिए वे ऐसा क्यों चाहते हैं? सबसे अधिक संभावना है कि वे उपकरण को समझने के कार्य पर विचार कर रहे थे। जैसा कि विंसेंट के जवाब में चर्चा की गई है, यदि आप जानना चाहते हैं कि वे चाहते हैं कि उपकरण व्यवहार करे, तो एक्स-ऑन-वाई जाने का रास्ता है।

उपरोक्त पहले समीकरण पर वापस जा रहे हैं:

एक्समैं=βYमैं+εमैं

[एक्समैं|Yमैं]=Yमैंएक्सβ

संकोचन

Y[Y|एक्स]γ[Y|एक्स]Y। इसके बाद यह प्रतिगमन-दर-मध्यमान और अनुभवजन्य खाड़ी जैसी अवधारणाओं की ओर जाता है।

R में एक उदाहरण उदाहरण के लिए जो कुछ चल रहा है उसे महसूस करने के लिए कुछ डेटा बनाना और विधियों को आज़माना है। नीचे दिए गए कोड की भविष्यवाणी और अंशांकन के लिए Y-on-X के साथ X-on-Y की तुलना की जाती है और आप जल्दी से देख सकते हैं कि X-on-Y भविष्यवाणी मॉडल के लिए अच्छा नहीं है, लेकिन अंशांकन के लिए सही प्रक्रिया है।

library(data.table)
library(ggplot2)

N = 100
beta = 0.7
c = 4.4

DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]

YonX = DT[, lm(Y~X)]   # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)]   # X = beta_1 Y + beta_0 + epsilon


YonX.c = YonX$coef[1]   # c = alpha_0
YonX.m = YonX$coef[2]   # m = alpha_1

# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1

XonY.c = -XonY$coef[1]/XonY$coef[2]      # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2]  # m = 1/ beta_1

ggplot(DT, aes(x = X, y =Y)) + geom_point() +  geom_abline(intercept = YonX.c, slope = YonX.m, color = "red")  +  geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")

# Generate a fresh sample

DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]

DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]

cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])

# Generate lots of samples at the same Y

DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]

DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]

cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])

ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")

दो प्रतिगमन लाइनों को डेटा पर प्लॉट किया जाता है

यहां छवि विवरण दर्ज करें

और फिर वाई के लिए वर्गों की त्रुटि का योग एक नए नमूने पर दोनों फिट के लिए मापा जाता है।

> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction:  77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction:  183.0144

वैकल्पिक रूप से एक नमूना निश्चित Y (इस मामले में 4) में उत्पन्न किया जा सकता है और फिर उन अनुमानों का औसत लिया जा सकता है। अब आप देख सकते हैं कि वाई-ऑन-एक्स प्रेडिक्टर अच्छी तरह से कैलिब्रेटेड नहीं है, जो वाई की तुलना में काफी कम है। एक्स-ऑन-वाई प्रेडिक्टर, वाई के करीब एक अपेक्षित मूल्य होने पर अच्छी तरह से कैलिब्रेटेड है।

> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4:  1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4:  3.465205

दो भविष्यवाणी का वितरण एक घनत्व प्लॉट में देखा जा सकता है।

यहां छवि विवरण दर्ज करें


Yएक्सएक्स

3
Y=β0+β1एक्स+εवार(ε)=σ2एक्स=(Y-β0-ε)/β1एक्स=α0+α1Y+δवार(δ)=σ2α12σ2

1
β

2
वाई लोगों की आबादी पर एक यादृच्छिक चर हो सकता है, लेकिन किसी भी व्यक्ति के लिए यह अनुमानित पैरामीटर है। X पर Y को पुनःप्राप्त करने से समूह की ओर Y का प्रत्येक अनुमान सिकुड़ जाता है, जो लोगों पर औसत वर्ग त्रुटि को कम करता है लेकिन व्यवस्थित पूर्वाग्रह बनाता है जो नैतिक या कानूनी कारणों से अस्वीकार्य हो सकता है। Y पर X को पुनःप्राप्त करने से वह जानकारी मिलती है, जिसका उपयोग प्रत्येक व्यक्ति के Y के लिए एक निष्पक्ष आत्मविश्वास अंतराल का निर्माण करने के लिए किया जा सकता है, लेकिन वे अंतराल चौड़े होने लगते हैं, जैसे कि भूखंड में नीले क्षेत्र, जबकि X पर Y को पुन: प्राप्त करने का पूर्वानुमान अंतराल संकीर्ण लेकिन पक्षपाती है , लाल की तरह।
रे कोपमैन

1
@RayKoopman इसे डालने का एक शानदार तरीका है! हां - X पर Y अलग-अलग Ys के औसत पर सबसे अच्छी भविष्यवाणी पाने के बारे में है, जबकि अंशांकन एक व्यक्ति Y के लिए निष्पक्ष और निष्पक्ष होने के बारे में है।
Korone

2

यह एक्स के विचरण और साधारण लेस्टर वर्ग के लिए वाई के विचरण के बारे में आपकी धारणाओं पर निर्भर करता है। यदि Y के पास विचरण का एकमात्र स्रोत है और X के पास शून्य विचरण है, तो Y का अनुमान लगाने के लिए X का उपयोग करें। यदि धारणाएं दूसरे तरीके से हैं (X में केवल भिन्नता है और Y में शून्य विचरण है), तो X का अनुमान लगाने के लिए Y का उपयोग करें।

यदि X और Y दोनों को विचलन माना जाता है, तो आपको कुल लिस्टर वर्गों पर विचार करने की आवश्यकता हो सकती है ।

इस लिंक पर टीएलएस का एक अच्छा विवरण लिखा गया था । पेपर ट्रेडिंग की ओर अग्रसर है, लेकिन धारा 3 टीएलएस का वर्णन करने का अच्छा काम करता है।

1 संपादित करें (09/10/2013) ============================================ ======

मैंने मूल रूप से यह मान लिया था कि यह किसी प्रकार का होमवर्क समस्या थी, इसलिए मुझे ओपी के प्रश्न के "उत्तर" के बारे में वास्तविक विशिष्ट नहीं मिला। लेकिन, अन्य उत्तरों को पढ़ने के बाद, ऐसा लगता है कि थोड़ा और विस्तृत होना ठीक है।

ओपी के सवाल का हिस्सा उद्धृत:

".... स्तर भी बहुत सटीक प्रयोगशाला प्रक्रिया का उपयोग करके मापा जाता है ...."

उपरोक्त कथन में कहा गया है कि दो माप हैं, एक उपकरण से और एक प्रयोगशाला प्रक्रिया से। बयान का यह भी अर्थ है कि प्रयोगशाला प्रक्रिया के लिए विचरण साधन के लिए विचरण की तुलना में कम है।

ओपी के प्रश्न का एक और उद्धरण है:

".... प्रयोगशाला प्रक्रिया उपाय y द्वारा निरूपित किया जाता है ....."

इसलिए, उपरोक्त दो कथनों में, Y का निम्न रूप है। तो, एक्स-अनुमान लगाने के लिए वाई का उपयोग करने के लिए सबसे कम त्रुटि-प्रवण तकनीक है। "प्रदान किया गया उत्तर" सही था।


1
एक्सY

नहीं, विचलन का विकल्प इस आधार पर नहीं बनाया जाना चाहिए कि विचरण कहाँ है - इसे उस प्रश्न के आधार पर बनाया जाना चाहिए जिसका आप उत्तर देने का प्रयास कर रहे हैं। आप TLS का उपयोग करते हैं Y दिया एक्स के लिए एक भविष्यवाणी मॉडल के निर्माण के लिए आप होगा गलत हो। टीएलएस और इसी तरह की त्रुटियां-में-चर मॉडल सभी अंतर्निहित चर / प्रक्रियाओं के बीच वास्तविक संबंध को समझने के बारे में हैं
कोरोन

1
@Corone हालांकि आप सही हैं कि किसी का उद्देश्य सांख्यिकीय प्रक्रियाओं की पसंद को निर्देशित करता है, प्रक्रिया को प्रायिकता मॉडल ("जहां विचरण है") के लिए उपयुक्त होना चाहिए। यदि आपका उद्देश्य उच्च-विचरण साधन रीडिंग से लैब रीडिंग की भविष्यवाणी करना है, तो निश्चित रूप से इसके लिए उपयुक्त प्रक्रिया का चयन करें: लेकिन यह प्रक्रिया सामान्य से कम वर्ग फिट और इसके विचरण अनुमानों का उपयोग करते हुए भविष्यवाणी नहीं है
whuber

1
@ कोरोन - मैं सहमत हूं कि प्रतिगमन तकनीक उस प्रश्न पर आधारित होनी चाहिए जिसका आप उत्तर देने का प्रयास कर रहे हैं, हालांकि चयनित तकनीक में चरों के विचलन के बारे में धारणाएं हैं। यदि चयन की भिन्नताएं मॉडल के लिए आपकी अवधारणा से मेल नहीं खाती हैं, तो आपने गलत तकनीक का चयन किया है। इसलिए मैंने 3 संभावनाओं को सूचीबद्ध किया (शून्य का अनुमान लगाने के लिए शून्य एक्स संस्करण, शून्य का अनुमान लगाने के लिए शून्य वाई संस्करण; या गैर-शून्य एक्स और वाई संस्करण)।
बिल_080
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.