डेटा ट्रांसफ़ॉर्म करने से बचने के लिए नुकसान?


15

मैंने प्रतिक्रिया को दोगुना करने के बाद अपने X और Y चर के बीच एक मजबूत रैखिक संबंध प्राप्त किया । मॉडल था YX लेकिन मैं यह करने के लिए बदल YXX में सुधारR2.76 करने के लिए .19 से।

स्पष्ट रूप से मैंने इस रिश्ते पर कुछ अच्छी सर्जरी की। क्या कोई ऐसा करने के नुकसान पर चर्चा कर सकता है, जैसे कि अत्यधिक परिवर्तन के खतरे या सांख्यिकीय सिद्धांतों के संभावित उल्लंघन?


1
से तुम्हारे पास क्या है, अकेले बीजगणित से यह सिर्फ तरह लग रहा है । क्या आप डेटा पोस्ट कर सकते हैं या ग्राफ़ दिखा सकते हैं? क्या वाई = 0 की उम्मीद करने के वैज्ञानिक कारण हैं जब एक्स = ? YX2Y=0X=0
निक कॉक्स

1
@NickCox: मुझे लगता है के लिए अपरंपरागत अंकन है Y = β 0 + β 1 एक्स ; शायद ओपी गणित के बजाय आर बोल रहे हैं (कुछ को निश्चित रूप से हतोत्साहित करना)। YXEY=β0+β1X
Scortchi - को पुनः स्थापित मोनिका

@Scortchi मुझे डर है कि आप सही हैं। डेटा को देखने से किसी भी तरह से मदद मिलेगी।
निक कॉक्स

इस स्थिति में एक 0 X का मतलब 0 Y होगा, क्योंकि Y मौतें चला रहा है और X कुल KM सभी ड्राइवरों द्वारा संचालित है।
Info5ek

2
@AaronHall समीकरण जरूरी बेकार नहीं है , क्योंकि ( द्वारा वापस गुणा करना) यह हैXहै, जो अच्छी तरह से कुछ स्थितियों में एक संभावित प्रशंसनीय मॉडल हो सकता है)। हालाँकिप्रश्न में दिए गए समीकरण के रूप मेंआर2बहुत उपयोग नहीं है, आप इसकी तुलना एक अलग पैमाने पर फिट की गई चीज़ से नहीं कर सकते। (संयोग से, यदि वह मेरे उत्तर पर आपकी नीचता थी, तो आपको जो उत्तर में गलत लगता है उसका स्पष्टीकरण उपयोगी होगा।)Y=β0X+β1X+XϵR2
Glen_b -Reinstate Monica

जवाबों:


20

आप वास्तव में तुलना पहले और बाद में नहीं कर सकते , क्योंकि Y में अंतर्निहित परिवर्तनशीलता अलग है। तो आप सचमुच आर 2 में बदलाव से जो भी आराम कर सकते हैं ले सकते हैंR2YR2 । यह आपको दो मॉडलों की तुलना करने में कोई मूल्य नहीं बताता है।

दो मॉडल कई मायनों में अलग-अलग हैं, इसलिए उनका मतलब अलग-अलग चीजों से है - वे रिश्ते के आकार और त्रुटि शब्द की परिवर्तनशीलता (जब और एक्स के बीच संबंधों के संदर्भ में विचार किया जाता है) के बारे में बहुत अलग चीजें मानते हैं । इसलिए यदि आप Y मॉडलिंग में रुचि रखते हैं (यदि Y स्वयं सार्थक है), तो उसके लिए एक अच्छा मॉडल तैयार करें। यदि आप मॉडलिंग में रुचि रखते हैं YXYY (/Y सार्थक है), उसके लिए एक अच्छा मॉडल तैयार करें। यदिY अर्थ होता है, उसके लिए एक अच्छा मॉडल बनाना। लेकिन किसी भी प्रतिस्पर्धी मॉडल की तुलना तराजू पर करें। आर2Y/XR2विभिन्न प्रतिक्रियाओं पर बस तुलनीय नहीं हैं।

यदि आप उच्च आर 2 के साथ रूपांतरण खोजने की आशा में विभिन्न संबंधों की कोशिश कर रहे हैंR2 - या 'अच्छा फिट' के किसी भी अन्य उपाय - आपके द्वारा किए जाने वाले किसी भी अनुमान के गुण अस्तित्व के प्रभाव से प्रभावित होंगे। वह खोज प्रक्रिया।

अनुमान शून्य से पक्षपाती होंगे, मानक त्रुटियां बहुत कम होंगी, पी-मान बहुत छोटा होगा, आत्मविश्वास अंतराल कम होगा। आपके मॉडल औसत रूप से 'बहुत अच्छे' प्रतीत होंगे (इस अर्थ में कि उनके आउट-ऑफ-सैंपल व्यवहार इन-सैंपल व्यवहार की तुलना में निराशाजनक होगा)।

इस तरह के ओवरफिटिंग से बचने के लिए, आपको डेटा के विभिन्न सबसेट पर मॉडल-पहचान और आकलन करने के लिए (और किसी तीसरे पर मॉडल मूल्यांकन) की आवश्यकता है। यदि आप यादृच्छिक पर लिए गए डेटा के कई "विभाजन" पर इस तरह की प्रक्रिया को दोहराते हैं, तो आप बेहतर तरीके से समझ सकते हैं कि आपके परिणाम कितने प्रतिलिपि प्रस्तुत करने योग्य हैं।

इन मुद्दों पर प्रासंगिक बिंदुओं के साथ यहां कई पोस्ट हैं: यह कुछ खोजों की कोशिश करने के लायक हो सकता है।

(यदि आपके पास अच्छा है किसी विशेष परिवर्तन को चुनने के लिए एक प्राथमिक कारण है , तो यह एक अलग मुद्दा है। लेकिन कुछ को खोजने के लिए परिवर्तनों के स्थान की खोज करना फिट बैठता है जो सभी तरह के 'डेटा स्नूपिंग' प्रकार की समस्याओं को वहन करता है।)


प्रतिक्रिया के लिए धन्यवाद ग्लेन। मैंने यह परिवर्तन इसलिए किया क्योंकि इसका एकमात्र कारण मुझे पक्षपाती अवशिष्ट नहीं था। मैंने मानक y / x, log (y), sqrt (y) और उन के विभिन्न संयोजनों की कोशिश की। सभी एक ढलान वाले अवशिष्ट भूखंड में परिणत हुए। दो चरण में परिवर्तन करने के बाद ही मुझे अवशिष्ट दिखने वाले अवशिष्ट मिले। हालाँकि, आप कहते हैं कि यह मॉडल आउट-ऑफ-सैंपल डेटा के लिए संभावित रूप से एकरूप है, क्योंकि मेरे पास डेटा को सही से ओवरफिट हो सकता है, सही है?
Info5ek

ठीक है, हाँ, लेकिन यह डेटा को देखते समय किसी भी रूप में मॉडल-विनिर्देश के साथ एक समस्या है, इसलिए यह बहुत कुछ होता है। कई स्थितियों में यह बचना मुश्किल है, जहां नमूना-विभाजन में आ सकता है (क्रॉस-सत्यापन ऐसी स्थितियों के लिए एक उपयोगी उपकरण हो सकता है।)
Glen_b -Reinstate Monica

यह गिरावट के कारणों को जानने के लिए उपयोगी होगा। उत्तर में गलत क्या है? शायद इसमें सुधार किया जा सकता है। (अगर इसमें सुधार नहीं किया जा सकता, तो
डाउनवोट

1
@Glen_b: एक बीमार परिभाषित प्रक्रिया को पार करने के लिए मुश्किल - हालांकि, प्रत्येक तह में आपको डायग्नोस्टिक्स को देखने की प्रक्रिया को दोहराना होगा, जब आप उन्हें पसंद नहीं करते हैं, तो एक और परिवर्तन की कोशिश करते हुए, और इसी तरह।
Scortchi - को पुनः स्थापित मोनिका

1
@Scortchi हाँ, यदि कुछ सरल नियम द्वारा प्रत्याशियों के ज्ञात पूल से परिवर्तनों का चयन नहीं किया जा रहा है, तो यह असंभव हो सकता है।
Glen_b -Reinstate मोनिका

16

@Glen_b द्वारा पहचाने गए लोगों की तुलना में एक बड़ी समस्या है।

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

और मुझे 0.49 का और एक P- मान जो 5.5 × 10 है -R25.5×1016

समीकरण के दोनों तरफ आपके पास है।X


2
सुनिश्चित नहीं है कि मॉडल को एक दूसरे के बजाय एक तरीके से व्यक्त करने के लिए एक अच्छा कारण नहीं होने के लिए एक अलग समस्या है। यदि आप &Z=W=YX तो आप बस के रूप में अच्छी तरह से कह सकते हैं कि पहला मॉडल (Y~एक्स) हैजेड2समीकरण के दोनों किनारों पर। Z=XYXZ2
Scortchi - को पुनः स्थापित मोनिका

4
यदि & Z यादृच्छिक शोर है, तो X पर Y को पुनः प्राप्त करना एक मजबूत संबंध देता है। विषमता का अर्थ यह है कि एक प्रतिगमन के बजाय दूसरे के बजाय एक प्रतिगमन को लेबल करता है जो चर का मतलब क्या है? इस तरह की बात पियर्सन और यूल ( एल्ड्रिच (1995) ) और यूल के बीच की बहस के बीच हुई थी : जो कि स्पुरियस सहसंबंध नहीं है, लेकिन उस संबंध के आधार पर एक कारण संबंध का दावा है। WZYX
Scortchi - को पुनः स्थापित मोनिका

1
हाँ, लेकिन यहाँ, प्रतिगमन इससे कोई फर्क नहीं जो चर हैं एक्स और वाई करता है के साथ शुरू किया, तो बात करने के लिए, चर?
पीटर Flom - को पुनः स्थापित मोनिका

2
यह नहीं देख सकता है कि @Glen_b के रूप में insofar को छोड़कर, यह उसके पहले वाक्य में क्यों इंगित करता है, यदि आपका लक्ष्य भविष्यवाणी करना था , तो W के लिए एक मॉडल के निर्धारण का एक उच्च गुणांक कौवा के बारे में कुछ भी नहीं है। और निश्चित रूप से अगर आपके पास मजबूत विचार हैं कि त्रुटि शब्द कैसा दिखता है, तो एक मॉडल दूसरे की तुलना में अधिक ट्रैक्टेबल है। YW
Scortchi - को पुनः स्थापित मोनिका

4
आप W & Z, @Scortchi के बारे में एक अच्छी बात उठाते हैं, लेकिन यह मुझे लगता है कि यह मायने रखता है कि आप उन चरों पर विचार करते हैं जिनकी आप परवाह करते हैं, और एक बेहतर मॉडल प्राप्त करने के लिए आपने जो चर बनाए हैं। जो वास्तविक चर हैं वे एक्स आदि के अर्थ से निर्धारित होते हैं, जो मूल प्रश्न के संदर्भ में होते हैं। मैं इस पाठ से अनुमान लगाता हूं कि ओपी रिश्ते को समझना चाहता है b / t X & Y, और मॉडल को बेहतर बनाने के लिए W & Z बनाया। यानी, इस ठोस मामले में, मुझे लगता है कि पीटर सही हैं, आप दोनों तरफ एक्स लगाकर अपने मॉडल को बेहतर बनाने की कोशिश नहीं कर सकते।
गूँग - मोनिका

4

@ पीटर के उदाहरण में दो तत्व हैं, जो इसे असंगत करने के लिए उपयोगी हो सकते हैं:

(1) मॉडल गलत विनिर्देशन। मॉडल

yi=β0+β1xi+εi(1)

और

wi=γ0+γ1zi+ζi(2)

wi=yixizi=xi

wi=β0zi2+β1+εizi2(1)

yi=(γ0xi+γ1xi+ζixi)2(2)

If Y is assumed to be a Gaussian random variable independent of X, then that's a special case of Model 1 in which β1=0, & you shouldn't be using Model 2. But equally if W is assumed to be a Gaussian random variable independent of Z, you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.

(2) Transformation of the response. If you knew Y & X to be independent Gaussian random variables, why should the relation between W & Z still surprise you, or would you call it spurious? The conditional expectation of W can be approximated with the delta method:

EYx=EYzβ0+VarY8β03/2z

It is indeed a function of z.

Following through the example ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

enter image description here

Neither Model 1 nor Model 2 is much use for predicting y from x, but both are all right for predicting w from z: mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of w against z, might be tempted to think that intervening to increase z will reduce w—we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.

Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.


3

The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results in R2 that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.