डेटा ट्रांसफ़ॉर्म करने से बचने के लिए नुकसान?

15

मैंने प्रतिक्रिया को दोगुना करने के बाद अपने $X$ और $Y$ चर के बीच एक मजबूत रैखिक संबंध प्राप्त किया । मॉडल था $Y\sim X$ लेकिन मैं यह करने के लिए बदल $\sqrt{\frac{Y}{X}}\sim \sqrt{X}$ में सुधार $R^2$ .76 करने के लिए .19 से।

स्पष्ट रूप से मैंने इस रिश्ते पर कुछ अच्छी सर्जरी की। क्या कोई ऐसा करने के नुकसान पर चर्चा कर सकता है, जैसे कि अत्यधिक परिवर्तन के खतरे या सांख्यिकीय सिद्धांतों के संभावित उल्लंघन?

regression data-transformation r-squared

— Info5ek
स्रोत

1

से तुम्हारे पास क्या है, अकेले बीजगणित से यह सिर्फ तरह लग रहा है

। क्या आप डेटा पोस्ट कर सकते हैं या ग्राफ़ दिखा सकते हैं? क्या

उम्मीद करने के वैज्ञानिक कारण हैं जब

?

Y \propto X^{2}

$Y \propto X^2$

Y = 0

$Y = 0$

X = 0

$X = 0$

— निक कॉक्स

1

@NickCox: मुझे लगता है

के लिए अपरंपरागत अंकन है

; शायद ओपी गणित के बजाय आर बोल रहे हैं (कुछ को निश्चित रूप से हतोत्साहित करना)।

Y \sim X

$Y\sim X$

E Y = β_{0} + β_{1} X

$\mathrm{E} Y=\beta_0 + \beta_1 X$

— Scortchi - को पुनः स्थापित मोनिका

@Scortchi मुझे डर है कि आप सही हैं। डेटा को देखने से किसी भी तरह से मदद मिलेगी।

— निक कॉक्स

इस स्थिति में एक 0 X का मतलब 0 Y होगा, क्योंकि Y मौतें चला रहा है और X कुल KM सभी ड्राइवरों द्वारा संचालित है।

— Info5ek

2

@AaronHall समीकरण जरूरी बेकार नहीं है , क्योंकि (

द्वारा वापस गुणा करना)

यह है

\sqrt{X}

$\sqrt X$

है, जो अच्छी तरह से कुछ स्थितियों में एक संभावित प्रशंसनीय मॉडल हो सकता है)। हालाँकिप्रश्न में दिए गए समीकरण के रूप में

बहुत उपयोग नहीं है, आप इसकी तुलना एक अलग पैमाने पर फिट की गई चीज़ से नहीं कर सकते। (संयोग से, यदि वह मेरे उत्तर पर आपकी नीचता थी, तो आपको जो उत्तर में गलत लगता है उसका स्पष्टीकरण उपयोगी होगा।)

\sqrt{Y} = β_{0} \sqrt{X} + β_{1} X + \sqrt{X} ϵ

$\sqrt Y = \beta_0 \sqrt X + \beta_1 X + \sqrt X\epsilon$

R^{2}

$R^2$

— Glen_b -Reinstate Monica

20

आप वास्तव में तुलना पहले और बाद में नहीं कर सकते , क्योंकि में अंतर्निहित परिवर्तनशीलता अलग है। तो आप सचमुच में बदलाव से जो भी आराम कर सकते हैं ले सकते हैं $R^2$ $Y$ $R^2$ । यह आपको दो मॉडलों की तुलना करने में कोई मूल्य नहीं बताता है।

दो मॉडल कई मायनों में अलग-अलग हैं, इसलिए उनका मतलब अलग-अलग चीजों से है - वे रिश्ते के आकार और त्रुटि शब्द की परिवर्तनशीलता (जब और बीच संबंधों के संदर्भ में विचार किया जाता है) के बारे में बहुत अलग चीजें मानते हैं । इसलिए यदि आप मॉडलिंग में रुचि रखते हैं (यदि स्वयं सार्थक है), तो उसके लिए एक अच्छा मॉडल तैयार करें। यदि आप मॉडलिंग में रुचि रखते हैं $Y$ $X$ $Y$ $Y$ (/ $\sqrt Y$ सार्थक है), उसके लिए एक अच्छा मॉडल तैयार करें। यदि $\sqrt Y$ अर्थ होता है, उसके लिए एक अच्छा मॉडल बनाना। लेकिन किसी भी प्रतिस्पर्धी मॉडल की तुलना तराजू पर करें। $\sqrt{Y/X}$ $R^2$ विभिन्न प्रतिक्रियाओं पर बस तुलनीय नहीं हैं।

यदि आप उच्च साथ रूपांतरण खोजने की आशा में विभिन्न संबंधों की कोशिश कर रहे हैं $R^2$ - या 'अच्छा फिट' के किसी भी अन्य उपाय - आपके द्वारा किए जाने वाले किसी भी अनुमान के गुण अस्तित्व के प्रभाव से प्रभावित होंगे। वह खोज प्रक्रिया।

अनुमान शून्य से पक्षपाती होंगे, मानक त्रुटियां बहुत कम होंगी, पी-मान बहुत छोटा होगा, आत्मविश्वास अंतराल कम होगा। आपके मॉडल औसत रूप से 'बहुत अच्छे' प्रतीत होंगे (इस अर्थ में कि उनके आउट-ऑफ-सैंपल व्यवहार इन-सैंपल व्यवहार की तुलना में निराशाजनक होगा)।

इस तरह के ओवरफिटिंग से बचने के लिए, आपको डेटा के विभिन्न सबसेट पर मॉडल-पहचान और आकलन करने के लिए (और किसी तीसरे पर मॉडल मूल्यांकन) की आवश्यकता है। यदि आप यादृच्छिक पर लिए गए डेटा के कई "विभाजन" पर इस तरह की प्रक्रिया को दोहराते हैं, तो आप बेहतर तरीके से समझ सकते हैं कि आपके परिणाम कितने प्रतिलिपि प्रस्तुत करने योग्य हैं।

इन मुद्दों पर प्रासंगिक बिंदुओं के साथ यहां कई पोस्ट हैं: यह कुछ खोजों की कोशिश करने के लायक हो सकता है।

(यदि आपके पास अच्छा है किसी विशेष परिवर्तन को चुनने के लिए एक प्राथमिक कारण है , तो यह एक अलग मुद्दा है। लेकिन कुछ को खोजने के लिए परिवर्तनों के स्थान की खोज करना फिट बैठता है जो सभी तरह के 'डेटा स्नूपिंग' प्रकार की समस्याओं को वहन करता है।)

— Glen_b -Reinstate मोनिका
स्रोत

प्रतिक्रिया के लिए धन्यवाद ग्लेन। मैंने यह परिवर्तन इसलिए किया क्योंकि इसका एकमात्र कारण मुझे पक्षपाती अवशिष्ट नहीं था। मैंने मानक y / x, log (y), sqrt (y) और उन के विभिन्न संयोजनों की कोशिश की। सभी एक ढलान वाले अवशिष्ट भूखंड में परिणत हुए। दो चरण में परिवर्तन करने के बाद ही मुझे अवशिष्ट दिखने वाले अवशिष्ट मिले। हालाँकि, आप कहते हैं कि यह मॉडल आउट-ऑफ-सैंपल डेटा के लिए संभावित रूप से एकरूप है, क्योंकि मेरे पास डेटा को सही से ओवरफिट हो सकता है, सही है?

— Info5ek

ठीक है, हाँ, लेकिन यह डेटा को देखते समय किसी भी रूप में मॉडल-विनिर्देश के साथ एक समस्या है, इसलिए यह बहुत कुछ होता है। कई स्थितियों में यह बचना मुश्किल है, जहां नमूना-विभाजन में आ सकता है (क्रॉस-सत्यापन ऐसी स्थितियों के लिए एक उपयोगी उपकरण हो सकता है।)

— Glen_b -Reinstate Monica

यह गिरावट के कारणों को जानने के लिए उपयोगी होगा। उत्तर में गलत क्या है? शायद इसमें सुधार किया जा सकता है। (अगर इसमें सुधार नहीं किया जा सकता, तो

— डाउनवोट

1

@Glen_b: एक बीमार परिभाषित प्रक्रिया को पार करने के लिए मुश्किल - हालांकि, प्रत्येक तह में आपको डायग्नोस्टिक्स को देखने की प्रक्रिया को दोहराना होगा, जब आप उन्हें पसंद नहीं करते हैं, तो एक और परिवर्तन की कोशिश करते हुए, और इसी तरह।

— Scortchi - को पुनः स्थापित मोनिका

1

@Scortchi हाँ, यदि कुछ सरल नियम द्वारा प्रत्याशियों के ज्ञात पूल से परिवर्तनों का चयन नहीं किया जा रहा है, तो यह असंभव हो सकता है।

— Glen_b -Reinstate मोनिका

16

@Glen_b द्वारा पहचाने गए लोगों की तुलना में एक बड़ी समस्या है।

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

और मुझे 0.49 का और एक P- मान जो $R^2$ $5.5 \times 10^{-16}$ ।

समीकरण के दोनों तरफ आपके पास है। $X$

— पीटर Flom - को पुनः स्थापित मोनिका
स्रोत

2

सुनिश्चित नहीं है कि मॉडल को एक दूसरे के बजाय एक तरीके से व्यक्त करने के लिए एक अच्छा कारण नहीं होने के लिए एक अलग समस्या है। यदि आप

&

W = \sqrt{\frac{Y}{X}}

$W=\sqrt{\frac{Y}{X}}$

तो आप बस के रूप में अच्छी तरह से कह सकते हैं कि पहला मॉडल (

) है

समीकरण के दोनों किनारों पर।

Z = \sqrt{X}

$Z=\sqrt{X}$

Y \sim X

$Y\sim X$

Z^{2}

$Z^2$

— Scortchi - को पुनः स्थापित मोनिका

4

यदि

&

यादृच्छिक शोर है, तो

पर

को पुनः प्राप्त करना एक मजबूत संबंध देता है। विषमता का अर्थ यह है कि एक प्रतिगमन के बजाय दूसरे के बजाय एक प्रतिगमन को लेबल करता है जो चर का मतलब क्या है? इस तरह की बात पियर्सन और यूल ( एल्ड्रिच (1995) ) और यूल के बीच की बहस के बीच हुई थी : जो कि स्पुरियस सहसंबंध नहीं है, लेकिन उस संबंध के आधार पर एक कारण संबंध का दावा है।

W

$W$

Z

$Z$

Y

$Y$

X

$X$

— Scortchi - को पुनः स्थापित मोनिका

1

हाँ, लेकिन यहाँ, प्रतिगमन इससे कोई फर्क नहीं जो चर हैं एक्स और वाई करता है के साथ शुरू किया, तो बात करने के लिए, चर?

— पीटर Flom - को पुनः स्थापित मोनिका

2

यह नहीं देख सकता है कि @Glen_b के रूप में insofar को छोड़कर, यह उसके पहले वाक्य में क्यों इंगित करता है, यदि आपका लक्ष्य

भविष्यवाणी करना था , तो

लिए एक मॉडल के निर्धारण का एक उच्च गुणांक कौवा के बारे में कुछ भी नहीं है। और निश्चित रूप से अगर आपके पास मजबूत विचार हैं कि त्रुटि शब्द कैसा दिखता है, तो एक मॉडल दूसरे की तुलना में अधिक ट्रैक्टेबल है।

Y

$Y$

W

$W$

— Scortchi - को पुनः स्थापित मोनिका

4

आप W & Z, @Scortchi के बारे में एक अच्छी बात उठाते हैं, लेकिन यह मुझे लगता है कि यह मायने रखता है कि आप उन चरों पर विचार करते हैं जिनकी आप परवाह करते हैं, और एक बेहतर मॉडल प्राप्त करने के लिए आपने जो चर बनाए हैं। जो वास्तविक चर हैं वे एक्स आदि के अर्थ से निर्धारित होते हैं, जो मूल प्रश्न के संदर्भ में होते हैं। मैं इस पाठ से अनुमान लगाता हूं कि ओपी रिश्ते को समझना चाहता है b / t X & Y, और मॉडल को बेहतर बनाने के लिए W & Z बनाया। यानी, इस ठोस मामले में, मुझे लगता है कि पीटर सही हैं, आप दोनों तरफ एक्स लगाकर अपने मॉडल को बेहतर बनाने की कोशिश नहीं कर सकते।

— गूँग - मोनिका

4

@ पीटर के उदाहरण में दो तत्व हैं, जो इसे असंगत करने के लिए उपयोगी हो सकते हैं:

(1) मॉडल गलत विनिर्देशन। मॉडल

y_{i} = β_{0} + β_{1} x_{i} + ε_{i} (1)

$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i \qquad\text{(1)}$

और

w_{i} = γ_{0} + γ_{1} z_{i} + ζ_{i} (2)

$w_i=\gamma_0 + \gamma_1 z_i + \zeta_i \qquad\text{(2)}$

$w_i=\sqrt{\frac{y_i}{x_i}}$ $z_i=\sqrt{x_i}$

w_{i} = \sqrt{\frac{β_{0}}{z_{i}^{2}} + β_{1} + \frac{ε_{i}}{z_{i}^{2}}} (1)

$w_i = \sqrt{\frac{\beta_0}{z_i^2} + \beta_1 + \frac{\varepsilon_i}{z_i^2}} \qquad\text{(1)}$

y_{i} = (γ_{0} {\sqrt{x}}_{i} + γ_{1} {\sqrt{x}}_{i} + ζ_{i} {\sqrt{x}}_{i})^{2} (2)

$y_i = (\gamma_0 \sqrt x_i + \gamma_1 \sqrt x_i + \zeta_i \sqrt x_i)^2 \qquad\text{(2)}$

If $Y$ is assumed to be a Gaussian random variable independent of $X$ , then that's a special case of Model 1 in which $\beta_1=0$ , & you shouldn't be using Model 2. But equally if $W$ is assumed to be a Gaussian random variable independent of $Z$ , you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.

(2) Transformation of the response. If you knew $Y$ & $X$ to be independent Gaussian random variables, why should the relation between $W$ & $Z$ still surprise you, or would you call it spurious? The conditional expectation of $W$ can be approximated with the delta method:

E \sqrt{\frac{Y}{x}} = \frac{E \sqrt{Y}}{z} \approx \frac{\sqrt{β_{0}} + \frac{Var Y}{8 β_{0}^{3 / 2}}}{z}

$\operatorname{E} \sqrt\frac{Y}{x} = \frac{\operatorname{E}\sqrt{Y}}{z} \\ \approx \frac{\sqrt{\beta_0} + \frac{\operatorname{Var}{Y}}{8\beta_0^{3/2}}}{z}$

It is indeed a function of $z$ .

Following through the example ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

Neither Model 1 nor Model 2 is much use for predicting $y$ from $x$ , but both are all right for predicting $w$ from $z$ : mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of $w$ against $z$ , might be tempted to think that intervening to increase $z$ will reduce $w$ —we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.

Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.

— Scortchi - Reinstate Monica
स्रोत

3

The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results in $R^2$ that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.

— Frank Harrell
स्रोत