क्या आप आकस्मिक टेबल के बजाय समीकरणों के साथ सिम्पसन के विरोधाभास की व्याख्या कर सकते हैं?


14

मुझे शायद सिम्पसन के विरोधाभास की स्पष्ट समझ नहीं है । अनौपचारिक रूप से मुझे पता है कि कारक A के सभी संभावित स्तरों पर समूहीकृत Y1 की प्रतिक्रिया का औसत A के सभी स्तरों पर प्रतिक्रिया Y2 के औसत से अधिक हो सकता है, भले ही A (प्रत्येक समूह) के प्रत्येक स्तर के लिए Y1 का औसत है हमेशा Y2 के संगत औसत से कम। मैंने उदाहरण पढ़े हैं, लेकिन जब भी मैं इसे देखता हूं तो मुझे हर बार आश्चर्य होता है, हो सकता है क्योंकि मैं विशिष्ट उदाहरणों से अच्छी तरह नहीं सीखता: मुझे उन्हें सामान्य बनाने में परेशानी होती है। मैं सबसे अच्छा सीखता हूं, और बल्कि सूत्रों में एक स्पष्टीकरण भी देखूंगा। क्या आप गणना तालिकाओं के बजाय समीकरणों पर निर्भर विरोधाभास को समझा सकते हैं?

इसके अलावा, मुझे लगता है कि मेरे आश्चर्य का कारण यह है कि मैं अनजाने में विरोधाभास में शामिल औसत के बारे में कुछ धारणाएं बना सकता हूं, जो सामान्य रूप से सच नहीं हो सकता है। शायद मैं प्रत्येक समूह में नमूनों की संख्या के आधार पर वजन करना भूल जाता हूं? लेकिन फिर, मैं एक समीकरण देखना चाहूंगा जो मुझे दिखाता है कि अगर मैं प्रत्येक समूह में नमूनों की संख्या से प्रत्येक समूह के औसत का वजन करता हूं, तो कुल औसत का अनुमान अधिक सटीक है, क्योंकि (यदि यह सच है) तो यह स्पष्ट नहीं है सामान्य तौर पर मेरे लिए। Naively मुझे लगता है कि के अनुमान में E[Y1]कम मानक त्रुटि होती है, जब मेरे पास अधिक नमूने होते हैं, भले ही वजन कम हो।


1
मेरे यहाँ सिमुलेशन से संबंधित पोस्ट है । सिम्पसन के विरोधाभास को समझने के लिए अनुकरण आपके लिए मददगार हो सकता है
Haitao Du

यहाँ एक मशीन सिम्पसन के विरोधाभासों की मांग पर निर्मित है!
kjetil b halvorsen

जवाबों:


11

गणना डेटा के लिए सिम्पसन के विरोधाभास को समझने के लिए यहां एक सामान्य दृष्टिकोण है।

मान लीजिए कि हमारे पास एक्सपोज़र के लिए जीवित डेटा है और हम एक 2x2 आकस्मिक तालिका बनाते हैं। चीजों को सरल रखने के लिए हमारे पास प्रत्येक सेल में समान काउंट होंगे। हम इसे आराम कर सकते हैं, लेकिन यह बीजगणित को काफी गड़बड़ कर देगा।

DiedSurvivedDeath RateExposedXX0.5UnexposedXX0.5

इस मामले में, डेथ रेट एक्सपोज़्ड और अनएक्सपोज़्ड ग्रुप दोनों में समान है।

अब, यदि हम डेटा को विभाजित करते हैं, तो महिलाओं के लिए एक समूह में और पुरुषों के लिए एक अन्य समूह में, हम 2 तालिकाएँ प्राप्त करते हैं, निम्न गणनाओं के साथ:

नर:

DiedSurvivedDeath RateExposedXaXbaa+bUnexposedXcXdcc+d

और महिलाओं के लिए:

DiedSurvivedDeath RateExposedX(a1)X(b1)a1a+b2UnexposedX(c1)X(d1)c1c+d2

जहां a,b,c,d[0,1] एग्रीगेटेड डेटा टेबल में प्रत्येक कोशिका के अनुपात हैं जो पुरुष हैं।

सिम्पसन का विरोधाभास तब होगा जब उजागर पुरुषों के लिए मृत्यु दर unexposed पुरुषों के लिए मृत्यु दर से अधिक है और उजागर महिलाओं के लिए मृत्यु दर unexposed महिलाओं के लिए मृत्यु दर से अधिक है। वैकल्पिक रूप से, यह तब भी होगा जब उजागर पुरुषों के लिए मृत्यु दर कम होती है unexposed पुरुषों के लिए मृत्यु दर की तुलना में और संपर्क में महिलाओं के लिए मृत्यु दर है कम unexposed महिलाओं के लिए मृत्यु दर की तुलना में। तभी

(aa+b<cc+d) and (a1a+b2<c1c+d2)

Or 

(aa+b>cc+d) and (a1a+b2>c1c+d2)

एक ठोस उदाहरण के रूप में, X=100 और a=0.5,b=0.8,c=0.9 । तब हमारे पास सिम्पसन का विरोधाभास होगा:

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(9<d<1.44) and (0.96<d<1.1)

जिससे हम यह निष्कर्ष निकालते हैं कि d में झूठ होना चाहिए (0.96,1]

असमानताओं का दूसरा सेट देता है:

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

(d<0.9 or d>1.44) and (0.96<d or d>1.44)

d[0,1]

a,b,cd must be greater than 0.96. In the case where the value was 0.99 then we would obtain a Death Rate for Males of

0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group

and for Females:

(0.51)/(0.5+0.82)=71% in the exposed group
(0.91)/(0.9+0.992)=91% in the unexposed group

So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.


16

Suppose we have data on 2 variables, x and y, for 2 groups, A and B.

Data in group A are such that the fitted regression line is

y=11x

with mean values of 2 and 9 for x and y respectively.

Data in group B are such that the fitted regression line is

y=25x

with mean values of 11 and 14 for x and y respectively.

So the regression coefficient for x is 1 in both groups.

Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is (2,9) for group A and (11,14) for group B. Then it is easy to see that the overall regression line slope must be (149)/(112)=0.55 which is the overall regression coefficient for x. Thus we see Simpson’s paradox in action – we have a negative association of x with y in each group individually, but a positive association overall when the data are aggregated. We can demonstrate this easily in R as follows:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

enter image description here

The red points and regression line are group A, the blue points and regression line are group B and the black line is the overall regression line.


Hi, thanks for the answer, but this is yet another specific example of the Simpson's paradox. I specifically asked for something in the form of a theorem or a set of equations, a more abstract and general approach. Anyway, since there are no other answers, I'll study your example and if I feel that it helps me to generalize the concept, I'll accept the answer.
DeltaIV

3
@DeltaIV I have written a new answer using purely algebraic arguments.
Robert Long
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.