क्या अनिवार्य अनुपातों का मेटा-विश्लेषण अनिवार्य रूप से निराशाजनक है?


12

हाल ही के एक पेपर में नॉर्टन एट अल। (2018) राज्य है कि[1]

एक ही अध्ययन से अलग-अलग बाधाओं की तुलना नहीं की जा सकती है जब सांख्यिकीय मॉडल के परिणामस्वरूप अनुपात अनुपात अनुमानों में अलग-अलग व्याख्यात्मक चर होते हैं क्योंकि प्रत्येक मॉडल में एक अलग मनमाना स्केलिंग कारक होता है। न ही एक अध्ययन से बाधाओं के अनुपात की तुलना दूसरे अध्ययन से अंतर अनुपात के परिमाण के साथ की जा सकती है, क्योंकि विभिन्न नमूनों और विभिन्न मॉडल विनिर्देशों में अलग-अलग मनमाना स्केलिंग कारक होंगे। एक और निहितार्थ यह है कि कई अध्ययनों में किसी दिए गए जुड़ाव के अनुपातों के परिमाण को मेटा-विश्लेषण में संश्लेषित नहीं किया जा सकता है।

एक छोटा सिमुलेशन इसे दिखाता है (R कोड प्रश्न के निचले भाग में है)। मान लें कि सच्चा मॉडल है: आगे कल्पना करें कि उपरोक्त मॉडल द्वारा उत्पन्न एक ही डेटा का विश्लेषण चार अलग-अलग शोधकर्ताओं द्वारा लॉजिस्टिक रिग्रेशन का उपयोग करके किया जाता है। शोधकर्ता 1 में केवल एक सहसंयोजक के रूप में शामिल हैं, शोधकर्ता 2 में और दोनों शामिल हैं। चार शोधकर्ताओं के के लिए अंतर अनुपात के औसत सिम्युलेटेड अनुमान थे:

logit(yi)=1+log(2)x1i+log(2.5)x2i+log(3)x3i+0x4i
x1x1x2x1

res_1    res_2    res_3    res_4 
1.679768 1.776200 2.002157 2.004077

यह स्पष्ट है कि केवल शोधकर्ता 3 और 4 को लगभग का सही अंतर मिलता है जबकि शोधकर्ताओं को 1 और 2 का नहीं। यह रैखिक प्रतिगमन में नहीं होता है, जिसे आसानी से एक समान सिमुलेशन (यहां नहीं दिखाया गया है) द्वारा दिखाया जा सकता है। मुझे यह स्वीकार करना चाहिए कि यह परिणाम मेरे लिए काफी आश्चर्यजनक था, हालांकि यह समस्या अच्छी तरह से जानी जाती है । हर्नान एट अल। (2011) इसे पूर्वाग्रह के बजाय "गणितीय विषमता" कहते हैं।2[ ] [ ][2][3]

मेरे सवाल:

  1. यदि ऑड्स अनुपात मूल रूप से अध्ययन और मॉडल में अतुलनीय है, तो हम बाइनरी परिणामों के लिए विभिन्न अध्ययनों के परिणामों को कैसे जोड़ सकते हैं?
  2. अनगिनत मेटा-विश्लेषणों के बारे में क्या कहा जा सकता है जिन्होंने विभिन्न अध्ययनों से बाधाओं को संयोजित किया है जहां प्रत्येक अध्ययन संभवतः कोवरिएट्स के एक अलग सेट के लिए समायोजित किया गया है? क्या वे अनिवार्य रूप से बेकार हैं?

संदर्भ

[१]: नॉर्टन ईसी, डॉव्ड बीई, मैकिएजेव्स्की एमएल (२०१on): ऑड्स अनुपात - करंट बेस्ट प्रैक्टिस एंड यूज़। JAMA 320 (1): 84-85।

[२]: नॉर्टन ईसी, डॉव बीई (२०१on): लॉग ऑड्स एंड इंटरप्रिटेशन ऑफ लॉज मॉडल। स्वास्थ्य सेवा Res। 53 (2): 859-878।

[३]: हर्नान एमए, क्लेटन डी, कीडिंग एन (२०११): सिम्पसन का विरोधाभास सुलझा हुआ। इंट जे एपिडेमिओल 40: 780-785।

प्रकटीकरण

सवाल (आर कोड सहित) एक सवाल का संशोधित संस्करण है जिसे उपयोगकर्ता टाइमस्टैडर द्वारा डेटामेथोड्स पर प्रस्तुत किया गया है

आर कोड

set.seed(142857)

n_sims <- 1000 # number of simulations

out <- data.frame(
  treat_1 = rep(NA, n_sims)
  , treat_2 = rep(NA, n_sims)
  , treat_3 = rep(NA, n_sims)
  , treat_4 = rep(NA, n_sims)
)

n <- 1000 # number of observations in each simulation

coef_sim <- "x1" # Coefficient of interest

# Coefficients (log-odds)

b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0

for(i in 1:n_sims){

  x1 <- rbinom(n, 1, 0.5)
  x2 <- rnorm(n)
  x3 <- rnorm(n) 
  x4 <- rnorm(n) 

  z <-  b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4

  pr <- 1/(1 + exp(-z))  

  y <-  rbinom(n, 1, pr)

  df <-  data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
  model1 <- glm(y ~ x1, data = df, family = "binomial")
  model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
  model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
  model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")


  out$treat_1[i] <- model1$coefficients[coef_sim]
  out$treat_2[i] <- model2$coefficients[coef_sim]
  out$treat_3[i] <- model3$coefficients[coef_sim]
  out$treat_4[i] <- model4$coefficients[coef_sim]

}

# Coefficients

colMeans(out)
exp(colMeans(out)) # Odds ratios

आप यह क्यों कहते हैं कि यह रैखिक प्रतिगमन के साथ नहीं होता है। ऐसा लगता है जैसे आप केवल छोड़े गए चर पूर्वाग्रह का वर्णन कर रहे हैं?
user2879934

जवाबों:


11

ऐसे कई वैकल्पिक प्रभाव हैं जो लॉजिस्टिक रिग्रेशन मॉडल से निकल सकते हैं जो इस समस्या से ग्रस्त नहीं हैं। सबसे आसान में से एक चर का औसत सीमांत प्रभाव है। निम्नलिखित लॉजिस्टिक प्रतिगमन मॉडल मान लें:

ln[p1p]=Xβ+γd

जहां एक है (मामले) द्वारा (covariates) मैट्रिक्स, के लिए प्रतिगमन वजन रहे हैं covariates, हित के उपचार चर रहा है और उसके प्रभाव है।Xnkβkdγ

के औसत सीमांत प्रभाव का सूत्र होगा:d

1ni=1n[(1+e(Xβ+γ))1(1+eXβ)1]

यह प्रभाव उन लोगों के लिए उपचार और नियंत्रण समूह के बीच परिणाम में औसत संभावना अंतर होगा, जिनके अन्य भविष्यवक्ताओं पर समान मूल्य हैं (देखें जेलमैन एंड हिल, 2007, पृष्ठ 101)।

ओपी का उदाहरण दिया गया संबंधित आर सिंटैक्स निम्न होगा:

dydx_bin <- function(fit, coef) {
  mod.mat <- model.matrix(fit) # Obtain model matrix
  coefs <- coef(fit)
  oth_coefs <- coefs[!(names(coefs) == coef)] # Coefs bar focal predictor
  # Get model matrix excluding focal predictor
  X_nb <- as.matrix(mod.mat[, names(oth_coefs)])
  # Predictions for all data ignoring focal predictor
  Xb_nb <- X_nb %*% oth_coefs
  mean(plogis(Xb_nb + coefs[coef]) - plogis(Xb_nb))
}

मैंने ओपी के सिंटैक्स को प्रदर्शित करने के लिए संशोधित किया कि यह प्रभावित नहीं होता है कि मॉडल में कौन से चर हैं, जब तक कि ब्याज का पूर्वसूचक चर अन्य भविष्यवाणियों से असंबंधित है।

मैंने परिणाम डेटा फ़्रेम को इस प्रकार संशोधित किया:

out <- data.frame(
  treat_1 = rep(NA, n_sims), treat_2 = rep(NA, n_sims),
  treat_3 = rep(NA, n_sims), treat_4 = rep(NA, n_sims),
  treat_11 = rep(NA, n_sims), treat_21 = rep(NA, n_sims),
  treat_31 = rep(NA, n_sims), treat_41 = rep(NA, n_sims)
)

और सिमुलेशन के भीतर, मैंने गणना की औसत संभाव्यता अंतर को बचाया:

out$treat_11[i] <- dydx_bin(model1, coef_sim)
out$treat_21[i] <- dydx_bin(model2, coef_sim)
out$treat_31[i] <- dydx_bin(model3, coef_sim)
out$treat_41[i] <- dydx_bin(model4, coef_sim)

और नए परिणाम:

colMeans(out)[5:8]
 treat_11  treat_21  treat_31  treat_41 
0.1019574 0.1018248 0.1018544 0.1018642 

अनुमानित प्रभाव मॉडल विनिर्देश की परवाह किए बिना सुसंगत था। और रेखीय प्रतिगमन मॉडल के रूप में बेहतर दक्षता वाले कोवरिएट को जोड़ना:

apply(out[, 5:8], 2, sd)
  treat_11   treat_21   treat_31   treat_41 
0.02896480 0.02722519 0.02492078 0.02493236 

अतिरिक्त प्रभाव हैं जो ओपी दोनों समूहों के बीच औसत संभावना अनुपात की तरह गणना कर सकते हैं। ऊपर गणना की गई औसत संभाव्यता अंतर R में मार्जिन पैकेज से और Stata में मार्जिन कमांड से उपलब्ध है। औसत संभावना अनुपात केवल स्टैटा में उपलब्ध है।

मेटा-विश्लेषण परिणामों पर भरोसा करने के बारे में अन्य प्रश्न पर। एक के लिए, प्रभाव की दिशा बेकार नहीं होनी चाहिए। ऑड्स अनुपात के साथ समस्या गुणांक के संकेत को प्रभावित नहीं करती है। तो अगर एक अध्ययन में एक के ऊपर एक विषम अनुपात है, तो इस विशेष समस्या के कारण इस प्रभाव पर संदेह करने का कोई कारण नहीं है।

सटीक अनुमान के लिए, इस पर विश्वास करने का कोई कारण नहीं है। अच्छी बात यह है कि यदि घटक अध्ययनों को यादृच्छिक रूप से नियंत्रित किया जाता है, तो अंतर अनुपात रूढ़िवादी अनुमान हैं और वास्तविक परिणाम और भी बड़े हैं। इसका कारण यह है कि ओपी द्वारा प्रदर्शित प्रभाव एक की ओर बाधाओं को कम करता है। तो अगर पढ़ाई के थोक में 1 से ऊपर का अनुपात है और इस दिशा में मेटा-विश्लेषण इंगित कर रहा है, तो वास्तविक या एक बार सभी प्रासंगिक कोवरिअट्स को समायोजित करने के लिए और भी बड़ा है। तो ये मेटा-एनालिसिस पूरी तरह से बेकार नहीं हैं।

लेकिन मैं बल्कि अन्य प्रभाव अनुमान मेटा-विश्लेषण में इस्तेमाल किया जाएगा। औसत संभावना अंतर एक दृष्टिकोण है, और अन्य हैं।


जेलमैन, ए।, और हिल, जे। (2007)। प्रतिगमन और बहुस्तरीय / पदानुक्रमित मॉडल का उपयोग करके डेटा विश्लेषण। कैम्ब्रिज यूनिवर्सिटी प्रेस।


1
@COOLSerdash धन्यवाद यहां तलाशने के लिए बहुत कुछ है। यह और भी दिलचस्प हो जाता है जब ऑड्स अनुपात एक सतत चर से आता है जिसे द्विबीजित किया गया था, खासकर अगर मूल संबंधों में विषमता थी। Achim Zeileis को इस प्रश्न का उत्तर देखें - आंकड़े.stackexchange.com/questions/370876/…
Heteroskedastic जिम

लिंक के लिए धन्यवाद। मुझे यह स्वीकार करना चाहिए कि एक अंतर्निहित अव्यक्त निरंतर चर का उपयोग करके लॉजिस्टिक मॉडल की व्युत्पत्ति मेरे लिए नई है। मैं बायोस्टैटिस्टिक्स से आ रहा हूं और इस क्षेत्र में सेमिनल सोर्स इन समस्याओं का उल्लेख नहीं करते हैं (उदाहरण के लिए लेमेशो और होसमर की पुस्तक "एप्लाइड लॉजिस्टिक रिग्रेशन")। मैं (कल) जितनी जल्दी हो सके आपको इनाम दूंगा।
COOLSerdash

मुझे लगता है कि यदि आप लॉजिस्टिक त्रुटियों को मानते हैं तो अंतर्निहित निरंतर चर के तहत व्युत्पत्ति अजीब है। यदि आप सामान्य त्रुटियां मानते हैं, तो यह CLT के लिए अधिक न्यायसंगत धन्यवाद है। तो प्रोबेट रिग्रेशन के लिए अर्थमिति में बहुत उपयोग किया जाता है, यह एक सामान्य व्युत्पत्ति है। लेकिन यदि आप एक सतत चर को द्विगुणित कर रहे हैं, तो त्रुटियों के तहत व्युत्पत्ति बहुत सहायक है। इसके अलावा, यह व्युत्पत्ति आम तौर पर मॉडल का बेहतर पता लगाने और कुछ निश्चित खोज करने की अनुमति देती है। और पूर्वव्यापी इनाम के लिए धन्यवाद।
हिस्टोरोसकेस्टिक जिम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.