svyglm बनाम glm में वजन का उपयोग


18

मैं जानना चाहूंगा कि वज़न का उपचार किस प्रकार svyglmऔर किसके बीच भिन्न होता हैglm

मैं twangआर स्कोरिंग पैकेज का उपयोग कर रहा हूँ ताकि वे फिर से वज़न के रूप में उपयोग कर सकें, इस प्रकार से (यह कोड twangप्रलेखन से आता है ):

library(twang)
library(survey)
set.seed(1)

data(lalonde)

ps.lalonde <- ps(treat ~ age + educ + black + hispan + nodegree + married + re74 + re75,
 data = lalonde)

lalonde$w <- get.weights(ps.lalonde, stop.method="es.mean")
design.ps <- svydesign(ids=~1, weights=~w, data=lalonde)

glm1 <- svyglm(re78 ~ treat, design=design.ps)

summary(glm1)

...
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   6685.2      374.4  17.853   <2e-16 ***
treat         -432.4      753.0  -0.574    0.566    

इसकी तुलना करें:

glm11 <- glm(re78 ~ treat, weights=w , data=lalonde)
summary(glm11)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   6685.2      362.5  18.441   <2e-16 ***
treat         -432.4      586.1  -0.738    0.461  

इसलिए पैरामीटर का अनुमान समान है लेकिन उपचार के लिए मानक त्रुटियां काफी भिन्न हैं।

वज़न का उपचार कैसे svyglmऔर किसके बीच भिन्न होता है glm?

जवाबों:


11

वहाँ वजन के विभिन्न प्रकार के होते हैं और वे भ्रामक हो जाते हैं। जब आप विभिन्न प्रकारों या सॉफ़्टवेयरों का उपयोग कर रहे होते हैं, तो आप बहुत सावधान हो जाते हैं।

Svyglm फ़ंक्शन सर्वेक्षण भार का उपयोग करता है - ये वजन प्रत्येक मामले का महत्व उन्हें प्रतिनिधि बनाने के लिए (एक दूसरे के लिए, ट्वैंग के बाद)। मुझे यकीन नहीं है कि चमक में वजन क्या होता है () - मुझे लगता है कि वे उपायों की सटीकता का प्रतिनिधित्व करते हैं। (यदि आप द्विपद परिवार का उपयोग कर रहे हैं, तो उनके अलग अर्थ हैं)।

सर्वे वेट (सर्वेग्लम में) वे वज़न हैं जो आप चाहते हैं, आपको सही मानक त्रुटियां देने के लिए।

(फ्रिक्वेंसी वेट, एनालिटिकल वेट और महत्व वेट भी हैं)।


(+1) शुक्रिया। क्या आप सर्वेक्षण वजन, डॉक्स के अलावा surveyglm) के लिए एक सुलभ संदर्भ जानते हैं ?
जो राजा

1
मुझे लुमली की पुस्तक पसंद है: amazon.com/Complex-Surveys-Analysis-Series-Methodology/dp/…
जेरेमी माइल्स

1
संदर्भ के लिए धन्यवाद। सुलभ द्वारा मेरा मतलब है कि ऑनलाइन उपलब्ध कुछ, क्षमा करें। मेरे पास अच्छे पुस्तकालयों तक आसान पहुँच नहीं है ....
जो राजा

हम्म् ... मुझे कुछ भी याद नहीं है, लेकिन मैं देखूंगा कि मुझे क्या मिल सकता है।
जेरेमी माइल्स

9

surveyनमूना भार द्वारा प्रस्तुत परिशुद्धता के नुकसान पर विचार के साथ मानक त्रुटियों की गणना करता है। वजन glmकेवल कम से कम वर्गों के आकलन में त्रुटियों को दिए गए वजन को समायोजित करते हैं, इसलिए मानक त्रुटियां सही नहीं हैं। यहाँ Lumley (2010) से चयन किया गया है:

मॉडल-आधारित विश्लेषण में सही मानक त्रुटियों को प्राप्त करने के लिए मॉडल के यादृच्छिक भाग को सही ढंग से निर्दिष्ट करना आवश्यक होगा, लेकिन हमारे सभी मानक त्रुटि अनुमान डिज़ाइन-आधारित हैं और इसलिए मॉडल की परवाह किए बिना मान्य हैं। यह ध्यान देने योग्य है कि कभी-कभी मॉडल-आधारित प्रतिगमन विश्लेषण में उपयोग किए जाने वाले "सैंडविच", या "मॉडल-मजबूत", या "हेटेरोस्केडासिटी-सुसंगत" मानक त्रुटियां डिजाइन-आधारित मानक त्रुटियों के लगभग समान होती हैं, जिनका हम उपयोग करेंगे; स्तरीकरण की हैंडलिंग में मुख्य अंतर है।

तो बिना अपने डिजाइन में, आप संभावना पाएंगे कि उपयोग sandwichकरने से आपको समान या निकट-समान एसई अनुमान मिलेगा।

library(sandwich)
coefs <- vcovHC(glm11, type="HC0")
lmtest::coeftest(glm11,coefs)

मेरे परीक्षण में, उन्होंने "HC0" या "HC1" का उपयोग करते समय वास्तव में गणना नहीं की, लेकिन बहुत करीब थे। svyglmअब t-value के बजाय z-value भी रिपोर्ट कर रहा है।


2
यदि भविष्य के पाठक के लिए उपयोगी है: coeftestआर पैकेज से lmtest
swihart
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.