जब परिणाम चर मामला / नियंत्रण स्थिति नहीं है, तो केस-कंट्रोल डिज़ाइन में लॉजिस्टिक प्रतिगमन गुणांक का अनुमान लगाना


10

निम्न तरीके से आकार की जनसंख्या से डेटा के नमूने पर विचार करें :Nk=1,...,N

  1. ध्यान से देखें व्यक्ति के "रोग" स्थितिk

  2. यदि उन्हें यह बीमारी है, तो उन्हें संभाव्यता के नमूने में शामिल करेंpk1

  3. यदि उन्हें यह बीमारी नहीं है, तो उन्हें प्रायिकता साथ शामिल करें ।pk0

मान लीजिए कि आपने एक द्विआधारी परिणाम चर और भविष्यवक्ता वेक्टर , के लिए विषयों का इस तरह नमूना लिया। परिणाम चर रहा है नहीं "रोग" स्थिति। मैं लॉजिस्टिक रिग्रेशन मॉडल के मापदंडों का अनुमान लगाना चाहता हूं:YiXii=1,...,n

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

मुझे परवाह है कि सभी (लॉग) ऑड्स अनुपात, β । अवरोधन मेरे लिए अप्रासंगिक है।

मेरा प्रश्न है: क्या मैं नमूने की संभावनाओं \ _ p_ {i1}, p_ {i0} \} , i = 1, ..., n और फिटिंग को अनदेखा करके {\ _ सुनार \ _ \ _} के समझदार अनुमान प्राप्त कर सकता हूं? यह एक साधारण यादृच्छिक नमूना थे?β{pi1,pi0}i=1,...,n


मैं इस प्रश्न का उत्तर "हाँ" बहुत सुंदर हूँ। मैं जो खोज रहा हूं वह एक संदर्भ है जो इसे मान्य करता है।

उत्तर के बारे में आश्वस्त होने के दो मुख्य कारण हैं:

  1. मैंने कई सिमुलेशन अध्ययन किए हैं और उनमें से कोई भी इसके विपरीत नहीं है, और

  2. यह दर्शाना सीधा है कि, यदि जनसंख्या ऊपर मॉडल द्वारा शासित है, तो नमूना डेटा को नियंत्रित करने वाला मॉडल है

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

यदि नमूना संभावनाएँ पर निर्भर नहीं होती हैं , तो यह अवरोधन के लिए एक सरल बदलाव का प्रतिनिधित्व करेगा और का बिंदु अनुमान स्पष्ट रूप से अप्रभावित रहेगा। लेकिन, अगर प्रत्येक व्यक्ति के लिए ऑफ़सेट अलग हैं, तो यह तर्क काफी लागू नहीं होता है क्योंकि आप निश्चित रूप से एक अलग बिंदु अनुमान प्राप्त करेंगे, हालांकि मुझे कुछ इसी तरह का संदेह है। iβ

संबंधित: अप्रेंटिस और पाइके (1979) के क्लासिक पेपर का कहना है कि लॉजिस्टिक रिग्रेशन गुणांक केस-कंट्रोल (रोग की स्थिति के साथ परिणाम) के समान है, जो एक संभावित अध्ययन से एकत्र किए गए समान वितरण हैं। मुझे संदेह है कि यह वही परिणाम यहां लागू होगा, लेकिन मुझे स्वीकार करना चाहिए कि मैं कागज के हर बिट को पूरी तरह से नहीं समझता हूं।

किसी भी टिप्पणी / संदर्भ के लिए अग्रिम धन्यवाद।


1
आप कहते हैं कि "परिणाम चर बीमारी की स्थिति नहीं है"। क्या दर्शाता है? CV, btw में आपका स्वागत है। Yi=1
गंग -

1
Yi एक अलग चर है। मेरा मतलब है कि वह चर जो आपकी नमूना संभावना (आमतौर पर रोग नियंत्रण में स्थिति स्थिति) को निर्धारित करता है, परिणाम चर के समान नहीं है - डेटा सेट का द्वितीयक विश्लेषण सोचो। उदाहरण के लिए, मान लीजिए कि नमूना ड्रग उपयोगकर्ताओं द्वारा व्यवस्थित रूप से तैयार किया गया था और गैर-ड्रग उपयोगकर्ताओं का एक अतिरिक्त (फ़्रिक्वेंसी मिलान किया गया था, wrt कुछ कोवरिएट्स) लेकिन परिणाम चर जो आप पढ़ रहे हैं वह कुछ अन्य व्यवहार माप है। इस मामले में नमूना योजना एक उपद्रव है। धन्यवाद, btw!
मैक्रों

जवाबों:


8

यह अर्थमिति में चयन मॉडल का बदलाव है। केवल चयनित नमूने का उपयोग करने वाले अनुमानों की वैधता इस शर्त पर निर्भर करती है कि । यहाँ है के रोग की स्थिति।Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

अधिक विवरण देने के लिए, निम्नलिखित सूचनाओं को परिभाषित करें: और ; उस घटना को संदर्भित करता है जो नमूने में । इसके अलावा, यह मान से स्वतंत्र है सादगी के लिए।π1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

नमूना में एक इकाई लिए की संभावना है पुनरावृत्ति के कानून के द्वारा । रोग की स्थिति पर सशर्त मान लीजिए और अन्य covariates , परिणाम से स्वतंत्र है । नतीजतन, Yi=1i

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSi
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
यह देखना आसान है कि यहाँ और को आपकी नमूना योजना के रूप में परिभाषित किया गया है। इस प्रकार,
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
यदि , हमारे पास और आप नमूना चयन समस्या को छोड़ सकते हैं। दूसरी ओर, अगर , सामान्य रूप से। एक विशेष मामले के रूप में, लॉगिट मॉडल पर विचार करें, Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
यहां तक कि जब और भर में लगातार कर रहे हैं , परिणामस्वरूप वितरण logit गठन शामिल नहीं होंगे। इससे भी महत्वपूर्ण बात यह है कि मापदंडों के अंतर्ग्रहण पूरी तरह से अलग होंगे। उम्मीद है, उपरोक्त तर्क आपकी समस्या को थोड़ा स्पष्ट करने में मदद करते हैं।pi1pi0i

यह एक अतिरिक्त व्याख्यात्मक चर के रूप में को शामिल करने का प्रलोभन देता है , और आधार पर मॉडल का अनुमान लगाता है । का उपयोग करने की वैधता को सही ठहराने के लिए , हमें यह साबित करने की जरूरत है कि , जो कि स्थिति के समतुल्य है। की पर्याप्त संख्या है । आपकी नमूना प्रक्रिया के बारे में अधिक जानकारी के बिना, मुझे यकीन नहीं है कि यह सच है। आइए एक सार संकेतन का उपयोग करें। Observability चर के यादृच्छिक समारोह के रूप में देखी जा सकती है और अन्य यादृच्छिक चर, कहते हैंDiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi । निरूपित । यदि से स्वतंत्र है पर सशर्त और , हम स्वतंत्रता की परिभाषा से। हालाँकि, अगर और , पर कंडीशनिंग के बाद अगर स्वतंत्र नहीं है, तो रूप से कुछ प्रासंगिक जानकारी , और सामान्य तौर पर यह अपेक्षित नहीं हैSi=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di) । इस प्रकार, 'हालांकि' मामले में, नमूना चयन की अज्ञानता अनुमान के लिए भ्रामक हो सकती है। मैं अर्थमिति में नमूना चयन साहित्य से बहुत परिचित नहीं हूं। मैं Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookअर्थमिति में सीमित-निर्भर और गुणात्मक चर के अध्याय 16 की सिफारिश करूंगा 'नमूना चयन और असतत परिणामों के बारे में मुद्दों का एक व्यवस्थित उपचार है।


2
धन्यवाद। यह एक शानदार जवाब है और सही समझ में आता है। मेरे आवेदन में, यह धारणा कि यथार्थवादी नहीं है। लेकिन, को भविष्यवक्ता के रूप में जोड़ना और वितरण विचार करना अच्छा होगा । इसी तरह की व्युत्पत्ति का उपयोग करते हुए, मुझे लगता है कि आप दिखा सकते हैं कि यदि , तो आप ठीक हैं। यह मेरे मामले में एक उचित धारणा है। तुम क्या सोचते हो? BTW, क्या आपके पास कोई संदर्भ होगा जो इस समस्या का उल्लेख करता है? मैं अर्थमिति साहित्य से परिचित नहीं हूँ। P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
मैक्रों

मैं एक bernoulli परीक्षण के रूप में चयन प्रक्रिया के बारे में सोच रहा हूँ, यानी डेटा जनरेट करने वाली धारणा के तहत, यह परीक्षण सशर्त रूप से स्वतंत्र है , इसलिए मुझे लगता है कि हम ठीक हैं। मैं इस समस्या में आपके प्रयासों और अंतर्दृष्टि की सराहना करता हूं और उत्तर को स्वीकार कर रहा हूं। यह मानते हुए कि कोई भी सटीक संदर्भ के साथ नहीं आ रहा है, जिसे मैं देख रहा हूं (मैं एक विस्तारित चर्चा के साथ खुदाई करने के बजाय इस समस्या को केवल "ठीक" कर सकता हूं), मैं आपको इनाम भी दूंगा। चीयर्स।
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
मैक्रो

यह चयन प्रक्रिया आपकी रणनीति पर फिट बैठती है। इस तरह की चयन समस्या के आधार पर, आपकी समस्या लापता डेटा साहित्य में यादृच्छिक (MAR) पर गुम होने का एक उदाहरण बन जाती है। आपके पुरस्कार के लिए धन्यवाद।
सेमीब्रुइन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.