GEE: उचित कार्य सहसंबंध संरचना चुनना


19

मैं एक एपिडेमियोलॉजिस्ट हूं जो जीईई को समझने की कोशिश कर रहा है ताकि कॉहोर्ट स्टडी का ठीक से विश्लेषण किया जा सके (रिलेटिव रिस्क का अनुमान लगाने के लिए लॉग लिंक के साथ पॉइसन रिग्रेशन का उपयोग करना)। मेरे पास "काम करने वाले सहसंबंध" के बारे में कुछ प्रश्न हैं, जिन्हें मैं स्पष्ट करने के लिए किसी और जानने वाले को पसंद करूंगा:

(१) यदि मैंने एक ही व्यक्ति में माप दोहराया है, तो क्या यह आमतौर पर एक विनिमेय संरचना मानने के लिए सबसे उचित है? (या एक आत्मकेंद्रित अगर माप एक प्रवृत्ति दिखाते हैं)? स्वतंत्रता के बारे में क्या - क्या ऐसे मामले हैं जहां कोई व्यक्ति एक ही व्यक्ति में माप के लिए स्वतंत्रता ग्रहण कर सकता है?

(२) क्या डेटा की जांच करके उचित संरचना का आकलन करने का कोई (यथोचित सरल) तरीका है?

(३) मैंने देखा कि, जब एक स्वतंत्रता संरचना का चयन करते हैं, तो मुझे एक समान पॉइज़न प्रतिगमन (आर का उपयोग करके, फ़ंक्शन glm()और geeglm()पैकेज से geepack) चलाने के दौरान समान बिंदु अनुमान (लेकिन कम मानक त्रुटियां) मिलते हैं । ये क्यों हो रहा है? मैं समझता हूं कि जीईई के साथ आप जनसंख्या-औसत मॉडल (विषय-विशेष के विपरीत) का अनुमान लगाते हैं, इसलिए आपको केवल रेखीय प्रतिगमन मामले में समान बिंदु अनुमान प्राप्त करना चाहिए।

(४) यदि मेरा सहवास कई स्थानों पर है (लेकिन प्रति व्यक्ति एक माप), तो क्या मुझे एक स्वतंत्रता या एक विनिमेय कार्य सहसंबंध चुनना चाहिए, और क्यों? मेरा मतलब है, प्रत्येक साइट में व्यक्ति अभी भी एक दूसरे से स्वतंत्र हैं, है ना ?? इस प्रकार, एक विषय-विशिष्ट मॉडल के लिए, उदाहरण के लिए, मैं साइट को एक यादृच्छिक प्रभाव के रूप में निर्दिष्ट करूंगा। हालांकि GEE के साथ, स्वतंत्रता और विनिमेय अलग-अलग अनुमान देते हैं और मुझे यकीन नहीं है कि अंतर्निहित मान्यताओं के संदर्भ में कौन बेहतर है।

(५) क्या जीईई एक २-स्तरीय पदानुक्रमित क्लस्टरिंग को संभाल सकता है, अर्थात प्रति व्यक्ति बार-बार उपायों के साथ एक बहु-साइट कोहर्ट? यदि हाँ, तो मुझे एक क्लस्टरिंग वैरिएबल के रूप में क्या निर्दिष्ट करना चाहिए geeglm()और यदि प्रथम स्तर (साइट) के लिए "स्वतंत्रता" और दूसरे स्तर (व्यक्तिगत) के लिए "विनिमेय" या "ऑटोरेर्गिव" उदाहरण के लिए मान लिया जाए तो कामकाजी सहसंबंध क्या होना चाहिए?

मैं समझता हूं कि ये कुछ प्रश्न हैं, और उनमें से कुछ काफी बुनियादी हो सकते हैं, लेकिन अभी भी मेरे लिए (और शायद नौसिखियों के लिए) बहुत मुश्किल हैं। इसलिए, किसी भी मदद की बहुत प्रशंसा और ईमानदारी से सराहना की जाती है, और यह दिखाने के लिए मैंने एक इनाम शुरू किया है।

जवाबों:


12
  1. जरुरी नहीं। छोटे समूहों के साथ, असंतुलित डिज़ाइन और अधूरा-क्लस्टर कन्फ़्यूडर समायोजन के साथ, विनिमेय सहसंबंध स्वतंत्रता GEE की तुलना में अधिक अक्षम और पक्षपाती हो सकता है। उन मान्यताओं को मजबूत किया जा सकता है, भी। हालांकि, जब उन मान्यताओं को पूरा किया जाता है, तो आप विनिमेय के साथ अधिक कुशल निष्कर्ष निकालते हैं। मुझे कभी कोई उदाहरण नहीं मिला जब AR-1 सहसंबंध संरचनाएं समझ में आती हैं, क्योंकि यह माप के लिए असामान्य है जो समय में संतुलित हैं (मैं मानव विषयों के डेटा के साथ काम करता हूं)।

  2. खैर, सहसंबंध की खोज अच्छी है और डेटा विश्लेषण में किया जाना चाहिए। हालाँकि, यह वास्तव में निर्णय लेने का मार्गदर्शन नहीं करना चाहिए । अनुदैर्ध्य और पैनल अध्ययन में सहसंबंध की कल्पना करने के लिए आप वैरोग्राम और लॉरेलग्राम का उपयोग कर सकते हैं। इंट्राक्लस्टर सहसंबंध क्लस्टर के भीतर सहसंबंध की सीमा का एक अच्छा माप है।

  3. मिश्रित मॉडल के विपरीत जीईई में सहसंबंध संरचना, सीमांत पैरामीटर अनुमानों को प्रभावित नहीं करती है (जो आप जीईई के साथ अनुमान लगा रहे हैं)। हालांकि यह मानक त्रुटि अनुमानों को प्रभावित करता है। यह किसी भी लिंक फ़ंक्शन से स्वतंत्र है। जीईई में लिंक फ़ंक्शन सीमांत मॉडल के लिए है।

  4. साइटें बिना किसी भिन्नता के स्रोत हो सकती हैं, जैसे मुंह के भीतर दांत, या स्कूल जिले के भीतर के छात्र। इन आंकड़ों में क्लस्टर स्तर के कन्फ्यूडर की संभावना है, जैसे कि आनुवंशिक प्रवृत्ति से लेकर दांतों की सड़न या सामुदायिक शिक्षा फंडिंग तक, इस कारण से, आप एक विनिमेय सहसंबंध संरचना का उपयोग करके बेहतर मानक त्रुटि अनुमान प्राप्त करेंगे।

  5. एक GEE में सीमांत प्रभावों की गणना तब जटिल होती है जब वे घोंसले में नहीं होते हैं लेकिन यह किया जा सकता है । घोंसला बनाना आसान है, और जैसा आपने कहा है वैसा ही करें।


(# 5 के बारे में) तो नेस्टेड क्लस्टरिंग के मामले में सिर्फ एक शीर्ष स्तर क्लस्टर चर का चयन करता है और यह है?
थियोडोर लिट्रास

नहीं, आप एक पदानुक्रमित दो स्तर विनिमेय सहसंबंध संरचना बना सकते हैं और लगातार 3 चरण ईएम एल्गोरिथ्म का उपयोग करके सहसंबंध के लिए दो अलग-अलग सहसंबंध मापदंडों का अनुमान लगा सकते हैं। इस तरह से आपको पता चल जाएगा कि समुदायों के भीतर बच्चे सहसंबद्ध हैं, लेकिन एक घर के भीतर के बच्चों के रूप में नहीं।
अदमो

क्षमा करें, मुझे यह समझ में नहीं आ रहा है। क्या आप मुझे आर या स्टाटा में कुछ कोड की ओर इशारा कर सकते हैं? मुझे लगता है कि मदद करनी चाहिए।
थियोडोर लिट्रास

1
@ TheodoreLytras क्षमा करें, मुझसे गलती हुई थी। आपका पिछला दावा सही है। मैंने बहुत ही कागज से लिंक किया, "इसके अलावा, यदि कई क्लस्टर पूरी तरह से नेस्टेड हैं, तो जीईई सैंडविच लेवल असेसमेंट के माध्यम से मल्टीलेवल सहसंबंध संरचना के लिए शीर्ष स्तर क्लस्टर खातों पर आधारित है"।
एडमों

1
हो सकता है कि आपका मतलब कुछ और हो, लेकिन जब आप मिश्रित मॉडल के विपरीत "जीईई में सहसंबंध संरचना का उल्लेख करते हैं, तो सीमांत पैरामीटर अनुमानों को प्रभावित नहीं करता है", मुझे लगता है कि यह सच नहीं है। कम से कम, अगर आपका मतलब है कि अलग-अलग काम कर रहे सहसंबंध मैट्रिक्स का चयन करके गुणांक अपरिवर्तित हैं, तो ऐसा नहीं होता है: सहसंबंध मैट्रिक्स भारित मैट्रिक्स के माध्यम से काम करता है और सहसंयोजक मैट्रिक्स के साथ-साथ गुणांक को प्रभावित करता है।
निक

6

(१) आपको किसी प्रकार की निरंकुश संरचना की आवश्यकता होगी, केवल इसलिए कि हम उम्मीद करते हैं कि मापों को आगे ले जाया जाएगा और साथ में ले जाने वालों की तुलना में कम सहसंबद्ध होगा। विनिमेय मान जाएगा कि वे सभी समान रूप से सहसंबद्ध हैं। लेकिन सब कुछ के साथ के रूप में, यह निर्भर करता है।

(२) मुझे लगता है कि इस तरह का निर्णय यह सोचने के लिए कम है कि डेटा कैसे उत्पन्न हुए, बल्कि यह देखने के बजाय कि वे कैसे दिखते हैं।

(४) यह निर्भर करता है। उदाहरण के लिए, स्कूलों में नेस्टेड बच्चों को ज्यादातर मामलों में स्वतंत्र नहीं माना जाना चाहिए। सामाजिक पैटर्निंग आदि के कारण, अगर मुझे किसी दिए गए स्कूल के बच्चे के बारे में कुछ पता है, तो मैं शायद कम से कम स्कूलों में अन्य बच्चों के बारे में थोड़ा बहुत जानता हूं। मैंने एक बार एक जन्म कोठरी में विभिन्न सामाजिक और आर्थिक संकेतकों और मोटापे के प्रसार के बीच संबंधों को देखने के लिए जीईई का उपयोग किया था, जहां प्रतिभागियों को पड़ोस में घोंसला बनाया गया था। मैंने एक विनिमेय संरचना का उपयोग किया। आप यहां पेपर ढूंढ सकते हैं और कुछ संदर्भों की जांच कर सकते हैं , जिनमें एपि पत्रिकाओं से 2 भी शामिल हैं।

(५) स्पष्ट रूप से ऐसा (जैसे इस उदाहरण को देखें ), लेकिन मैं ऐसा करने के आर सट्टेबाजी के साथ मदद नहीं कर सकता।

ज़ेगर एसएल, लिआंग केवाई, अल्बर्ट पीएस। अनुदैर्ध्य डेटा के लिए मॉडल: एक सामान्यीकृत समीकरण समीकरण। बॉयोमेट्रिक्स। 1988; 44: 1049-1060।

हबर्ड एई, एहरन जे, फ्लेचर एन, वैन डेर लान एम, लिपमैन एस, ब्रुकनर टी, सैटेरियनो डब्ल्यू टू जीईई या नहीं जीईई: पड़ोस और स्वास्थ्य के बीच संघों के आकलन के लिए फ़ंक्शन और संभावना आधारित तरीकों की तुलना करना। महामारी विज्ञान। 2009

हेनली जेए, नेगासा ए, एडवर्डस एमडीबी, फॉरेस्टर जेई। सामान्यीकृत आकलन समीकरणों का उपयोग करके सहसंबद्ध डेटा का सांख्यिकीय विश्लेषण: एक अभिविन्यास। एम जे एपिडेमिओल। 2003, 157: 364।


यह वास्तव में सहायक है, लेकिन यह मुझे आश्चर्यचकित करता है कि कोई भी तब एक स्वतंत्रता संरचना का उपयोग क्यों करेगा, क्योंकि प्रति क्लस्टरिंग से प्रेक्षणों के बीच समानता की एक डिग्री निकलती है। हालांकि, मैं इस धारणा के तहत हूं कि स्कूलों के मामले में समानता अन्य स्कूलों के संबंध में है , और प्रत्येक स्कूल के विद्यार्थियों के भीतर स्वतंत्र होगा। इसलिए मैं अभी भी उस पर बहुत स्पष्ट नहीं हूं।
थियोडोर लिट्रास

हां, यदि आपने अपने नमूने और उप-विषयक मॉडलिंग को एकल विद्यालय तक सीमित रखा, तो कोई चिंता नहीं। इस मामले में यह मान लेना अधिक उचित होगा कि त्रुटियाँ आईआईडी हैं। लेकिन एक बार जब आप अलग-अलग स्कूलों के बच्चों को एक ही नमूने / मॉडल में जोड़ना शुरू कर देते हैं, तो यह धारणा कठिन हो जाती है, जब तक कि आप मॉडल में स्कूल का हिसाब नहीं रखते हैं, ताकि स्कूल में त्रुटियों की स्थिति आईआईडी मान ली जाए।
DL Dahly

यह भी ध्यान देने योग्य है कि लोग आपके लिए अधिक उपयोगी हो सकते हैं यदि आप नमूना आकार, दोहराने के उपायों की संख्या और समय, समूहों की संख्या आदि के बारे में कुछ विवरण प्रदान कर सकते हैं
DL Dahly

2
@DLDahly (1) में आपकी बात कुछ ऐसी नहीं है जिसे मैं अक्सर बायोस्टैटिशियल पैनल विश्लेषण में पाता हूं। एआर-एन सहसंबंध संरचनाओं के पीछे एक धारणा यह है कि, उनके बीच पर्याप्त समय दिया जाता है, एक ही व्यक्ति पर दो माप अलग-अलग व्यक्तियों के बीच दो मापों के समान असंबंधित होंगे। हालांकि, अंतर्निहित प्रमुख क्लस्टर-कन्फ़्यूडर अक्सर कोवरिएट्स (जैसे आनुवंशिक मार्कर) को बदलते समय नहीं होते हैं, और यह मान लेना बहुत मुश्किल है (यदि असंभव नहीं है) का आकलन करना। एक लॉरेलग्राम शुरू करने के लिए एक बहुत अच्छी जगह है, हालांकि।
एडमों

1

(०) सामान्य टिप्पणियाँ: मैं जिन मॉडल को क्रॉसवैलिड पर देखता हूं उनमें से अधिकांश बहुत जटिल हैं। यदि संभव हो तो सरल करें। परिणामों की तुलना करने के लिए अक्सर GEE और मिश्रित मॉडल के साथ मॉडलिंग करने लायक है।
(१) हाँ। विनिमेय चुनें। मेरा स्पष्ट जवाब जीईई के सबसे व्यापक रूप से टाल लाभ पर आधारित है: अनुमानों के अनुमानों का लचीलापन।
यदि आप अपने क्षेत्र में अध्ययनों को देखते हैं तो आपको यह देखना चाहिए कि निकास डिफ़ॉल्ट विकल्प है। इसका मतलब यह नहीं है कि यह सबसे अच्छा है, लेकिन विचार करने वाला पहला होना चाहिए। अपने डेटा की विस्तृत जानकारी के बिना सलाह देना सबसे अच्छा होगा।
(२) हां, "QIC" जैसे डेटा चालित दृष्टिकोण हैं। यह एक स्टैटा उदाहरण है, लेकिन व्यापक रूप से एक उचित विकल्प के रूप में स्वीकार किया जाता है, हालांकि बहुत कम ही व्यवहार में उपयोग किया जाता है:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) पॉइंट अनुमान कभी भी सटीक नहीं होते हैं (जब तक कि आप इंडेप सहसंबंध संरचना का उपयोग नहीं कर रहे हैं), लेकिन आमतौर पर काफी करीब हैं। आप इस बारे में महसूस करने के लिए सरल / gee / मिश्रित प्रभाव मॉडल अनुमानों की तुलना करते हुए कई लेख पा सकते हैं ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) अधिकांश पुस्तकों में एक तालिका भी है इसके लिए दो। एक स्वतंत्र सहसंबंध संरचना के लिए आप अनिवार्य रूप से मजबूत एसई के साथ पॉइसन मॉडल चला रहे हैं। तो अनुमान ठीक वैसा ही होगा। एसई आमतौर पर बड़े होते हैं। लेकिन कभी-कभी मजबूत एसई छोटे होते हैं (जो कि जीवन है: यदि दर्द के बारे में जानकारी दी जाए तो Google मुफ्त में रुचि देता है)
(4) देखें (1) और (2) ऊपर।
(५) नहीं या बेहतर कहा गया है, यदि आप इसमें पर्याप्त प्रयास करते हैं तो आप कुछ भी कर सकते हैं, लेकिन यह बहुत कम ही प्रयास के लायक है।


0

आप गलत दृष्टिकोण का उपयोग करने के लिए एक जी के साथ कर रहे हैं जो आप कर रहे हैं क्योंकि आप संरचना को नहीं जानते हैं और आपके परिणाम संभावित रूप से भ्रमित होंगे। जॅमी रॉबिन्सन को देखें। आपको लंबे समय तक उपयोग करने की आवश्यकता है। TMLE (मार्क वैन डेर लान) या शायद iptw वजन के साथ एक जी। सहसंबंध के लिए लेखांकन नहीं विचरण को कम करता है। जरा सोचें कि यदि सभी दोहराया उपायों को 100% सहसंबद्ध किया गया है, तो आपको प्रभावी रूप से कम अवलोकन (अनिवार्य रूप से केवल आपके एन विषयों के लिए) और छोटे एन का मतलब उच्च विचरण होगा।


यदि आपके पास एक गैर उत्तरजीविता प्रकार है, तो आप स्वतंत्र दृष्टिकोण के साथ gee दृष्टिकोण का उपयोग कर सकते हैं और निष्पक्ष अनुमानों के लिए सुझाव के रूप में iptw वेट का उपयोग कर सकते हैं, यह मानते हुए कि आप प्रवृत्ति स्कोर को सही पाते हैं। TMLE सभी मामलों में सबसे अच्छा है, उत्तरजीविता या नहीं, क्योंकि आप प्रोविडेंस लर्निंग का उपयोग कर सकते हैं भविष्यवाणी के अंकों और अनुक्रमिक रिग्रेशन्स की भविष्यवाणी करने के लिए और अभी भी कुशल अनुमान प्राप्त करते हैं। आपका दृष्टिकोण निश्चित रूप से पक्षपाती होगा और गलत अनुमान देगा और आपके नमूने का आकार जितना बड़ा होगा, अगर कोई प्रभाव नहीं है, तो आप संभवतः एक गलत महत्वपूर्ण प्रभाव को इंगित करेंगे !!
जोनाथन लेवी

यह अधिक विवरण का उपयोग कर सकता है। जेनी रॉबिन्सन क्या है? वैन डेर लान ने कौन सा पेपर बनाया?
mdewey

@mdewey क्षमा करें, टाइपो, का अर्थ था जेमी रॉबिन्स। रॉबिन्स, हर्नान, बैबेट 2000 सीमांत संरचनात्मक मॉडल और कारण अनुमान की कोशिश करें - प्रभाव संशोधक के साथ एमएसएम करने के लिए गैर-उत्तरजीविता परिणाम सहित महान विधि। लान के लिए, पुस्तक का संदर्भ, लक्षित शिक्षण। जैसा कि मैंने कहा, हंस शायद सबसे अच्छा है, लेकिन समझने में अधिक लगता है। R पैकेज Ltmle इस पद्धति को करता है लेकिन सीखने में कुछ समय लगता है।
जोनाथन लेवी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.