द्विआधारी डेटा के साथ सहसंबंध में भिन्न विभाजन और अनुदैर्ध्य परिवर्तन


14

मैं एक लॉजिस्टिक लीनियर मिक्स्ड इफ़ेक्ट मॉडल (रैंडम इंटरसेप्ट्स) के साथ 175 स्कूलों में 300,000 विद्यार्थियों के डेटा का विश्लेषण कर रहा हूँ। प्रत्येक पुतली बिल्कुल एक बार होती है और डेटा 6 साल तक फैलता है।

  1. मैं निरंतर परिणामों के लिए VPC / ICC के समान स्कूल और पुतली स्तरों के बीच विचरण कैसे कर सकता हूँ? मैंने इस लेख को देखा है जिसमें 4 विधियाँ हैं, जिनमें से A और B मेरे लिए दिलचस्प हैं, लेकिन मैं यह जानना चाहता हूँ कि इन दोनों में से किसी का उपयोग करने में क्या फायदे / कमियाँ हो सकती हैं, और यदि कोई और तरीका हो तो यह।

  2. मैं वर्ष-दर-वर्ष (या किसी अन्य समय अवधि) से स्कूल-स्तरीय अवशिष्ट विचरण की तुलना कैसे कर सकता हूं? अब तक मैंने ऐसा किया है कि डेटा को साल में विभाजित करके और मॉडल को डेटा के प्रत्येक वर्ष के खिलाफ चला रहा हूं, लेकिन मुझे लगता है कि यह त्रुटिपूर्ण है क्योंकि: i) कोई स्पष्ट कारण नहीं है कि मुझे वर्ष से विभाजित क्यों किया जाए ; (ii) चूंकि निश्चित प्रभाव अनुमान प्रत्येक वर्ष के लिए अलग-अलग होते हैं, इसलिए वर्ष दर वर्ष यादृच्छिक प्रभावों की तुलना करने से कोई मतलब नहीं हो सकता है (यह सिर्फ मेरा अंतर्ज्ञान है यह बहुत अच्छा होगा यदि कोई इसे और अधिक औपचारिक रूप से समझा सकता है, अगर यह सही है)।

नोट: मैंने इस प्रश्न को मेटा और व्हाइरो के साथ मेटा में चर्चा के बाद फिर से लिखा है


3
मुझे लगता है कि यह एक बड़ा सुधार है। सवाल अब बहुत स्पष्ट है। अभी मेरे पास एक सुनियोजित प्रतिक्रिया देने का समय नहीं है, लेकिन मैं बाद में उत्तर दूंगा।
मैक्रो

3
लॉजिस्टिक मिश्रित प्रभाव मॉडल उच्च विद्यालय के लिए एक अत्यंत उन्नत विषय की तरह लगता है। क्या वे आपके हाई स्कूल पाठ्यक्रम का हिस्सा हैं या आप स्वतंत्र रूप से अध्ययन कर रहे हैं?
mark999

4
@ mark999 मैं स्वतंत्र रूप से अध्ययन कर रहा हूं। वास्तव में मैं अपने भाई को गलत साबित करने की कोशिश कर रहा हूं जिन्होंने कहा कि "ऐसा कोई तरीका नहीं है जिससे आप इसे समझ सकें" । वह आंकड़ों में डिग्री कर रहा है, इसलिए मुझे उसकी सभी पुस्तकों आदि (जब वह अच्छा हो रहा है) तक पहुंच है।
जो राजा

जवाबों:


15

चलो प्रतिक्रिया और भविष्यवक्ता छात्र का वेक्टर दिखाता है (क्रमशः) मैं स्कूल में जेyij,xijij

(1) बाइनरी डेटा के लिए, मुझे लगता है कि निरंतर डेटा के लिए किए गए उन लोगों के अनुरूप विचरण decompositions करने के लिए मानक तरीका है जो लेखक आपके लिंक में विधि डी (नीचे अन्य तरीकों पर टिप्पणी करेंगे) को द्विआधारी डेटा के रूप में कल्पना करते हैं। एक अंतर्निहित निरंतर चर से उत्पन्न होता है जो एक रैखिक मॉडल द्वारा शासित होता है और उस अव्यक्त पैमाने पर विचरण को विघटित करता है। कारण यह है कि लॉजिस्टिक मॉडल (और अन्य GLM) स्वाभाविक रूप से इस तरह से पैदा होते हैं -

इस देखने के लिए, को परिभाषित ऐसी है कि वह एक रेखीय मिश्रित मॉडल के आधार पर नियंत्रित होता है:yij

yij=α+xijβ+ηj+εij

जहां प्रतिगमन गुणांक कर रहे हैं, η j ~ एन ( 0 , σ 2 ) स्कूल स्तर यादृच्छिक प्रभाव है और ε मैं j अवशिष्ट विचरण शब्द है और एक मानक है रसद वितरण । अब छोडोα,βηjN(0,σ2)εij

yij={1if   yij00if   yij<0

चलो अब, बस रसद CDF हमारे पास का उपयोग करpij=P(yij=1|xij,ηj)

pij=1P(yij<0|xij,ηj)=exp{(α+xijβ+ηj)}1+exp{(α+xijβ+ηj)}

अब दोनों पक्षों के लॉगिट परिवर्तन को लेते हुए , आपके पास है

log(pij1pij)=α+xijβ+ηj

जो वास्तव में लॉजिस्टिक मिश्रित प्रभाव मॉडल है। तो, लॉजिस्टिक मॉडल ऊपर निर्दिष्ट अव्यक्त चर मॉडल के बराबर है। एक महत्वपूर्ण नोट:

  • पैमाने की पहचान तब से नहीं की जाती है, यदि आप इसे नीचे पैमाने पर रखना चाहते हैं, लेकिन एक स्थिर s , तो यह बस उपरोक्त को बदल देगा।εijs

exp{(α+xijβ+ηj)/s}1+exp{(α+xijβ+ηj)/s}

       इसलिए गुणांक और यादृच्छिक प्रभाव बस इसी राशि द्वारा बढ़ाया जाएगा । तो, रों = 1 प्रयोग किया जाता है, जिसका मतलब वी एक आर ( ε मैं जे ) = π 2 / 3
      s=1var(εij)=π2/3

अब, यदि आप इस मॉडल और फिर मात्रा का उपयोग करते हैं

σ^η2σ^η2+π2/3

अंतर्निहित अव्यक्त चरों के अंतःसंबंध सहसंबंध का अनुमान लगाता है । एक और महत्वपूर्ण नोट:

  • यदि के रूप में निर्दिष्ट किया जाता है, बजाय, एक मानक सामान्य वितरण होने, तो आप मिश्रित प्रभाव है मॉडल PROBIT । उस मामले में σ 2 ηεijका अनुमान हैtetrachoric सहसंबंधएक ही स्कूल है, जो पियर्सन (करीब 1900 मुझे लगता है कि) द्वारा दिखाया गया में दो बेतरतीब ढंग से चुने विद्यार्थियों के बीच सांख्यिकीय पहचान होने की जब अंतर्निहित निरंतर डेटा सामान्य रूप से वितरित किया गया था (यह काम वास्तव में इन सहसंबंध दिखाया द्विआधारी मामले से परे कई श्रेणी के मामले में पहचाने गए, जहां इन सहसंबंधों कोपॉलीकोरिक सहसंबंधकहा जाताहै)। इस कारण से, यह एक संभावित मॉडल का उपयोग करने के लिए बेहतर हो सकता है (और मेरी सिफारिश होगी) जब बाइनरी डेटा के इंट्राक्लास सहसंबंध का अनुमान लगाने में प्राथमिक रुचि (टेट्राकोरिक) है।
    σ^η2σ^η2+1

आपके द्वारा लिंक किए गए कागज में उल्लिखित अन्य विधियों के बारे में:

  • xij

  • (बी) सिमुलेशन पद्धति सहज रूप से एक सांख्यिकीविद से अपील कर रही है क्योंकि यह आपको डेटा के मूल पैमाने पर अनुमानित विघटन अपघटन देगा, लेकिन दर्शकों के आधार पर, आपके "तरीकों" में इसका वर्णन करना जटिल हो सकता है। अनुभाग और (ii) एक समीक्षक को बंद कर सकता है जो कुछ "अधिक मानक" की तलाश में था

  • (सी) डेटा को रोकना निरंतर है, शायद यह एक महान विचार नहीं है, हालांकि यह बहुत अच्छा प्रदर्शन नहीं करेगा यदि अधिकांश संभावनाएं 0 या 1 के करीब नहीं हैं। लेकिन, ऐसा करने से लगभग निश्चित रूप से एक समीक्षक को लाल झंडा उठाना पड़ेगा। इसलिए मैं दूर रहूंगा।

अब आखिरकार,

(2) यदि निर्धारित प्रभाव वर्षों में बहुत भिन्न होते हैं, तो आपको यह सोचना सही होगा कि सालों भर यादृच्छिक प्रभाव भिन्नताओं की तुलना करना मुश्किल हो सकता है, क्योंकि वे संभावित रूप से विभिन्न पैमानों पर होते हैं (यह गैर-पहचान से संबंधित है ऊपर उल्लिखित स्केलिंग समस्या)।

Ik=1k

α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6

यह आपको हर साल एक अलग ICC देगा लेकिन समान निश्चित प्रभाव। यह समय में एक यादृच्छिक ढलान का उपयोग करने के लिए आकर्षक हो सकता है, जिससे आपके रैखिक भविष्यवक्ता बन सकते हैं

α+xijβ+η1+η2t

लेकिन मैं इसकी अनुशंसा नहीं करता, क्योंकि यह केवल आपके संघों को समय के साथ बढ़ने की अनुमति देगा , कमी नहीं ।


कृपया मुझे अपनी टिप्पणी इस विचरण विभाजन तकनीक के बारे में जुड़े हुए लेख में बिंदु को संबोधित करने के लिए दें, जो कहती है, "यह दृष्टिकोण उचित हो सकता है जहाँ (0, 1) प्रतिक्रिया है, कहते हैं, एक अंतर्निहित निरंतरता के छंटनी से उत्पन्न होती है जैसे कि एक निरंतर चिह्न पैमाने पर आधारित एक पास / असफल प्रतिक्रिया, लेकिन प्रतिक्रिया उचित रूप से असतत होने पर कम औचित्य प्रतीत होता है, जैसे मृत्यु दर या मतदान " । मेरे मामले में मैं बदमाशी की घटना से निपट रहा हूं, जो कि बाद की श्रेणी में आता है, मुझे लगता है ...
जो किंग

@JoeKing, मैं कहूंगा कि लॉजिस्टिक / प्रोबिट (और इसी तरह) प्रतिगमन मॉडल पहले से ही मानते हैं कि डेटा एक अंतर्निहित सातत्य से उत्पन्न होते हैं, क्योंकि मॉडल को इसके बराबर दिखाया जा सकता है। इसलिए, अगर कोई ऐसे मॉडल का उपयोग कर रहा है, तो उन्हें उस धारणा को दोषपूर्ण होना चाहिए :)
मैक्रो

1
@JoeKing, अगर आप इस उत्तर को निश्चित मानते हैं तो कृपया स्वीकार करने पर विचार करें :)
मैक्रो

मैं वास्तव में करूँगा। फिलहाल मैं कुछ बिंदुओं के बारे में थोड़ा अनिश्चित हूं और थोड़ा समय (कुछ दिन) पढ़ने और थोड़ा और डेटा देखने के बाद आपके पास वापस आना चाहूंगा। अगर आपको कोई आपत्ति नहीं है?
जो राजा

@ जोइंग का कोर्स - कुछ नए सदस्य अनजान हैं, इसलिए मैंने सोचा कि मैं इस बात की ओर ध्यान दिलाता हूँ - इसका मतलब आप पर दबाव डालना नहीं था
मैक्रो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.