क्या मुझे प्रत्येक समुदाय के लिए अलग-अलग पंजीकरण चलाने चाहिए, या क्या समुदाय एक एकत्रित मॉडल में एक नियंत्रित चर हो सकता है?


11

मैं एक निरंतर परिसंपत्ति सूचकांक चर के साथ एक ओएलएस मॉडल चला रहा हूं DV। मेरा डेटा तीन भौगोलिक समुदायों के समान भौगोलिक निकटता से एक दूसरे में एकत्रित है। इसके बावजूद, मैंने समुदाय को एक नियंत्रित चर के रूप में उपयोग करना महत्वपूर्ण समझा। जैसा कि यह पता चला है, समुदाय 1% स्तर (-4.52 का टी-स्कोर) पर महत्वपूर्ण है। समुदाय 3 अलग-अलग समुदायों में से 1 के लिए 1,2,3 के रूप में एक मामूली / श्रेणीबद्ध चर है।

मेरा प्रश्न यह है कि यदि इस उच्च स्तर की सार्थकता का अर्थ है कि मैं एकत्रीकरण के बजाय समुदायों पर व्यक्तिगत रूप से प्रतिगमन कर रहा हूं। अन्यथा, समुदाय का उपयोग एक नियंत्रित चर के रूप में अनिवार्य रूप से कर रहा है?


यह एक यादृच्छिक प्रभाव के रूप में समुदाय के साथ एक पदानुक्रमित मॉडल का उपयोग करने के लिए समझ में आता है? समुदाय आपकी प्राथमिक चिंता नहीं हैं, क्या वे हैं? एक पदानुक्रमित मॉडल का उपयोग करके, आप ताकत साझा करते हैं।
वेन

जवाबों:


14

सवाल तीन संबंधित मॉडलों की तुलना का सुझाव देता है। तुलना स्पष्ट करने के लिए, चलो निर्भर चर हो, चलो एक्स { 1 , 2 , 3 } वर्तमान समुदाय कोड है, और परिभाषित एक्स 1 और एक्स 2 समुदायों 1 और 2 के संकेतक, क्रमश। (इसका मतलब है कि समुदाय 1 के लिए X 1 = 1 और समुदायों 2 और 3 के लिए X 1 = 0 ; समुदाय 2 के लिए X 2 = 1 और X 2 = 0 के लिए 1)YX{1,2,3}X1X2X1=1X1=0X2=1X2=0 समुदायों के लिए 1 और 3.)

वर्तमान विश्लेषण निम्नलिखित में से एक हो सकता है: या तो

Y=α+βX+ε(first model)

या

Y=α+β1एक्स1+β2एक्स2+ε(दूसरा मॉडल)

दोनों ही मामलों में शून्य अपेक्षा के साथ समान रूप से वितरित स्वतंत्र यादृच्छिक चर का प्रतिनिधित्व करता है। दूसरा मॉडल होने की संभावना एक है, लेकिन पहला मॉडल वह है जो प्रश्न में वर्णित कोडिंग के साथ फिट होगा।ε

ओएलएस रिग्रेशन का आउटपुट फिटेड मापदंडों का एक समूह है (जो उनके प्रतीकों पर "टोपी के साथ संकेत दिया गया है") साथ में त्रुटियों के सामान्य संस्करण का अनुमान है। पहले मॉडल में एक टी परीक्षण तुलना करने के लिए नहीं है β के लिए 0 । दूसरे मॉडल में देखते हैं दो एक तुलना करने के लिए: टी परीक्षण ^ β 1 करने के लिए 0 और एक अन्य की तुलना करने के ^ β 2 के लिए 0 । क्योंकि सवाल केवल एक टी-टेस्ट की रिपोर्ट करता है, चलो पहले मॉडल की जांच करके शुरू करते हैं।β^0β1^0β2^0

निष्कर्ष निकाला करने के बाद कि β से काफी अलग है 0 , हम के एक अनुमान कर सकते हैं वाई = [ α + β एक्स + ε ] = α + β एक्स किसी भी समुदाय के लिए:β^0Y[α+βएक्स+ε]α+βएक्स

समुदाय 1 के लिए, और अनुमान बराबर α + β ;एक्स=1α+β

समुदाय 2 के लिए, और अनुमान बराबर α + 2 β ; तथाएक्स=2α+2β

समुदाय 3, के लिए और अनुमान के बराबर होती है α + 3 βएक्स=3α+3β

विशेष रूप से, पहला मॉडल सामुदायिक प्रभावों को अंकगणितीय प्रगति में लाने के लिए मजबूर करता है। यदि समुदाय कोडिंग को समुदायों के बीच अंतर करने का सिर्फ एक मनमाना तरीका माना जाता है, तो यह अंतर्निहित प्रतिबंध समान रूप से मनमाना और गलत है।

यह दूसरे मॉडल की भविष्यवाणियों के समान विस्तृत विश्लेषण करने के लिए शिक्षाप्रद है:

समुदाय 1, जहां के लिए और एक्स 2 = 0 , की भविष्यवाणी मूल्य वाई के बराबर होती है α + β 1 । विशेष रूप से,एक्स1=1एक्स2=0Yα+β1

Y(समुदाय १)=α+β1+ε

समुदाय में 2, जहां के लिए और एक्स 2 = 1 , की भविष्यवाणी मूल्य वाई के बराबर होती है α + β 2 । विशेष रूप से,एक्स1=0एक्स2=1Yα+β2

Y(समुदाय २)=α+β2+ε

समुदाय 3 के लिए, जहां , Y की अनुमानित कीमत α के बराबर है । विशेष रूप से,एक्स1=एक्स2=0Yα

Y(समुदाय ३)=α+ε

तीन पैरामीटर प्रभावी रूप से के तीन अपेक्षित मूल्यों का अनुमान लगाने के लिए दूसरे मॉडल को पूरी तरह से स्वतंत्रता देते हैं । Y टी परीक्षण का आकलन (1) क्या ; यह कि, समुदायों 1 और 3 के बीच अंतर है या नहीं; और (2) β 2 = 0 ; कि क्या वहाँ समुदायों 2 और 3 इसके अलावा, एक "विपरीत" का परीक्षण कर सकते में के बीच एक अंतर है, β 2 - β 1 इस काम करता है क्योंकि उनके अंतर है: एक टी परीक्षण के साथ देखने के लिए कि समुदायों 2 और 1 अलग ( α + β 2 ) - ( α +β1=0β2=0β2-β1 = β 2 - β 1(α+β2)-(α+β1)β2-β1

अब हम तीन अलग-अलग रजिस्टरों के प्रभाव का आकलन कर सकते हैं। वे होंगे

Y(समुदाय १)=α1+ε1,

Y(समुदाय २)=α2+ε2,

Y(समुदाय ३)=α3+ε3

दूसरे मॉडल को यह मुकाबले हम देखते हैं कि से सहमत होना चाहिए α + β 1 , अल्फा 2 से सहमत होना चाहिए α + β 2 , और α 3 से सहमत होना चाहिए α । तो, फिटिंग मापदंडों के लचीलेपन के मामले में, दोनों मॉडल समान रूप से अच्छे हैं। हालांकि, त्रुटि की शर्तों के बारे में इस मॉडल की धारणाएं कमजोर हैं। सभी i 1 को स्वतंत्र और पहचान के साथ वितरित किया जाना चाहिए (iid); सभी ε 2 आईआईडी होना चाहिए, और सभी ε 3 आईआईडी होना चाहिए,α1α+β1α2α+β2α3αε1ε2ε3लेकिन अलग-अलग व्यवस्थाओं के बीच सांख्यिकीय संबंधों के बारे में कुछ भी नहीं माना जाता है। इसलिए अलग-अलग पंजीकरण अतिरिक्त लचीलेपन की अनुमति देते हैं:

  • सबसे महत्वपूर्ण बात, के वितरण की गई जानकारी से भिन्न कर सकते हैं ε 2 जिनमें से से अलग कर सकते हैं ε 3ε1ε2ε3

  • कुछ स्थितियों में, के साथ सहसंबद्ध किया जा सकता है ε जे । इनमें से कोई भी मॉडल स्पष्ट रूप से इसे संभालता नहीं है, लेकिन तीसरा मॉडल (अलग-अलग प्रतिगमन) कम से कम इससे प्रतिकूल रूप से प्रभावित नहीं होगा।εiεजे

इस अतिरिक्त लचीलेपन का मतलब है कि मापदंडों के लिए टी-परीक्षण के परिणाम दूसरे और तीसरे मॉडल के बीच भिन्न होंगे। (यह अलग पैरामीटर अनुमान में परिणाम नहीं होना चाहिए, हालांकि।)

यह देखने के लिए कि क्या अलग-अलग रजिस्टरों की आवश्यकता है , निम्न कार्य करें:

दूसरा मॉडल फिट करें। समुदाय के खिलाफ अवशिष्टों को प्लॉट करें, उदाहरण के लिए साइड-बाय-साइड बॉक्सप्लेट्स या हिस्टोग्राम्स की तिकड़ी के रूप में या यहां तक ​​कि तीन प्रायिकता प्लॉट्स के रूप में। अलग-अलग वितरण आकार और विशेष रूप से प्रशंसात्मक भिन्नताओं के प्रमाणों के लिए देखें। यदि वह सबूत अनुपस्थित है, तो दूसरा मॉडल ठीक होना चाहिए। यदि यह मौजूद है, तो अलग-अलग रजिस्टरों को वारंट किया जाता है।

जब मॉडल बहुभिन्नरूपी होते हैं - अर्थात, वे अन्य कारकों को शामिल करते हैं - एक समान विश्लेषण संभव है, समान (लेकिन अधिक जटिल) निष्कर्ष। सामान्य तौर पर, अलग-अलग रेजिस्ट्रेशन करना समुदाय चर के साथ सभी संभव दो-तरफ़ा बातचीत को शामिल करने के लिए समान है (प्रत्येक मॉडल के लिए दूसरे मॉडल के रूप में कोडित) और प्रत्येक समुदाय के लिए अलग-अलग त्रुटि वितरण की अनुमति देता है।


-3
  • मॉडल चयन (IMHO) फिर से शुरू किया यहाँ छवि विवरण दर्ज करेंजा सकता है। क्योंकि जटिल मॉडल (अलग ढलान) में अधिक कठोर दंड होगा, इस प्रकार अधिक संक्षिप्त और आसान व्याख्या करने योग्य मॉडल "बेहतर" होंगे।

1
यह पूरी तरह से स्पष्ट नहीं है कि आप यहाँ क्या सुझा रहे हैं, या यह तालिका इससे कैसे संबंधित है।
Scortchi - को पुनः स्थापित मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.