सवाल तीन संबंधित मॉडलों की तुलना का सुझाव देता है। तुलना स्पष्ट करने के लिए, चलो निर्भर चर हो, चलो एक्स ∈ { 1 , 2 , 3 } वर्तमान समुदाय कोड है, और परिभाषित एक्स 1 और एक्स 2 समुदायों 1 और 2 के संकेतक, क्रमश। (इसका मतलब है कि समुदाय 1 के लिए X 1 = 1 और समुदायों 2 और 3 के लिए X 1 = 0 ; समुदाय 2 के लिए X 2 = 1 और X 2 = 0 के लिए 1)Yएक्स∈ { 1 , 2 , 3 }एक्स1एक्स2एक्स1= 1एक्स1= 0एक्स2= 1एक्स2= 0 समुदायों के लिए 1 और 3.)
वर्तमान विश्लेषण निम्नलिखित में से एक हो सकता है: या तो
Y= α + βएक्स+ ε(पहला मॉडल)
या
Y= α + β1एक्स1+ β2एक्स2+ ε(दूसरा मॉडल) ।
दोनों ही मामलों में शून्य अपेक्षा के साथ समान रूप से वितरित स्वतंत्र यादृच्छिक चर का प्रतिनिधित्व करता है। दूसरा मॉडल होने की संभावना एक है, लेकिन पहला मॉडल वह है जो प्रश्न में वर्णित कोडिंग के साथ फिट होगा।ε
ओएलएस रिग्रेशन का आउटपुट फिटेड मापदंडों का एक समूह है (जो उनके प्रतीकों पर "टोपी के साथ संकेत दिया गया है") साथ में त्रुटियों के सामान्य संस्करण का अनुमान है। पहले मॉडल में एक टी परीक्षण तुलना करने के लिए नहीं है β के लिए 0 । दूसरे मॉडल में देखते हैं दो एक तुलना करने के लिए: टी परीक्षण ^ β 1 करने के लिए 0 और एक अन्य की तुलना करने के ^ β 2 के लिए 0 । क्योंकि सवाल केवल एक टी-टेस्ट की रिपोर्ट करता है, चलो पहले मॉडल की जांच करके शुरू करते हैं।β^0β1^0β2^0
निष्कर्ष निकाला करने के बाद कि β से काफी अलग है 0 , हम के एक अनुमान कर सकते हैं वाई = ई [ α + β एक्स + ε ] = α + β एक्स किसी भी समुदाय के लिए:β^0Yई [α+βएक्स+ Ε ]α + βएक्स
समुदाय 1 के लिए, और अनुमान बराबर α + β ;एक्स= 1α + β
समुदाय 2 के लिए, और अनुमान बराबर α + 2 β ; तथाएक्स= २α + 2 β
समुदाय 3, के लिए और अनुमान के बराबर होती है α + 3 β । एक्स= ३α + 3 β
विशेष रूप से, पहला मॉडल सामुदायिक प्रभावों को अंकगणितीय प्रगति में लाने के लिए मजबूर करता है। यदि समुदाय कोडिंग को समुदायों के बीच अंतर करने का सिर्फ एक मनमाना तरीका माना जाता है, तो यह अंतर्निहित प्रतिबंध समान रूप से मनमाना और गलत है।
यह दूसरे मॉडल की भविष्यवाणियों के समान विस्तृत विश्लेषण करने के लिए शिक्षाप्रद है:
समुदाय 1, जहां के लिए और एक्स 2 = 0 , की भविष्यवाणी मूल्य वाई के बराबर होती है α + β 1 । विशेष रूप से,एक्स1= 1एक्स2= 0Yα + β1
Y( समुदाय 1 ) = α + β1+ ε ।
समुदाय में 2, जहां के लिए और एक्स 2 = 1 , की भविष्यवाणी मूल्य वाई के बराबर होती है α + β 2 । विशेष रूप से,एक्स1= 0एक्स2= 1Yα + β2
Y(community 2)=α+β2+ε.
समुदाय 3 के लिए, जहां , Y की अनुमानित कीमत α के बराबर है । विशेष रूप से,X1=X2=0Yα
Y(community 3)=α+ε.
तीन पैरामीटर प्रभावी रूप से के तीन अपेक्षित मूल्यों का अनुमान लगाने के लिए दूसरे मॉडल को पूरी तरह से स्वतंत्रता देते हैं । Y टी परीक्षण का आकलन (1) क्या ; यह कि, समुदायों 1 और 3 के बीच अंतर है या नहीं; और (2) β 2 = 0 ; कि क्या वहाँ समुदायों 2 और 3 इसके अलावा, एक "विपरीत" का परीक्षण कर सकते में के बीच एक अंतर है, β 2 - β 1 इस काम करता है क्योंकि उनके अंतर है: एक टी परीक्षण के साथ देखने के लिए कि समुदायों 2 और 1 अलग ( α + β 2 ) - ( α +β1=0β2=0β2−β1 = β 2 - β 1 ।(α+β2)−(α+β1)β2−β1
अब हम तीन अलग-अलग रजिस्टरों के प्रभाव का आकलन कर सकते हैं। वे होंगे
Y(community 1)=α1+ε1,
Y(community 2)=α2+ε2,
Y(community 3)=α3+ε3.
दूसरे मॉडल को यह मुकाबले हम देखते हैं कि से सहमत होना चाहिए α + β 1 , अल्फा 2 से सहमत होना चाहिए α + β 2 , और α 3 से सहमत होना चाहिए α । तो, फिटिंग मापदंडों के लचीलेपन के मामले में, दोनों मॉडल समान रूप से अच्छे हैं। हालांकि, त्रुटि की शर्तों के बारे में इस मॉडल की धारणाएं कमजोर हैं। सभी i 1 को स्वतंत्र और पहचान के साथ वितरित किया जाना चाहिए (iid); सभी ε 2 आईआईडी होना चाहिए, और सभी ε 3 आईआईडी होना चाहिए,α1α+β1α2α+β2α3αε1ε2ε3लेकिन अलग-अलग व्यवस्थाओं के बीच सांख्यिकीय संबंधों के बारे में कुछ भी नहीं माना जाता है। इसलिए अलग-अलग पंजीकरण अतिरिक्त लचीलेपन की अनुमति देते हैं:
सबसे महत्वपूर्ण बात, के वितरण की गई जानकारी से भिन्न कर सकते हैं ε 2 जिनमें से से अलग कर सकते हैं ε 3 ।ε1ε2ε3
कुछ स्थितियों में, के साथ सहसंबद्ध किया जा सकता है ε जे । इनमें से कोई भी मॉडल स्पष्ट रूप से इसे संभालता नहीं है, लेकिन तीसरा मॉडल (अलग-अलग प्रतिगमन) कम से कम इससे प्रतिकूल रूप से प्रभावित नहीं होगा।εiεj
इस अतिरिक्त लचीलेपन का मतलब है कि मापदंडों के लिए टी-परीक्षण के परिणाम दूसरे और तीसरे मॉडल के बीच भिन्न होंगे। (यह अलग पैरामीटर अनुमान में परिणाम नहीं होना चाहिए, हालांकि।)
यह देखने के लिए कि क्या अलग-अलग रजिस्टरों की आवश्यकता है , निम्न कार्य करें:
दूसरा मॉडल फिट करें। समुदाय के खिलाफ अवशिष्टों को प्लॉट करें, उदाहरण के लिए साइड-बाय-साइड बॉक्सप्लेट्स या हिस्टोग्राम्स की तिकड़ी के रूप में या यहां तक कि तीन प्रायिकता प्लॉट्स के रूप में। अलग-अलग वितरण आकार और विशेष रूप से प्रशंसात्मक भिन्नताओं के प्रमाणों के लिए देखें। यदि वह सबूत अनुपस्थित है, तो दूसरा मॉडल ठीक होना चाहिए। यदि यह मौजूद है, तो अलग-अलग रजिस्टरों को वारंट किया जाता है।
जब मॉडल बहुभिन्नरूपी होते हैं - अर्थात, वे अन्य कारकों को शामिल करते हैं - एक समान विश्लेषण संभव है, समान (लेकिन अधिक जटिल) निष्कर्ष। सामान्य तौर पर, अलग-अलग रेजिस्ट्रेशन करना समुदाय चर के साथ सभी संभव दो-तरफ़ा बातचीत को शामिल करने के लिए समान है (प्रत्येक मॉडल के लिए दूसरे मॉडल के रूप में कोडित) और प्रत्येक समुदाय के लिए अलग-अलग त्रुटि वितरण की अनुमति देता है।