संक्षिप्त उत्तर यह है कि आपका अनुमान सही है और केवल तभी जब डेटा में एक सकारात्मक इंट्रा-क्लास सहसंबंध है । व्यावहारिक रूप से बोलना, अधिकांश क्लस्टर किए गए डेटासेट अधिकांश समय एक सकारात्मक इंट्रा-क्लास सहसंबंध दिखाते हैं, जिसका अर्थ है कि व्यवहार में आपका अनुमान आमतौर पर सच है। लेकिन अगर इंट्रा-क्लास सहसंबंध 0 है, तो आपके द्वारा उल्लिखित दो मामले समान रूप से जानकारीपूर्ण हैं। और अगर इंट्रा-क्लास सहसंबंध नकारात्मक है , तो अधिक विषयों पर कम माप लेने के लिए वास्तव में कम जानकारीपूर्ण है; हम वास्तव में पसंद करेंगे (जहाँ तक पैरामीटर अनुमान के विचलन को कम करने का संबंध है) एक ही विषय पर हमारे सभी माप लेने के लिए।
सांख्यिकीय रूप से दो दृष्टिकोण हैं जिनसे हम इस बारे में सोच सकते हैं: एक यादृच्छिक-प्रभाव (या मिश्रित ) मॉडल , जिसका आप अपने प्रश्न में उल्लेख करते हैं, या एक सीमांत मॉडल , जो अंत में यहां थोड़ा अधिक जानकारीपूर्ण होता है।
रैंडम-प्रभाव (मिश्रित) मॉडल
हम का एक सेट है कहो विषयों जिसे हम कर लिया है माप प्रत्येक। फिर th विषय
से th माप का एक सरल यादृच्छिक-प्रभाव मॉडल
जहां निश्चित अवरोधन है, यादृच्छिक विषय प्रभाव है (साथ) variance ), अवलोकन-स्तर त्रुटि शब्द है (variance ), और बाद वाले दो यादृच्छिक शब्द स्वतंत्र हैं।एम जे मैं y मैं j = β + यू मैं + ई मैं j , β यू मैं σ 2 यू ई मैं j σ 2 ईnमीटरjमैं
yमैं जे= β+ यूमैं+ ईमैं जे,
βयूमैंσ2यूईमैं जेσ2ई
इस मॉडल में जनसंख्या के माध्य का प्रतिनिधित्व करता है, और एक संतुलित डेटासेट (यानी, प्रत्येक विषय से माप की एक समान संख्या) के साथ, हमारा सबसे अच्छा अनुमान बस नमूना माध्य है। इसलिए यदि हम इस अनुमान के लिए छोटे संस्करण का अर्थ करने के लिए "अधिक जानकारी" लेते हैं, तो मूल रूप से हम यह जानना चाहते हैं कि नमूना का विचलन और पर कैसे निर्भर करता है । बीजगणित के एक बिट के साथ हम यह काम कर सकते हैं
n m var ( 1)βnमीटर
var ( 1)एन एमΣमैंΣjyमैं जे)= वर ( १)एन एमΣमैंΣjβ+ यूमैं+ ईमैं जे)= 1n2मीटर2var ( ∑मैंΣjयूमैं+ ∑मैंΣjईमैं जे)= 1n2मीटर2( मी2Σमैंvar ( यूमैं) + ∑मैंΣjvar ( e)मैं जे) )= 1n2मीटर2( एन एम2σ2यू+ एन एम σ2ई)= σ2यूn+ σ2ईएन एम।
इस अभिव्यक्ति की जांच करते हुए, हम देख सकते हैं कि
जब भी कोई विषय विचरण होता है (यानी, ), तो विषयों की संख्या में वृद्धि ( ) संख्या बढ़ाते हुए, इन दोनों शब्दों को छोटा कर देगी। प्रति विषय माप की माप (
σ2यू> 0nमीटर) केवल दूसरे पद को छोटा करेगा। (बहु-साइट प्रतिकृति परियोजनाओं को डिजाइन करने के लिए इसके एक व्यावहारिक निहितार्थ के लिए,
यह ब्लॉग पोस्ट देखें जो
मैंने कुछ समय पहले लिखा था ।)
अब आप यह जानना चाहते हैं कि जब हम स्थिरांक को बढ़ाते हैं, तो या वृद्धि या कमी होती है । तो इसके लिए हम को एक स्थिरांक मानते हैं , ताकि संपूर्ण विचरण अभिव्यक्ति बस तरह
जो कि जितना बड़ा हो उतना छोटा है संभव (अधिकतम , जिस स्थिति में , जिसका अर्थ है कि हम प्रत्येक विषय से एक ही माप लेते हैं)।मीटरnएन एम
σ2यूn+ स्थिर ,
nn = n मीम = १
मेरा संक्षिप्त जवाब इंट्रा-क्लास के सहसंबंध के लिए संदर्भित है, तो यह कहां फिट बैठता है? इस सरल यादृच्छिक-प्रभाव मॉडल में इंट्रा-क्लास सहसंबंध
( यहां व्युत्पत्ति का स्केच ) है। इसलिए हम ऊपर दिए गए प्रसरण समीकरण को
यह वास्तव में कोई जोड़ नहीं है अंतर्दृष्टि जो हमने पहले ही ऊपर देखा था, लेकिन यह हमें आश्चर्यचकित करता है: चूंकि इंट्रा-क्लास संबंध सहसंबंधी गुणांक गुणांक है, और सहसंबंध गुणांक नकारात्मक हो सकते हैं, क्या होगा (और इसका क्या मतलब होगा) यदि इंट्रा-क्लास सहसंबंध नकारात्मक थे?
ρ = σ2यूσ2यू+ σ2ई
var ( 1)एन एमΣमैंΣjyमैं जे) = σ2यूn+ σ2ईएन एम= ( ρn+ 1 - ρnएम) ( σ2यू+σ2ई)
यादृच्छिक-प्रभाव मॉडल के संदर्भ में, एक नकारात्मक इंट्रा-क्लास सहसंबंध वास्तव में कोई मतलब नहीं है, क्योंकि इसका मतलब है कि विषय विचरण किसी तरह नकारात्मक है (जैसा कि हम ऊपर दिए गए समीकरण से देख सकते हैं ,) जैसा कि यहाँ और यहाँ बताया गया है ... लेकिन संस्करण नकारात्मक नहीं हो सकते! लेकिन इसका मतलब यह नहीं है कि एक नकारात्मक अंतर-वर्ग सहसंबंध की अवधारणा का कोई मतलब नहीं है; इसका मतलब सिर्फ इतना है कि यादृच्छिक-प्रभाव मॉडल के पास इस अवधारणा को व्यक्त करने का कोई तरीका नहीं है, जो कि अवधारणा की नहीं, मॉडल की विफलता है। इस अवधारणा को पर्याप्त रूप से व्यक्त करने के लिए हमें सीमांत मॉडल पर विचार करने की आवश्यकता है।σ2यूρ
सीमांत मॉडल
इसी डेटासेट के लिए हम ,
एक तथाकथित सीमांत मॉडल पर विचार कर सकते हैं
जहां मूल रूप से हमने यादृच्छिक विषय प्रभाव को पहले से धक्का दिया है त्रुटि शब्द ताकि हमारे पास । रैंडम-प्रभाव मॉडल में हमने दो यादृच्छिक शब्दों और को iid माना है , लेकिन सीमांत मॉडल में हम को ब्लॉक-विकर्ण सहसंयोजक मैट्रिक्स मानने के लिए मानते हैं। पसंद
वाई मैं j = β + ई *yमैं जे
yij=β+e∗ij,
uieije∗ij=ui+eijuieije∗ijCC=σ2⎡⎣⎢⎢⎢⎢⎢R0⋮00R⋮0⋯⋯⋱⋯00⋮R⎤⎦⎥⎥⎥⎥⎥,R=⎡⎣⎢⎢⎢⎢⎢1ρ⋮ρρ1⋮ρ⋯⋯⋱⋯ρρ⋮1⎤⎦⎥⎥⎥⎥⎥
शब्दों में, इसका मतलब यह है कि सीमांत मॉडल के तहत हम बस पर विचार करते हैं। दोनों के बीच की उम्मीद सहसंबंध होने के लिए एक ही विषय से है (हम यह मान विषयों भर में सहसंबंध 0 है)। जब
ρe∗ρसकारात्मक है, एक ही विषय से खींची गई दो टिप्पणियों में अधिक समान (एक साथ करीब) होते हैं, औसतन विषयों के कारण क्लस्टरिंग को अनदेखा करते हुए डेटासेट से यादृच्छिक रूप से खींचे गए दो अवलोकन हैं। जब है
नकारात्मक , दो एक ही विषय से तैयार टिप्पणियों हो जाते हैं
कम समान (आगे के अलावा), औसत पर, यादृच्छिक पर पूरी तरह से तैयार की दो टिप्पणियों की तुलना में। (
सवाल / जवाब में इस व्याख्या के बारे में अधिक जानकारी
यहाँ ।)
ρ
इसलिए अब जब हम सीमांत मॉडल के तहत नमूना माध्य के विचरण के लिए समीकरण को देखते हैं, तो हमारे पास
जो एक ही विचरण अभिव्यक्ति है जिसे हमने यादृच्छिक-प्रभाव मॉडल के लिए उपर्युक्त किया है, बस , जो कि हमारे नोट के ऊपर संगत है
var(1nm∑i∑jyij)=var(1nm∑i∑jβ+e∗ij)=1n2m2var(∑i∑je∗ij)=1n2m2(n(mσ2+(m2−m)ρσ2))=σ2(1+(m−1)ρ)nm=(ρn+1−ρnm)σ2,
σ2e+σ2u=σ2e∗ij=ui+eij। इस (सांख्यिकीय रूप से समतुल्य) परिप्रेक्ष्य का लाभ यह है कि यहां हम नकारात्मक विषय विचरण जैसी किसी भी अजीब अवधारणा को लागू करने की आवश्यकता के बिना एक नकारात्मक अंतर-वर्ग सहसंबंध के बारे में सोच सकते हैं। नकारात्मक इंट्रा-क्लास सहसंबंध केवल इस ढांचे में स्वाभाविक रूप से फिट होते हैं।
(बीटीडब्लू, केवल एक तरफ इंगित करने के लिए कि ऊपर दी गई व्युत्पत्ति की दूसरी-से-अंतिम रेखा का तात्पर्य है कि हमारे पास होना चाहिए , या अन्यथा संपूर्ण समीकरण ऋणात्मक है, लेकिन variances नकारात्मक नहीं हो सकता है! इसलिए इंट्रा-क्लास सहसंबंध पर एक कम बाध्य है जो इस बात पर निर्भर करता है कि हमारे पास प्रति क्लस्टर कितने माप हैं। (यानी, हम प्रत्येक विषय को दो बार मापते हैं), इंट्रा-क्लास सहसंबंध जा सकता है। सभी तरह से नीचे ; यह केवल ही नीचे जा सकता है , और इसी तरह मजेदार तथ्य!ρ≥−1/(m−1)m=2ρ=−1m=3ρ=−1/2
तो अंत में, एक बार फिर टिप्पणियों की कुल संख्या पर विचार एक निरंतर होने के लिए, हम देखते हैं कि जैसे बस दिखता है ऊपर व्युत्पत्ति के दूसरे करने के लिए अंतिम पंक्ति
इसलिए जब , जितना संभव हो उतना छोटा हो (ताकि हम अधिक विषयों के कम माप लें - सीमा में, प्रत्येक विषय का 1 माप) जितना संभव हो उतना छोटा अनुमान लगाता है। लेकिन जब , हम वास्तव में जितना संभव हो उतना बड़ा होना चाहते हैं (ताकि सीमा में, हम एक ही विषय से सभी माप लेते हैं) ताकि विचरण को यथासंभव छोटा किया जा सके। और कब( 1 + ( m - 1 ) ρ ) × सकारात्मक स्थिरांक । ρ > 0 मीटर ρ < 0 मीटर n m ρ = 0 मीटर nnm
(1+(m−1)ρ)×positive constant.
ρ>0mρ<0mnmρ=0 , अनुमान का विचरण केवल एक स्थिर है, इसलिए और का हमारा आवंटन कोई मायने नहीं रखता है।
mn