दिखा रहा है कि 5 विषयों के लिए 100 माप 100 विषयों के लिए 5 मापों की तुलना में बहुत कम जानकारी प्रदान करते हैं


21

एक सम्मेलन में मैंने निम्नलिखित कथन को सुना:

5 विषयों के लिए 100 माप 100 विषयों के लिए 5 मापों की तुलना में बहुत कम जानकारी प्रदान करते हैं।

यह स्पष्ट है कि यह सच है, लेकिन मैं सोच रहा था कि कोई इसे गणितीय रूप से कैसे साबित कर सकता है ... मुझे लगता है कि एक रैखिक मिश्रित मॉडल का उपयोग किया जा सकता है। हालाँकि, मुझे उनके बारे में अनुमान लगाने के लिए इस्तेमाल किए जाने वाले गणित के बारे में ज्यादा जानकारी नहीं है (मैं सिर्फ lmer4LMMs और bmrsGLMMs के लिए दौड़ता हूं :) क्या आप मुझे एक उदाहरण दिखा सकते हैं कि यह कहां तक ​​सच है? मैं कुछ सूत्रों के साथ एक उत्तर पसंद करता हूँ, R. में कुछ कोड की तुलना में। एक साधारण सेटिंग को मानने के लिए स्वतंत्र महसूस करें, जैसे कि उदाहरण के लिए रैखिक मिश्रित मॉडल जिसमें सामान्य रूप से वितरित यादृच्छिक अंतर और ढलान होते हैं।

PS एक गणित-आधारित उत्तर जो LMMs को शामिल नहीं करता है वह भी ठीक होगा। मैंने एलएमएम के बारे में सोचा क्योंकि वे मुझे यह बताने के लिए प्राकृतिक साधन थे कि कुछ विषयों से अधिक उपायों से कम उपाय बेहतर क्यों हैं, लेकिन मैं अच्छी तरह से गलत हो सकता हूं।


3
+1। मुझे लगता है कि सबसे सरल सेटिंग आबादी मतलब आकलन के एक कार्य पर विचार करना होगा जहां प्रत्येक विषय के लिए अपने स्वयं के मतलब है और इस विषय में से प्रत्येक के माप के रूप में वितरित किया जाता है । यदि हम प्रत्येक विषयों से माप लेते हैं, तो और दिए गए स्थिर उत्पाद को सेट करने का इष्टतम तरीका क्या है । एक ~ एन ( μ , σ 2 एक ) x ~ एन ( एक , σ 2 ) एन एम एन एम एन मीटर = एनμaN(μ,σa2)xN(a,σ2)nmnmnm=N
अमीबा का कहना है कि मोनिका

अधिग्रहित डेटा पॉइंट के नमूने के विचरण को न्यूनतम करने के अर्थ में "इष्टतम" । N
अमीबा का कहना है कि मोनिका

1
हाँ। लेकिन आपके प्रश्न के लिए हमें इस बात की परवाह करने की आवश्यकता नहीं है कि परिवर्तन का अनुमान कैसे लगाया जाए; आपका प्रश्न (अर्थात आपके प्रश्न का उद्धरण) मेरा मानना ​​है कि केवल वैश्विक माध्य अनुमान लगाने के बारे में है और यह स्पष्ट प्रतीत होता है कि सबसे अच्छा अनुमानक नमूना में सभी बिंदुओं के भव्य माध्य द्वारा दिया जाता है । फिर प्रश्न यह है: दिए गए , , , और , का प्रसरण क्या है ? यदि हम जानते हैं कि, हम बाधा को देखते हुए इसे कम से कम कर पाएंगे । ˉ एक्स एन = n मीटर μ σ 2 σ 2 एक n मीटर ˉ एक्स एन एन मीटर = एनμx¯N=nmμσ2σa2nmx¯nnm=N
अमीबा का कहना है कि मोनिका

1
मैं नहीं जानता कि किसी भी चीज को कैसे प्राप्त किया जाए, लेकिन मैं मानता हूं कि यह स्पष्ट प्रतीत होता है: त्रुटि विचरण का अनुमान लगाने के लिए एक एकल विषय से सभी माप होना सबसे अच्छा होगा ; और विषय विचरण का अनुमान लगाने के लिए (शायद?) 1 माप के साथ विभिन्न विषयों के लिए सबसे अच्छा होगा । हालांकि यह मतलब के बारे में इतना स्पष्ट नहीं है, लेकिन मेरा अंतर्ज्ञान मुझे बताता है कि 1 माप के साथ विषयों वाले प्रत्येक भी सबसे अच्छा होगा। मुझे आश्चर्य है कि अगर यह सच है ...एन एनNNN
अमीबा ने कहा कि मोनिका

2
हो सकता है कि ऐसा कुछ हो: प्रति विषय-वस्तु के नमूने का विचरण होना चाहिए , जहां पहला शब्द विषय विचरण है और दूसरा प्रत्येक विषय के माध्य के अनुमान का विचरण है। फिर अति-विषयों का विचलन मतलब (अर्थात भव्य अर्थ) होगा जो होने पर कम से कम हो जाता है । ( σ 2 एक + σ 2 / n ) / मीटर = σ 2 एक / मीटर + σ 2 / ( एन एम ) = σ 2 एक / मीटर + σ 2 / एन = σ 2 एक / m + c o n s t , m = Nσa2+σ2/n
(σa2+σ2/n)/m=σa2/m+σ2/(nm)=σa2/m+σ2/N=σa2/m+const,
m=N
अमीबा का कहना है कि

जवाबों:


25

संक्षिप्त उत्तर यह है कि आपका अनुमान सही है और केवल तभी जब डेटा में एक सकारात्मक इंट्रा-क्लास सहसंबंध है । व्यावहारिक रूप से बोलना, अधिकांश क्लस्टर किए गए डेटासेट अधिकांश समय एक सकारात्मक इंट्रा-क्लास सहसंबंध दिखाते हैं, जिसका अर्थ है कि व्यवहार में आपका अनुमान आमतौर पर सच है। लेकिन अगर इंट्रा-क्लास सहसंबंध 0 है, तो आपके द्वारा उल्लिखित दो मामले समान रूप से जानकारीपूर्ण हैं। और अगर इंट्रा-क्लास सहसंबंध नकारात्मक है , तो अधिक विषयों पर कम माप लेने के लिए वास्तव में कम जानकारीपूर्ण है; हम वास्तव में पसंद करेंगे (जहाँ तक पैरामीटर अनुमान के विचलन को कम करने का संबंध है) एक ही विषय पर हमारे सभी माप लेने के लिए।

सांख्यिकीय रूप से दो दृष्टिकोण हैं जिनसे हम इस बारे में सोच सकते हैं: एक यादृच्छिक-प्रभाव (या मिश्रित ) मॉडल , जिसका आप अपने प्रश्न में उल्लेख करते हैं, या एक सीमांत मॉडल , जो अंत में यहां थोड़ा अधिक जानकारीपूर्ण होता है।

रैंडम-प्रभाव (मिश्रित) मॉडल

हम का एक सेट है कहो विषयों जिसे हम कर लिया है माप प्रत्येक। फिर th विषय से th माप का एक सरल यादृच्छिक-प्रभाव मॉडल जहां निश्चित अवरोधन है, यादृच्छिक विषय प्रभाव है (साथ) variance ), अवलोकन-स्तर त्रुटि शब्द है (variance ), और बाद वाले दो यादृच्छिक शब्द स्वतंत्र हैं।एम जे मैं y मैं j = β + यू मैं + मैं j , β यू मैं σ 2 यूमैं j σ 2 nmji

yij=β+ui+eij,
βuiσu2eijσe2

इस मॉडल में जनसंख्या के माध्य का प्रतिनिधित्व करता है, और एक संतुलित डेटासेट (यानी, प्रत्येक विषय से माप की एक समान संख्या) के साथ, हमारा सबसे अच्छा अनुमान बस नमूना माध्य है। इसलिए यदि हम इस अनुमान के लिए छोटे संस्करण का अर्थ करने के लिए "अधिक जानकारी" लेते हैं, तो मूल रूप से हम यह जानना चाहते हैं कि नमूना का विचलन और पर कैसे निर्भर करता है । बीजगणित के एक बिट के साथ हम यह काम कर सकते हैं n m var ( 1)βnm

var(1nmijyij)=var(1nmijβ+ui+eij)=1n2m2var(ijui+ijeij)=1n2m2(m2ivar(ui)+ijvar(eij))=1n2m2(nm2σu2+nmσe2)=σu2n+σe2nm.
इस अभिव्यक्ति की जांच करते हुए, हम देख सकते हैं कि जब भी कोई विषय विचरण होता है (यानी, ), तो विषयों की संख्या में वृद्धि ( ) संख्या बढ़ाते हुए, इन दोनों शब्दों को छोटा कर देगी। प्रति विषय माप की माप (σu2>0nm) केवल दूसरे पद को छोटा करेगा। (बहु-साइट प्रतिकृति परियोजनाओं को डिजाइन करने के लिए इसके एक व्यावहारिक निहितार्थ के लिए, यह ब्लॉग पोस्ट देखें जो मैंने कुछ समय पहले लिखा था ।)

अब आप यह जानना चाहते हैं कि जब हम स्थिरांक को बढ़ाते हैं, तो या वृद्धि या कमी होती है । तो इसके लिए हम को एक स्थिरांक मानते हैं , ताकि संपूर्ण विचरण अभिव्यक्ति बस तरह जो कि जितना बड़ा हो उतना छोटा है संभव (अधिकतम , जिस स्थिति में , जिसका अर्थ है कि हम प्रत्येक विषय से एक ही माप लेते हैं)।mnnm

σu2n+constant,
nn=nmm=1

मेरा संक्षिप्त जवाब इंट्रा-क्लास के सहसंबंध के लिए संदर्भित है, तो यह कहां फिट बैठता है? इस सरल यादृच्छिक-प्रभाव मॉडल में इंट्रा-क्लास सहसंबंध ( यहां व्युत्पत्ति का स्केच ) है। इसलिए हम ऊपर दिए गए प्रसरण समीकरण को यह वास्तव में कोई जोड़ नहीं है अंतर्दृष्टि जो हमने पहले ही ऊपर देखा था, लेकिन यह हमें आश्चर्यचकित करता है: चूंकि इंट्रा-क्लास संबंध सहसंबंधी गुणांक गुणांक है, और सहसंबंध गुणांक नकारात्मक हो सकते हैं, क्या होगा (और इसका क्या मतलब होगा) यदि इंट्रा-क्लास सहसंबंध नकारात्मक थे?

ρ=σu2σu2+σe2
var(1nmijyij)=σu2n+σe2nm=(ρn+1ρnm)(σu2+σe2)

यादृच्छिक-प्रभाव मॉडल के संदर्भ में, एक नकारात्मक इंट्रा-क्लास सहसंबंध वास्तव में कोई मतलब नहीं है, क्योंकि इसका मतलब है कि विषय विचरण किसी तरह नकारात्मक है (जैसा कि हम ऊपर दिए गए समीकरण से देख सकते हैं ,) जैसा कि यहाँ और यहाँ बताया गया है ... लेकिन संस्करण नकारात्मक नहीं हो सकते! लेकिन इसका मतलब यह नहीं है कि एक नकारात्मक अंतर-वर्ग सहसंबंध की अवधारणा का कोई मतलब नहीं है; इसका मतलब सिर्फ इतना है कि यादृच्छिक-प्रभाव मॉडल के पास इस अवधारणा को व्यक्त करने का कोई तरीका नहीं है, जो कि अवधारणा की नहीं, मॉडल की विफलता है। इस अवधारणा को पर्याप्त रूप से व्यक्त करने के लिए हमें सीमांत मॉडल पर विचार करने की आवश्यकता है।σu2ρ

सीमांत मॉडल

इसी डेटासेट के लिए हम , एक तथाकथित सीमांत मॉडल पर विचार कर सकते हैं जहां मूल रूप से हमने यादृच्छिक विषय प्रभाव को पहले से धक्का दिया है त्रुटि शब्द ताकि हमारे पास । रैंडम-प्रभाव मॉडल में हमने दो यादृच्छिक शब्दों और को iid माना है , लेकिन सीमांत मॉडल में हम को ब्लॉक-विकर्ण सहसंयोजक मैट्रिक्स मानने के लिए मानते हैं। पसंद वाई मैं j = β + *yij

yij=β+eij,
uieijeij=ui+eijuieijeijC
C=σ2[R000R000R],R=[1ρρρ1ρρρ1]
शब्दों में, इसका मतलब यह है कि सीमांत मॉडल के तहत हम बस पर विचार करते हैं। दोनों के बीच की उम्मीद सहसंबंध होने के लिए एक ही विषय से है (हम यह मान विषयों भर में सहसंबंध 0 है)। जबρeρसकारात्मक है, एक ही विषय से खींची गई दो टिप्पणियों में अधिक समान (एक साथ करीब) होते हैं, औसतन विषयों के कारण क्लस्टरिंग को अनदेखा करते हुए डेटासेट से यादृच्छिक रूप से खींचे गए दो अवलोकन हैं। जब है नकारात्मक , दो एक ही विषय से तैयार टिप्पणियों हो जाते हैं कम समान (आगे के अलावा), औसत पर, यादृच्छिक पर पूरी तरह से तैयार की दो टिप्पणियों की तुलना में। ( सवाल / जवाब में इस व्याख्या के बारे में अधिक जानकारी यहाँ ।)ρ

इसलिए अब जब हम सीमांत मॉडल के तहत नमूना माध्य के विचरण के लिए समीकरण को देखते हैं, तो हमारे पास जो एक ही विचरण अभिव्यक्ति है जिसे हमने यादृच्छिक-प्रभाव मॉडल के लिए उपर्युक्त किया है, बस , जो कि हमारे नोट के ऊपर संगत है

var(1nmijyij)=var(1nmijβ+eij)=1n2m2var(ijeij)=1n2m2(n(mσ2+(m2m)ρσ2))=σ2(1+(m1)ρ)nm=(ρn+1ρnm)σ2,
σe2+σu2=σ2eij=ui+eij। इस (सांख्यिकीय रूप से समतुल्य) परिप्रेक्ष्य का लाभ यह है कि यहां हम नकारात्मक विषय विचरण जैसी किसी भी अजीब अवधारणा को लागू करने की आवश्यकता के बिना एक नकारात्मक अंतर-वर्ग सहसंबंध के बारे में सोच सकते हैं। नकारात्मक इंट्रा-क्लास सहसंबंध केवल इस ढांचे में स्वाभाविक रूप से फिट होते हैं।

(बीटीडब्लू, केवल एक तरफ इंगित करने के लिए कि ऊपर दी गई व्युत्पत्ति की दूसरी-से-अंतिम रेखा का तात्पर्य है कि हमारे पास होना चाहिए , या अन्यथा संपूर्ण समीकरण ऋणात्मक है, लेकिन variances नकारात्मक नहीं हो सकता है! इसलिए इंट्रा-क्लास सहसंबंध पर एक कम बाध्य है जो इस बात पर निर्भर करता है कि हमारे पास प्रति क्लस्टर कितने माप हैं। (यानी, हम प्रत्येक विषय को दो बार मापते हैं), इंट्रा-क्लास सहसंबंध जा सकता है। सभी तरह से नीचे ; यह केवल ही नीचे जा सकता है , और इसी तरह मजेदार तथ्य!ρ1/(m1)m=2ρ=1m=3ρ=1/2

तो अंत में, एक बार फिर टिप्पणियों की कुल संख्या पर विचार एक निरंतर होने के लिए, हम देखते हैं कि जैसे बस दिखता है ऊपर व्युत्पत्ति के दूसरे करने के लिए अंतिम पंक्ति इसलिए जब , जितना संभव हो उतना छोटा हो (ताकि हम अधिक विषयों के कम माप लें - सीमा में, प्रत्येक विषय का 1 माप) जितना संभव हो उतना छोटा अनुमान लगाता है। लेकिन जब , हम वास्तव में जितना संभव हो उतना बड़ा होना चाहते हैं (ताकि सीमा में, हम एक ही विषय से सभी माप लेते हैं) ताकि विचरण को यथासंभव छोटा किया जा सके। और कब( 1 + ( m - 1 ) ρ ) × सकारात्मक स्थिरांक ρ > 0 मीटर ρ < 0 मीटर n m ρ = 0 मीटर nnm

(1+(m1)ρ)×positive constant.
ρ>0mρ<0mnmρ=0 , अनुमान का विचरण केवल एक स्थिर है, इसलिए और का हमारा आवंटन कोई मायने नहीं रखता है।mn

3
+1। बहुत बढ़िया जवाब। मुझे यह स्वीकार करना होगा कि दूसरा भाग, बारे में , काफी अचूक है: यहां तक ​​कि टिप्पणियों के एक विशाल (या अनंत) कुल संख्या के साथ सबसे अच्छा हम यह कर सकते हैं कि सभी टिप्पणियों को एक ही विषय में आवंटित किया जाए, जिसका अर्थ है माध्य की मानक त्रुटि होगी और इसे आगे कम करना सिद्धांत रूप में संभव नहीं है । यह सिर्फ इतना अजीब है! ट्रू अनजाना बना हुआ है, जो भी संसाधन इसे मापने में लगाता है। क्या यह व्याख्या सही है? एन मीटर σ यू βρ<0nmσuβ
अमीबा का कहना है कि मोनिका

3
आह, नहीं। उपरोक्त सही नहीं है क्योंकि जैसे ही अनंत तक बढ़ता है, ऋणात्मक नहीं रह सकता है और उसे शून्य (शून्य विषय विचरण के अनुरूप) के लिए दृष्टिकोण करना पड़ता है। हम्म। यह नकारात्मक सहसंबंध एक मज़ेदार बात है: यह वास्तव में जेनेरिक मॉडल का एक पैरामीटर नहीं है क्योंकि यह नमूना आकार से विवश है (जबकि आमतौर पर एक जेनरेटर मॉडल किसी भी संख्या में टिप्पणियों को उत्पन्न करने में सक्षम होने की उम्मीद करेगा, जो भी पैरामीटर हैं)। मुझे इस बारे में सोचने का उचित तरीका नहीं है। ρmρ
अमीबा का कहना है कि मोनिका

1
@ डेल्टिव इस मामले में "यादृच्छिक प्रभावों के सहसंयोजक मैट्रिक्स" क्या है? ऊपर जेक द्वारा लिखित मिश्रित मॉडल में, केवल एक यादृच्छिक प्रभाव है और इसलिए वास्तव में कोई "सहसंयोजक मैट्रिक्स" नहीं है, लेकिन सिर्फ एक संख्या: । क्या आप बात कर रहे हैं? Σσu2Σ
अमीबा का कहना है कि मोनिका

2
@DeltaIV खैर, सामान्य सिद्धांत en.wikipedia.org/wiki/Inverse-variance_weighting है , और प्रत्येक विषय के नमूना माध्य का विचरण द्वारा दिया जाता है (इसीलिए जेक ने ऊपर लिखा है कि भार को विषय-विषय विचरण के अनुमान पर निर्भर रहना पड़ता है)। भीतर-विषय विचरण का अनुमान विषय-विचलन के भीतर जमाव के विचरण द्वारा दिया जाता है, बीच-बीच के विचरण का अनुमान विषयों के साधनों का विचरण है, और उन सभी का उपयोग करके जो वज़न की गणना कर सकते हैं। (लेकिन मुझे यकीन नहीं है कि यह 100% के बराबर है जो lmer करेगा।)σu2+σe2/mi
अमीबा का कहना है कि मोनिका

1
जेक, हाँ, यह का यह कठिन-कोडिंग है जो मुझे परेशान कर रहा था। यदि यह "नमूना आकार" है, तो यह अंतर्निहित प्रणाली का पैरामीटर नहीं हो सकता है। मेरी वर्तमान सोच यह है कि ऋणात्मक को वास्तव में संकेत देना चाहिए कि एक अन्य विषय-वस्तु है जिसे हमारे लिए अनदेखा / अज्ञात किया गया है। जैसे यह कुछ हस्तक्षेप के पूर्व और बाद हो सकता है और उनके बीच का अंतर इतना बड़ा है कि माप नकारात्मक रूप से सहसंबद्ध हैं। लेकिन इसका मतलब यह होगा कि वास्तव में एक नमूना आकार नहीं है, लेकिन इस अज्ञात कारक के स्तर की संख्या है, और यह निश्चित रूप से कठिन कोडित हो सकता है ...ρ एमmρm
अमीबा ने कहा कि मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.