सांख्यिकीविद आपसी जानकारी का उपयोग संघ के उपाय के रूप में क्यों नहीं करते हैं?


10

मैंने गैर-सांख्यिकीविदों द्वारा कुछ बातचीत की है, जहाँ वे प्रतिगमन (या समतुल्य / निकट-संबंधी सांख्यिकीय परीक्षणों) के बजाय पारस्परिक जानकारी का उपयोग करके सहसंबंध के उपायों को सुदृढ़ करने के लिए लगते हैं।

मुझे लगता है कि यह एक अच्छा कारण है कि सांख्यिकीविद् इस दृष्टिकोण को नहीं लेते हैं। मेरे आम आदमी की समझ यह है कि एन्ट्रापी / पारस्परिक जानकारी के अनुमानक समस्याग्रस्त और अस्थिर होते हैं। मुझे लगता है कि परिणाम के रूप में शक्ति भी समस्याग्रस्त है: वे यह दावा करके इसे प्राप्त करने की कोशिश करते हैं कि वे पैरामीट्रिक परीक्षण ढांचे का उपयोग नहीं कर रहे हैं। आमतौर पर इस तरह का काम बिजली की गणना, या यहां तक ​​कि आत्मविश्वास / विश्वसनीय अंतराल से परेशान नहीं होता है।

लेकिन शैतान के वकील की स्थिति लेने के लिए, धीमी गति से अभिसरण किया जाता है जब डेटासेट बहुत बड़े होते हैं? इसके अलावा, कभी-कभी ये विधियां इस अर्थ में "काम" करती हैं कि अनुवर्ती अध्ययनों से संघों का सत्यापन होता है। एसोसिएशन की माप के रूप में आपसी जानकारी का उपयोग करने के खिलाफ सबसे अच्छा समालोचना क्या है और यह व्यापक रूप से सांख्यिकीय अभ्यास में क्यों नहीं उपयोग किया जाता है?

संपादित करें: इसके अलावा, क्या कोई अच्छा कागजात है जो इन मुद्दों को कवर करता है?


3
एमआई दो असतत चर के बीच सहयोग का एक उपाय है। यह वास्तव में सामान्य आंकड़ों में सामान्य सेटिंग नहीं है (कुछ विशेष उप क्षेत्रों में हो सकता है)। लेकिन उस सेटिंग के भीतर, मुझे लगता है कि यह अक्सर पर्याप्त होता था। निश्चित रूप से, जब मैंने बीरियेट असतत डेटासेट पर पियरसन सहसंबंध का उपयोग करते हुए लोगों से सामना किया, तो मैं उन्हें एमआई की ओर इशारा करता हूं।
user603

1
आँकड़े भी देखें ।stackexchange.com/questions/1052/… हालाँकि, यहाँ चर्चा पहले से ही, मेरे विचार में, अच्छी या बेहतर है, इसलिए डुप्लिकेट के बारे में सामान्य प्रश्न मूट है।
निक कॉक्स

संदर्भों के लिए भी देखें। आँकड़े। Sexexhange.com/q/20011/1036
एंडी डब्ल्यू

2
एक और सामान्य संदर्भ मैथ्यू Reimherr और डैन एल। निकोला है। 2013. मात्रा निर्भरता पर: व्याख्यात्मक उपायों को विकसित करने के लिए एक रूपरेखा। सांख्यिकीय विज्ञान 28: 116-130।
निक कॉक्स

जवाबों:


4

मुझे लगता है कि आपको श्रेणीबद्ध (असतत) डेटा और निरंतर डेटा के बीच अंतर करना चाहिए।

निरंतर डेटा के लिए, पियर्सन सहसंबंध एक रैखिक (मोनोटोनिक) संबंध को मापता है, रैंक सहसंबंध को एक मोनोटोनिक संबंध बनाता है।

दूसरी ओर एमआई किसी भी रिश्ते का "पता लगाता है"। यह आमतौर पर वह नहीं है जो आप में रुचि रखते हैं और / या शोर होने की संभावना है। विशेष रूप से, आपको वितरण के घनत्व का अनुमान लगाना होगा। लेकिन चूंकि यह निरंतर है, आप पहले हिस्टोग्राम [असतत डिब्बे] बनाएंगे, और फिर एमआई की गणना करेंगे। लेकिन जब से एमआई किसी भी रिश्ते के लिए अनुमति देता है, तो एमआई बदल जाएगा क्योंकि आप छोटे डिब्बे का उपयोग करते हैं (यानी इसलिए आप अधिक विगल्स की अनुमति देते हैं)। तो आप देख सकते हैं कि एमआई का अनुमान बहुत अस्थिर होगा, आपको अनुमान आदि पर कोई विश्वास अंतराल नहीं देने की अनुमति देता है [यदि आप एक निरंतर घनत्व का अनुमान लगाते हैं तो वही होता है।] मूल रूप से वास्तव में गणना करने से पहले अनुमान लगाने के लिए बहुत सी चीजें हैं। MI

दूसरी ओर श्रेणीबद्ध डेटा एमआई फ्रेमवर्क (जी-परीक्षण देखें) में काफी अच्छी तरह से फिट बैठता है, और जी-टेस्ट और ची-स्क्वायर के बीच चयन करने के लिए बहुत कुछ नहीं है।


मैं ज्यादातर असतत एसोसिएशन के मामलों का उल्लेख कर रहा हूं (प्रतिगमन द्वारा, मेरे मन में जीएलएम था, न कि केवल ओएलएस)। वास्तव में, जटिल घटना (जैसे जेनेटिक्स) का अध्ययन वैज्ञानिकों का एक बहुत कह सकते हैं कि वे आप क्या वर्णन कर रहे हैं में अधिक रुचि रखते हैं (पता लगाने के किसी भी संबंध)। स्पष्ट रूप से आम आलोचना से बचने का लालच "क्या होगा अगर सहसंबंध का कार्यात्मक रूप गलत है? निश्चित रूप से मैं किसी भी रिश्ते का पता लगाना चाहता हूं !" मजबूत है। हालाँकि, मुझे लगता है कि यहाँ खेलने के लिए कोई मुफ्त-दोपहर का भोजन नहीं है, लेकिन इसे अनदेखा किया जाएगा कि मैं बेहतर आर्टिकुलेट / समझने की कोशिश कर रहा हूं।
user4733

1
... मुझे LR परीक्षणों और MI के बीच संबंध के बारे में पता नहीं था, हालांकि, यह बहुत दिलचस्प है!
user4733
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.