अपारदर्शी आंकड़ों में संबंध इतने कठिन क्यों हैं?


14

मेरा nonparametric पाठ, व्यावहारिक Nonparametric सांख्यिकी , अक्सर अपेक्षाओं, variances, परीक्षण के आँकड़ों, और इस तरह के लिए स्वच्छ सूत्र देता है, लेकिन इसमें चेतावनी भी शामिल है कि यह केवल तभी काम करता है जब हम संबंधों की उपेक्षा करते हैं। मान-व्हिटनी यू स्टेटिस्टिक की गणना करते समय, यह प्रोत्साहित किया जाता है कि आप तुलना करते समय बंधे जोड़े को बाहर फेंकते हैं जो बड़ा है।

मुझे लगता है कि संबंध वास्तव में हमें यह नहीं बताते हैं कि कौन सी आबादी बड़ी है (यदि हम जिस चीज में रुचि रखते हैं) चूंकि न तो समूह दूसरे की तुलना में बड़ा है, लेकिन ऐसा नहीं लगता है कि जब असमान वितरण का विकास होता है।

फिर कुछ गैरपारंपरिक प्रक्रियाओं में संबंधों के साथ ऐसा व्यवहार क्यों किया जाता है? क्या संबंधों से कोई उपयोगी जानकारी निकालने का एक तरीका है, बजाय केवल उन्हें फेंकने के?

EDIT: @ व्हॉबर की टिप्पणी के संबंध में, मैंने अपने स्रोतों की फिर से जाँच की, और कुछ प्रक्रियाओं ने बंधे मूल्यों को पूरी तरह से छोड़ने के बजाय औसत रैंक का उपयोग किया। जबकि यह जानकारी बनाए रखने के संदर्भ में अधिक समझदार लगता है, यह मुझे भी लगता है कि इसमें कठोरता का अभाव है। सवाल की भावना अभी भी खड़ा है, हालांकि।


क्या आप कह रहे हैं कि प्रैक्टिकल नॉनपैरेमेट्रिक स्टेटिस्टिक्स आपको बताते हैं कि जब वे बंधे होते हैं तो "डेटा बाहर फेंक " देते हैं? क्या आप शायद इसकी सलाह की गलत व्याख्या कर सकते हैं? क्या आप इसे बिल्कुल उद्धृत कर सकते हैं?
whuber

हां, यह संभव है कि मैं सलाह को गलत बता रहा हूं। उसी लेखक से: jstor.org/stable/2284536 "विलकॉक्सन ने शुरू में डेटा से शून्य को छोड़ने का सुझाव दिया था, और डेटा के कम सेट पर परीक्षण का प्रदर्शन किया। यदि कोई गैर-शून्य संबंध नहीं है तो यह प्रक्रिया सशर्त रूप से परिणाम देती है (संख्या को देखते हुए)। zeros) वितरण नि: शुल्क परीक्षण, और उपयोग किए जाने वाले महत्वपूर्ण मूल्यों की मौजूदा सटीक तालिकाओं को सक्षम करता है। इस कारण से, nonparametric आँकड़ों पर अधिकांश पुस्तकें परीक्षण के अपने विवरण में विलकॉक्सन की विधि को शामिल करती हैं "
क्रिस्टोफर एडेन

दी, यह Wilcoxon Signed Rank परीक्षण के संदर्भ में है, लेकिन मैंने अन्य NP प्रक्रियाओं में उपयोग की गई ऐसी ही सलाह सुनी है। मान-व्हिटनी उदाहरण के संबंध में, मैं वापस गया और पुस्तक में जाँच की, और आप सही हैं कि मुझसे गलती हुई है। मान-व्हिटनी के साथ, पुस्तक बंधे हुए मूल्यों के रैंक के औसत की सिफारिश करती है, अर्थात: यदि रैंक 6 और 7 को बांधा गया है, तो प्रत्येक को 6.5 का मान दिया जाता है।
क्रिस्टोफर एडेन

2
धन्यवाद। बंधे समूहों के लिए खाते में कठोर तरीके हैं। सेंसर (लेकिन निरंतर) डेटा के साथ काम करते समय वे महत्वपूर्ण होते हैं, क्योंकि अक्सर सेंसर किए गए मान एक बड़े बंधे समूह का गठन करते हैं। क्रुस्कल-वालिस और विलकॉक्सन रैंक सम परीक्षणों के लिए, आरओ गिल्बर्ट के अध्याय 18 देखें, * पर्यावरण प्रदूषण निगरानी के लिए सांख्यिकीय तरीके। "बंधे हुए डेटा को शामिल करने वाले सूत्र जटिल हो सकते हैं, लेकिन कुछ मामलों में (केडब्ल्यू परीक्षण की तरह) जो आपको करने की आवश्यकता है। रैंकों के लिए एक एनोवा तालिका गणना की जाती है।
whuber

जवाबों:


14

गैर-पैरामीट्रिक्स पर अधिकांश काम मूल रूप से यह मानते हुए किया गया था कि एक अंतर्निहित निरंतर वितरण था जिसमें संबंध असंभव होगा (यदि सही तरीके से मापा जाता है)। सिद्धांत तब आदेश आँकड़ों के वितरण पर आधारित हो सकता है (जो संबंधों के बिना बहुत सरल हैं) या अन्य सूत्र। कुछ मामलों में आँकड़ा लगभग सामान्य होता है जो चीजों को वास्तव में आसान बनाता है। जब संबंध या तो पेश किए जाते हैं क्योंकि डेटा गोल था या स्वाभाविक रूप से असतत है, तो मानक मान्यताओं को पकड़ नहीं है। कुछ मामलों में सन्निकटन अभी भी काफी अच्छा हो सकता है, लेकिन दूसरों में नहीं, इसलिए अक्सर ऐसा करने के लिए सबसे आसान काम यह चेतावनी देना है कि ये सूत्र संबंधों के साथ काम नहीं करते हैं।

कुछ मानक गैर-पैरामीट्रिक परीक्षणों के लिए उपकरण हैं जिन्होंने संबंधों के मौजूद होने पर सटीक वितरण का काम किया है। R के लिए exactRankTests पैकेज एक उदाहरण है।

संबंधों से निपटने का एक सरल तरीका है कि क्रमपरिवर्तन परीक्षण या बूटस्ट्रैपिंग जैसे यादृच्छिककरण परीक्षणों का उपयोग करें। ये स्पर्शोन्मुख वितरण के बारे में चिंता नहीं करते हैं, लेकिन डेटा का उपयोग करें जैसा कि यह है, संबंधों और सभी (ध्यान दें कि बहुत अधिक संबंधों के साथ, यहां तक ​​कि इन तकनीकों में कम शक्ति हो सकती है)।

कुछ साल पहले एक लेख आया था (मैंने अमेरिकी सांख्यिकीविद् में सोचा था, लेकिन मैं इसे नहीं पा रहा हूं) जिसमें संबंधों के विचारों और उन चीजों के बारे में चर्चा की गई जो आप उनके साथ कर सकते हैं। एक बिंदु यह है कि यह इस बात पर निर्भर करता है कि आप किस प्रश्न को पूछ रहे हैं, श्रेष्ठता परीक्षण बनाम गैर-हीनता परीक्षण में संबंधों के साथ क्या करना बहुत अलग हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.