सामान्यता के लिए बड़े डेटासेट का परीक्षण करना - यह कैसे विश्वसनीय है?


12

मैं अपने डेटासेट के एक हिस्से की जांच कर रहा हूं जिसमें दो समूहों में 1 से 1690 तक के 46840 दोहरे मान हैं। इन समूहों के बीच अंतर का विश्लेषण करने के लिए मैंने सही परीक्षण लेने के लिए मूल्यों के वितरण की जांच करके शुरू किया।

सामान्यता के लिए परीक्षण पर एक गाइड के बाद, मैंने एक qqplot, histogram और boxplot किया।

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें

यह एक सामान्य वितरण प्रतीत नहीं होता है। चूंकि गाइड कुछ हद तक सही ढंग से बताता है कि विशुद्ध रूप से चित्रमय परीक्षा पर्याप्त नहीं है इसलिए मैं सामान्यता के लिए वितरण का परीक्षण करना चाहता हूं।

डेटासेट के आकार और आर में शिरो-विल्क्स परीक्षण की सीमा को देखते हुए, दिए गए वितरण को सामान्यता के लिए कैसे परीक्षण किया जाना चाहिए और डेटासेट के आकार को देखते हुए, क्या यह भी विश्वसनीय है? ( इस प्रश्न का स्वीकृत उत्तर देखें )

संपादित करें:

शापिरो-विल्क परीक्षण की सीमा मैं यह बता रहा हूं कि परीक्षण किए जाने वाले डेटासेट 5000 अंकों तक सीमित हैं। इस विषय से संबंधित एक और अच्छे उत्तर का हवाला देते हैं:

शापिरो-विल्क के परीक्षण के साथ एक अतिरिक्त मुद्दा यह है कि जब आप इसे अधिक डेटा खिलाते हैं, तो अशक्त परिकल्पना खारिज होने की संभावना बड़ी हो जाती है। तो क्या होता है कि बड़ी मात्रा में डेटा के लिए भी सामान्य से बहुत कम विचलन का पता लगाया जा सकता है, व्यावहारिक उद्देश्यों के लिए अशक्त परिकल्पना घटना के अस्वीकृति के लिए अग्रणी, डेटा सामान्य से अधिक है।

[...] सौभाग्य से आकाररो.टेस्ट उपर्युक्त प्रभाव से उपयोगकर्ता को डेटा के आकार को 5000 तक सीमित करके बचाता है।

मैं पहले स्थान पर सामान्य वितरण के लिए परीक्षण क्यों कर रहा हूं:

कुछ परिकल्पना परीक्षण डेटा के सामान्य वितरण को मानते हैं। मैं जानना चाहता हूं कि मैं इन परीक्षणों का उपयोग कर सकता हूं या नहीं।


11
कोई बिंदु परीक्षण नहीं है; किसी भी उपयोग के हर परीक्षण, किसी भी उचित महत्व के स्तर को स्पष्ट रूप से अस्वीकार कर दिया जाएगा। जो भी गाइड आप पढ़ रहे हैं उसने आपको गुमराह किया है। आप वास्तव में 'विश्वसनीय' से क्या मतलब है। आप शापिरो-विलक की किस 'सीमा' का उल्लेख करते हैं? मैं आपके द्वारा दिए गए उत्तर में दिए गए कथन से लगभग बहुत सहमत हूँ ... "मैं कभी भी ऐसी स्थिति में नहीं आया हूँ जहाँ एक सामान्य परीक्षण करना सही बात है" (मैंने कम से कम एक बार ऐसी स्थिति देखी है जहाँ मुझे लगता है कि यह है) सही काम करना है, लेकिन लोग लगभग हमेशा बुरे कारणों से करते हैं)।
Glen_b -Reinstate मोनिका

@ गलेन_ बी: संयोग से, मैंने खुद को शापिरो-विल्क का उपयोग करते हुए दूसरे दिन शून्य के खिलाफ सबूतों को निर्धारित करने के लिए पाया , जिसे किसी अकादमिया ने गलती से ग्रेड के नमूने से बड़ा मान लिया था। मुझे आश्चर्य है कि अगर वह रक्षात्मक उपयोग था।
निक स्टनर

@NickStauner मेरी प्रतिक्रिया एक टिप्पणी के लिए बहुत लंबी हो गई और मैं इस प्रश्न को आपकी पोस्ट के बारे में टिप्पणियों की एक स्ट्रिंग के साथ अपहरण नहीं करना चाहता। संभावनाएं: हम चैट में बात करते हैं, या आप इसके बारे में एक प्रश्न पोस्ट करते हैं (जिस पर मैं एक व्यापक उत्तर पोस्ट कर सकता था), या हम किसी अन्य तरीके से चर्चा करते हैं, जैसे कि ईमेल।
Glen_b -Reinstate Monica

जवाबों:


14

मैं नहीं देखता कि आप क्यों परेशान होंगे। यह स्पष्ट रूप से सामान्य नहीं है - इस मामले में, ग्राफिकल परीक्षा मेरे लिए पर्याप्त है। आपको एक अच्छा स्वच्छ गामा वितरण प्रतीत होता है से बहुत सारे अवलोकन प्राप्त हुए हैं। बस उसी के साथ चलते हैं। यह अगर तुम चाहिए - मैं एक संदर्भ वितरण की सिफारिश करेंगे।

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
यहाँ छवि विवरण दर्ज करें

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

जैसा कि मैं हमेशा कहता हूं, "देखें सामान्यता परीक्षण 'अनिवार्य रूप से बेकार है? ", विशेष रूप से @ MånsT का जवाब , जो बताता है कि विभिन्न विश्लेषणों में सामान्य धारणाओं के विभिन्न उल्लंघनों के लिए अलग-अलग संवेदनशीलता है। यदि आपका वितरण खान के समान है, जैसा कि यह दिखता है, तो आपको शायद skew और kurtosis ("अतिरिक्त " ) मिल गया है। यह परीक्षण के लिए एक समस्या होने के लिए उत्तरदायी है। यदि आप अधिक उपयुक्त पैरामीट्रिक मान्यताओं के साथ एक परीक्षण नहीं पा सकते हैं या कोई भी नहीं है, तो शायद आप अपने डेटा को बदल सकते हैं, या कम से कम आपके मन में जो भी विश्लेषण है उसका संवेदनशीलता विश्लेषण कर सकते हैं।1.45.92.9

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.