मैं अपने डेटासेट के एक हिस्से की जांच कर रहा हूं जिसमें दो समूहों में 1 से 1690 तक के 46840 दोहरे मान हैं। इन समूहों के बीच अंतर का विश्लेषण करने के लिए मैंने सही परीक्षण लेने के लिए मूल्यों के वितरण की जांच करके शुरू किया।
सामान्यता के लिए परीक्षण पर एक गाइड के बाद, मैंने एक qqplot, histogram और boxplot किया।
यह एक सामान्य वितरण प्रतीत नहीं होता है। चूंकि गाइड कुछ हद तक सही ढंग से बताता है कि विशुद्ध रूप से चित्रमय परीक्षा पर्याप्त नहीं है इसलिए मैं सामान्यता के लिए वितरण का परीक्षण करना चाहता हूं।
डेटासेट के आकार और आर में शिरो-विल्क्स परीक्षण की सीमा को देखते हुए, दिए गए वितरण को सामान्यता के लिए कैसे परीक्षण किया जाना चाहिए और डेटासेट के आकार को देखते हुए, क्या यह भी विश्वसनीय है? ( इस प्रश्न का स्वीकृत उत्तर देखें )
संपादित करें:
शापिरो-विल्क परीक्षण की सीमा मैं यह बता रहा हूं कि परीक्षण किए जाने वाले डेटासेट 5000 अंकों तक सीमित हैं। इस विषय से संबंधित एक और अच्छे उत्तर का हवाला देते हैं:
शापिरो-विल्क के परीक्षण के साथ एक अतिरिक्त मुद्दा यह है कि जब आप इसे अधिक डेटा खिलाते हैं, तो अशक्त परिकल्पना खारिज होने की संभावना बड़ी हो जाती है। तो क्या होता है कि बड़ी मात्रा में डेटा के लिए भी सामान्य से बहुत कम विचलन का पता लगाया जा सकता है, व्यावहारिक उद्देश्यों के लिए अशक्त परिकल्पना घटना के अस्वीकृति के लिए अग्रणी, डेटा सामान्य से अधिक है।
[...] सौभाग्य से आकाररो.टेस्ट उपर्युक्त प्रभाव से उपयोगकर्ता को डेटा के आकार को 5000 तक सीमित करके बचाता है।
मैं पहले स्थान पर सामान्य वितरण के लिए परीक्षण क्यों कर रहा हूं:
कुछ परिकल्पना परीक्षण डेटा के सामान्य वितरण को मानते हैं। मैं जानना चाहता हूं कि मैं इन परीक्षणों का उपयोग कर सकता हूं या नहीं।