छोटे नमूनों के लिए उपयुक्त सामान्यता परीक्षण


22

अब तक, मैं छोटे नमूनों में सामान्यता मान्यताओं का परीक्षण करने के लिए शापिरो-विल्क सांख्यिकीय का उपयोग कर रहा हूं।

क्या आप कृपया दूसरी तकनीक सुझा सकते हैं?


1
यहाँ संभावित हित के अन्य सवालों के एक जोड़े हैं: सामान्यता परीक्षण-अनिवार्य रूप से बेकार है , सामान्यता परीक्षण के मूल्य की चर्चा के लिए, और क्या-अगर-अवशिष्ट-सामान्य-वितरित-लेकिन-वाई-है- नहीं , एक चर्चा / स्पष्टीकरण के लिए जिसमें सामान्यता एक रेखीय मॉडल की धारणा है।
गंग -

3
शापिरो-विल्क में विल्क मार्टिन बी। विल्क को संदर्भित करता है। यह विशेष रूप से "विल्क्स" लिखना बहुत आसान है (ए) यदि किसी और ने कहा या लिखा है और आप नकल कर रहे हैं (बी) तो आप सैमुअल एस। विल्क्स के आँकड़ों में काम के बारे में जानते हैं, एक बहुत अलग व्यक्ति (सी) अंग्रेजी में टर्मिनल "s" के बारे में उलझन में है, ने इसके अन्य उपयोगों के लिए प्ल्यूरल (सांख्यिकी, बिल्लियों, कुत्तों, ...) और संपत्ति ('s) को दिया, जो उन लोगों में भी आम है जिनकी पहली भाषा अंग्रेजी है। मैंने इस धागे को उस सीमा तक संपादित किया है जो मैं कर सकता हूं; मैं टिप्पणियों में नहीं पहुँच सकता।
निक कॉक्स

जवाबों:


24

FBasics आर (के हिस्से में पैकेज Rmetrics ) भी शामिल है कई सामान्य परीक्षण , लोकप्रिय के कई कवर frequentist परीक्षण - सामान्य परीक्षण के लिए एक आवरण के साथ - Kolmogorov-स्मिर्नोव, शापिरो-विल्क, Jarque-बेरा, और डी 'Agostino सबसे बड़े पैकेज में - एंडरसन-डार्लिंग, क्रैमर-वॉन मिज़, लिलीफ़ोर्स (कोलमोगोरोव-स्मिरनोव), पियरसन ची-स्क्वायर और शापिरो-फ्रांसिया। पैकेज प्रलेखन सभी महत्वपूर्ण संदर्भ भी प्रदान करता है। यहां एक डेमो है जो दिखाता है कि परीक्षणों का उपयोग कैसे करें

एक दृष्टिकोण, यदि आपके पास समय है, तो एक से अधिक परीक्षणों का उपयोग करें और समझौते के लिए जांच करें। परीक्षण कई तरीकों से भिन्न होते हैं, इसलिए यह "सर्वश्रेष्ठ" चुनने के लिए पूरी तरह से सीधा नहीं है। आपके क्षेत्र में अन्य शोधकर्ता क्या उपयोग करते हैं? यह अलग-अलग हो सकता है और स्वीकृत तरीकों से चिपकना सबसे अच्छा हो सकता है ताकि दूसरे आपके काम को स्वीकार करें। मैं अक्सर जार्के-बेरा परीक्षण का उपयोग करता हूं, आंशिक रूप से उस कारण से, और तुलना के लिए एंडरसन-डार्लिंग।

आप "यूनिवर्सिएट नॉर्मलिटी के लिए टेस्ट की तुलना" (सीयर 2002) और "ए नॉर्मली टेस्ट के विभिन्न परीक्षणों की तुलना" देख सकते हैं मुद्दों की तुलना और चर्चा के लिए (यजीकी; योलकान 2007) को देख सकते हैं।

आर में तुलना के लिए इन तरीकों का परीक्षण करना भी तुच्छ है, सभी वितरण कार्यों के लिए धन्यवाद । यहां सिम्युलेटेड डेटा के साथ एक सरल उदाहरण दिया गया है (मैं अंतरिक्ष को बचाने के लिए परिणाम नहीं छापूंगा), हालांकि अधिक पूर्ण व्यय की आवश्यकता होगी:

library(fBasics); library(ggplot2)
set.seed(1)

# normal distribution
x1 <- rnorm(1e+06)   
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)

# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)

एक बार जब आपके पास विभिन्न वितरणों पर विभिन्न परीक्षणों से परिणाम होते हैं, तो आप तुलना कर सकते हैं जो सबसे प्रभावी थे। उदाहरण के लिए, ऊपर जर्क-बेरा परीक्षण के लिए पी-मान सामान्य वितरण (स्वीकार करने) और <2.2e-16 के लिए वापस लौटा (अशक्त परिकल्पना को खारिज करते हुए)।


धन्यवाद शेन, महान जवाब! वैसे, मेरे क्षेत्र के "अन्य लोग" अक्सर SPSS का उपयोग करते हैं, इसलिए वे Kolmogorov-Smirnov (यदि वे सभी में सामान्यता की जांच करते हैं) का उपयोग करते हैं, हालांकि IMHO द लिलिफ़ोर्स का परीक्षण एक बेहतर विकल्प है जब डेटा एक नमूने से इकट्ठा किया जाता है (जब पैरामीटर होते हैं) अनजान)। मुझे सिखाया गया कि शापिरो-विल्क छोटे नमूनों के लिए उपयुक्त है, और बस "छोटे नमूनों की सामान्यता परीक्षण" के बारे में अधिक जानकारी प्राप्त करना चाहता था ... बीटीडब्लू, मैं आर में सबसे अधिक उपयोग करता हूं! =)
aL3xa

12

सामान्यता के लिए, वास्तविक शापिरो-विल्क के पास काफी छोटे नमूनों में अच्छी शक्ति है।

पढ़ाई में मुख्य प्रतियोगी जो मैंने देखा है वह अधिक सामान्य एंडरसन-डार्लिंग है, जो काफी अच्छा करता है, लेकिन मैं यह नहीं कहूंगा कि यह बेहतर था। यदि आप स्पष्ट कर सकते हैं कि आप किन विकल्पों में रुचि रखते हैं, तो संभवतः एक बेहतर आँकड़ा अधिक स्पष्ट होगा। [संपादित करें: यदि आप मापदंडों का अनुमान लगाते हैं, तो AD परीक्षण को इसके लिए समायोजित किया जाना चाहिए।]

[मैं छोटे नमूनों में जर्क-बेरा पर विचार करने के खिलाफ दृढ़ता से सलाह देता हूं (जो शायद सांख्यिकीय हलकों में बोमन-शेंटन के रूप में जाना जाता है - उन्होंने छोटे नमूना वितरण का अध्ययन किया)। तिरछा और कुर्तोसिस के स्पर्शोन्मुख संयुक्त वितरण छोटे-नमूना वितरण की तरह कुछ भी नहीं है - उसी तरह एक केला नारंगी की तरह नहीं दिखता है। कुछ दिलचस्प विकल्पों के मुकाबले इसमें बहुत कम शक्ति होती है - उदाहरण के लिए इसमें सममित द्विध्रुवीय वितरण को लेने की कम शक्ति होती है, जिसमें सामान्य वितरण के करीब कुर्तोसिस होता है।]

अक्सर लोग इस बात के लिए फिट होने की कसौटी पर कसते हैं कि क्या नहीं-विशेष रूप से अच्छे कारण हैं, या वे उस प्रश्न के अलावा एक प्रश्न का उत्तर दे रहे हैं जिसका वे वास्तव में जवाब देना चाहते हैं।

उदाहरण के लिए, आप लगभग निश्चित रूप से पहले से ही जानते हैं कि आपका डेटा वास्तव में सामान्य नहीं है (बिल्कुल नहीं), इसलिए किसी प्रश्न का उत्तर देने की कोशिश करने का कोई मतलब नहीं है - और परिकल्पना परीक्षण वास्तव में वैसे भी इसका जवाब नहीं देता है

आपको पता है कि आपके पास पहले से ही सटीक सामान्यता नहीं है, सामान्यता की आपकी परिकल्पना परीक्षण वास्तव में आपको एक प्रश्न के उत्तर के करीब दे रहा है "क्या मेरा नमूना आकार बड़े गैर-सामान्यता की मात्रा लेने के लिए पर्याप्त है जो मेरे पास है", जबकि असली सवाल जिसका जवाब देने में आप रुचि रखते हैं, वह आमतौर पर " इन गैर-सामान्यता का इन अन्य चीजों पर क्या प्रभाव पड़ता है?" परिकल्पना परीक्षण नमूना आकार को माप रहा है, जबकि आप जिस प्रश्न का उत्तर देने में रुचि रखते हैं, वह नमूना आकार पर बहुत निर्भर नहीं है।

ऐसे समय होते हैं जब सामान्यता का परीक्षण कुछ मायने रखता है, लेकिन उन स्थितियों में लगभग कभी छोटे नमूने नहीं होते हैं।

आप सामान्यता का परीक्षण क्यों कर रहे हैं?


एक महान उत्तर के लिए धन्यवाद, और बाद में एक महान प्रश्न। समस्या की पृष्ठभूमि के बारे में जानकारी प्राप्त करना महत्वपूर्ण है। खैर, कई बार मैंने लोगों को वितरण के आकार के बारे में कोई भी विचार किए बिना टी-टेस्ट, पियर्सन के आर या एनोवा को देखा है (जो कि अक्सर भारी-तिरछा होता है) - पैरामीट्रिक तकनीकों को "संतुष्ट सामान्यता धारणा" की आवश्यकता होती है। मनोविज्ञान में (जो मेरी रुचि का क्षेत्र है), हम अक्सर छोटे नमूनों से निपटते हैं, इसलिए मुझे उपयुक्त सामान्यता परीक्षण की आवश्यकता होती है।
aL3xa

5
लेकिन सामान्यता कभी संतुष्ट नहीं होती । यह कभी-कभी डेटा का एक उचित विवरण होता है, लेकिन वे वास्तव में सामान्य नहीं होते हैं। गैर-सामान्यता की जांच करने के लिए यह समझदार है जब आप इसे मान लेते हैं, तो यह विशेष रूप से इसे परीक्षण करने के लिए उपयोगी नहीं है (ऊपर वर्णित कारणों के लिए)। मैं उदाहरण के लिए एक qq- प्लॉट करता हूं, लेकिन एक परिकल्पना परीक्षण इस स्थिति में गलत प्रश्न का उत्तर देता है। टी-परीक्षण और एनोवा आमतौर पर यथोचित रूप से अच्छी तरह से काम करते हैं यदि वितरण भारी तिरछा नहीं होता है। एक बेहतर तरीका प्रक्रियाओं का उपयोग करना हो सकता है जो सामान्यता को ग्रहण नहीं करता है - शायद तकनीकों को फिर से शुरू करना।
Glen_b -Reinstate मोनिका

या आप कम शक्ति होने की कीमत पर गैर-पैरामीट्रिक परीक्षणों का उपयोग कर सकते हैं। और आंकड़ों में कुछ भी पूरी तरह से संतुष्ट नहीं है, यह पूरी तरह से एक सामान्यता मुद्दा नहीं है। हालाँकि, किसी को t-test और / या ANOVA मान्यताओं से परिचित कराते समय बूटस्ट्रैपिंग या jackknifing कोई हल नहीं है। मुझे संदेह है कि रेज़मैपलिंग तकनीक सामान्यता के मुद्दों को बिल्कुल हल करती है। किसी को सामान्य रूप से रेखांकन (घनत्व प्लॉट, बॉक्सप्लॉट, क्यूक्यूप्लॉट, हिस्टोग्राम) और "संख्यात्मक" (सामान्यता परीक्षण, तिरछापन, कुर्तोसिस, आदि) दोनों की सामान्यता की जांच करनी चाहिए। आपकी क्या सलाह है? यह पूरी तरह से विषय है, लेकिन आप कैसे कहेंगे, एनोवा सामान्यता मान्यताओं की जांच करेंगे?
aL3xa

@ aL3xa मुझे लगता है कि आपके शोध क्षेत्र को देखते हुए यादृच्छिककरण दृष्टिकोण बेहतर है; इस तथ्य के बावजूद कि सामान्य पैरामीट्रिक परीक्षण सटीक क्रमपरिवर्तन परीक्षणों को अच्छा अनुमान प्रदान करते हैं, गैर-पैरामीट्रिक परीक्षण भी किसी प्रकार की धारणा (जैसे वितरण के आकार पर) का अर्थ है। मुझे आश्चर्य है कि हम वास्तव में कैसे परिभाषित कर सकते हैं कि छोटे-नमूने के अध्ययन में सामान्यता से विचलन क्या है। मुझे लगता है कि आपको एक अलग प्रश्न में इस बिंदु के बारे में और चर्चा के लिए पूछना चाहिए।
chl

10

सामान्यता परीक्षणों पर एक संपूर्ण विकिपीडिया श्रेणी शामिल है:

मुझे लगता है कि AD शायद उनमें से सबसे अच्छा है।


1
मैं सहमत हूँ। मैंने AD परीक्षण का एक त्वरित परीक्षण किया, जर्क-बेरा, और स्पीगेलहेल्टर का परीक्षण (1983), नल के नीचे, नमूना आकार 8 के साथ, 10,000 बार दोहराया। AD परीक्षण नाममात्र अस्वीकृति दर को बनाए रखता है, और एक समान अंतराल देता है, जबकि JB परीक्षण भयानक है, Spiegelhalter middling है।
shabbychef

1
@shabbychef जर्क-बेरा परीक्षण नमूना तिरछा और कुर्तोसिस की स्पर्शोन्मुख सामान्यता पर निर्भर करता है, जो निम्न 100 में n के लिए भी अच्छी तरह से काम नहीं करता है । लेकिन वांछित अस्वीकृति दर प्राप्त करने के लिए आप महत्वपूर्ण मानों को समायोजित कर सकते हैं, जैसे सिमुलेशन परिणाम के आधार पर, जैसे कि थडवेल्ड, टी, और एच। बनिंग की धारा 4.1 में, 2004, जर्क-बेरा परीक्षण और सामान्यता के परीक्षण के लिए इसके प्रतियोगियों - एक शक्ति तुलना , चर्चा पेपर इकोनॉमिक्स 2004/9, स्कूल ऑफ बिजनेस एंड इकोनॉमिक्स, बर्लिन विश्वविद्यालय मुक्त।
सिल्वरफिश

3

पूर्णता के लिए, अर्थशास्त्री भी 1983 के अपने पत्र से इकोनॉमिक्स लेटर्स में कीफर और सैल्मन टेस्ट को पसंद करते हैं - यह तिरस्कार और कुर्तोसिस के भावों को 'सामान्यीकृत' करता है, जो तब ची-स्क्वायर वितरित किया जाता है। मेरे पास एक पुराना C ++ संस्करण है जिसे मैंने ग्रेडिंग स्कूल के दौरान लिखा था मैं आर में अनुवाद कर सकता था।

संपादित करें: और यहाँ जेरेन्स-बेरा और कीफर-सैल्मन को प्राप्त करने वाले बिएरेंस (पुनः) द्वारा हालिया पेपर है।

संपादन 2: मैंने पुराने कोड को देखा, और ऐसा लगता है कि यह वास्तव में जर्क-बेरा और केफेर-सैल्मन के बीच एक ही परीक्षा है।


2

वास्तव में Kiefer सामन परीक्षण और जर्क बेरा परीक्षण गंभीर रूप से भिन्न हैं जैसा कि कई स्थानों पर दिखाया गया है लेकिन हाल ही में यहाँ - मानक त्रुटि वितरण के लिए क्षण परीक्षण: यी-टिंग चेन द्वारा एक सरल मजबूत दृष्टिकोण । निर्माण के द्वारा Kiefer सामन परीक्षण ARCH प्रकार त्रुटि संरचनाओं के सामने मानक जर्क बेरा परीक्षण के विपरीत मजबूत है। यी-टिंग चेन द्वारा कागज विकसित और चर्चा करता है कि मुझे क्या लगता है कि इस समय के आसपास सबसे अच्छा परीक्षण होने की संभावना है।


4
चेन बड़े डेटासेट पर ध्यान केंद्रित करने लगता है, जो समझ में आता है क्योंकि इन परीक्षणों में शामिल चौथे और छठे और उच्चतर क्षणों को स्पर्शोन्मुख स्तरों पर बसने में कुछ समय लगने वाला है। लेकिन वितरण संबंधी परीक्षण आमतौर पर 250 मान (इस पेपर में अध्ययन किए गए न्यूनतम) से छोटे डेटासेट के लिए उपयोग किए जाते हैं। वास्तव में, उनमें से अधिकांश बड़ी मात्रा में डेटा के साथ इतने शक्तिशाली हो जाते हैं कि वे इस तरह के अनुप्रयोगों में थोड़े अधिक होते हैं। या मैं देख रहा हूँ की तुलना में यहाँ अधिक चल रहा है?
whuber

0

नमूना आकार <30 विषयों के लिए, शापिरो-विल्क को एक मजबूत शक्ति माना जाता है - परीक्षण के महत्व स्तर को समायोजित करते समय सावधान रहें , क्योंकि यह एक प्रकार II त्रुटि पैदा कर सकता है! [1]


छोटे नमूनों में फिट परीक्षणों की अच्छाई आमतौर पर आदर्शता को अस्वीकार करने में असमर्थ है।
माइकल आर। चेरिक

@MichaelChernick विशिष्ट मामले में तब क्या होता है? गैर-सामान्य के रूप में एक छोटे से "वर्गीकृत" होने के पीछे क्या कारण है?
अलीअकबर अहमदी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.