क्या यह बहुत छोटे नमूने के आकार (जैसे, n = 6) के साथ सामान्यता के लिए परीक्षण करने के लिए सार्थक है?


26

मेरे पास एक नमूना का आकार है 6. ऐसे मामले में, क्या कोलमोगोरोव-स्मिरनोव परीक्षण का उपयोग करके सामान्यता के लिए परीक्षण करना समझ में आता है? मैंने SPSS का उपयोग किया। मेरे पास बहुत छोटा नमूना आकार है क्योंकि प्रत्येक को प्राप्त करने में समय लगता है। यदि यह समझ में नहीं आता है, तो कितने नमूने सबसे कम संख्या है जो परीक्षण करने के लिए समझ में आता है?

नोट: मैंने सोर्स कोड से संबंधित कुछ प्रयोग किए हैं। नमूना सॉफ्टवेयर के एक संस्करण में कोडिंग के लिए समय व्यतीत होता है (संस्करण ए) वास्तव में, मेरे पास 6 का एक और नमूना आकार है जो सॉफ्टवेयर के दूसरे संस्करण में कोडिंग के लिए समय व्यतीत होता है (संस्करण बी)

मैं एक-नमूना टी-टेस्ट का उपयोग करके परिकल्पना परीक्षण करना चाहूंगा कि यह परीक्षण करने के लिए कि कोड संस्करण ए में बिताया गया समय कोड संस्करण बी में खर्च किए गए समय से अलग है या नहीं (यह मेरा एच 1 है)। एक-नमूना टी-परीक्षण की पूर्व शर्त यह है कि परीक्षण किए जाने वाले डेटा को सामान्य रूप से वितरित किया जाना है। यही कारण है कि मुझे सामान्यता के लिए परीक्षण करने की आवश्यकता है।


6
मैं, एक के लिए, एक ऐसे संदर्भ की कल्पना करने में कठिनाई करता हूं जिसमें n = 6 और सामान्यता परीक्षण के लिए एक परिकल्पना होगी। मुझे डर है कि यह एक अनुभवहीन उपयोगकर्ता द्वारा कई परिकल्पना परीक्षण (एक प्रतिगमन फिर अवशिष्ट की सामान्यता के लिए परीक्षण) करने का मामला है और हम लक्षणों को संबोधित कर रहे हैं लेकिन कोठरी में कंकाल की अनदेखी कर रहे हैं, इसलिए बोलने के लिए।
14:60 पर user603

3
@user प्रश्नकर्ता के बारे में अटकलें लगाना अनुचित है। आइए प्रश्न को संबोधित करते हैं, हम करेंगे? तो, मान लीजिए कि एक महंगा निर्णय लेने के लिए एक ऊपरी भविष्यवाणी सीमा की गणना करने की योजना बनाई गई है जो कि महंगा निर्णय लेने के लिए उपयोग की जाएगी। पीएल का मूल्य सामान्यता मान्यताओं के प्रति संवेदनशील होगा। आपको पूरा यकीन है कि डेटा जनरेट करने की प्रक्रिया नॉन-नॉर्मल है, लेकिन जेनरेट करने के लिए डेटा महंगा और समय लेने वाला है। पिछले प्रयोगों का सुझाव है कि सामान्यता को अस्वीकार करने के लिए पर्याप्त रूप से शक्तिशाली होगा। (मैं सिर्फ अमेरिका में भूजल निगरानी प्रोग्राम के लिए एक मानक ढांचे का वर्णन किया है।)n=6
whuber

3
User603 (अपनी पहली टिप्पणी फिर से): मैं बताना चाहूंगा कि @ जॉरिस ने कोई जवाब नहीं दिया है, न ही उनकी टिप्पणी किसी भी औचित्य के साथ है। यदि एक जोरदार "नहीं" इस प्रश्न का एक वैध सामान्य उत्तर है, तो आइए इसे नीचे लिखे देखें, जैसे कि एक सहायक तर्क के साथ, इसलिए इसका मूल्यांकन समुदाय द्वारा किया जा सकता है।
whuber

2
@ वाउचर: मैंने जोरदार "नहीं" के लिए एक तर्क जोड़ा।
जोरिस मेय्स

1
@ जॉरिस धन्यवाद! जो सहायक और प्रदीप्त है।
whuber

जवाबों:


38

हाँ।

सभी परिकल्पना परीक्षणों में दो मुख्य गुण होते हैं : उनका आकार (या "महत्व स्तर"), एक संख्या जो सीधे आत्मविश्वास से जुड़ी होती है और झूठी सकारात्मक दरों की उम्मीद करती है, और उनकी शक्ति, जो झूठी नकारात्मक की संभावना व्यक्त करती है। जब नमूना आकार छोटा होता है और आप छोटे आकार (उच्च आत्मविश्वास) पर जोर देते रहते हैं, तो शक्ति खराब हो जाती है। इसका मतलब यह है कि छोटे-नमूने परीक्षण आमतौर पर छोटे या मध्यम अंतर का पता नहीं लगा सकते हैं। लेकिन वे अभी भी सार्थक हैं

केएस परीक्षण आकलन करता है कि नमूना सामान्य वितरण से आया है या नहीं। छह मानों के नमूने को इस परीक्षण को विफल करने के लिए वास्तव में अत्यधिक गैर-सामान्य दिखना होगा। लेकिन अगर ऐसा होता है, तो आप नल की इस अस्वीकृति की ठीक उसी तरह व्याख्या कर सकते हैं जैसे कि आप इसे उच्च नमूना आकारों के साथ व्याख्या करते हैं। दूसरी ओर, यदि परीक्षण उच्च परिकल्पना नकारात्मक दर के कारण अशक्त परिकल्पना को अस्वीकार करने में विफल रहता है, जो आपको थोड़ा बताता है। विशेष रूप से, यह कार्य करना अपेक्षाकृत जोखिम भरा होगा जैसे कि अंतर्निहित वितरण सामान्य था।

यहाँ एक और बात देखने के लिए: कुछ सॉफ्टवेयर परीक्षण आँकड़ों से पी-मूल्यों की गणना करने के लिए सन्निकटन का उपयोग करते हैं। अक्सर ये सन्निकटन बड़े नमूना आकारों के लिए अच्छी तरह से काम करते हैं लेकिन बहुत छोटे नमूना आकारों के लिए खराब कार्य करते हैं। जब यह मामला होता है, तो आप भरोसा नहीं कर सकते कि पी-मूल्य को सही ढंग से गणना की गई है, जिसका अर्थ है कि आप सुनिश्चित नहीं कर सकते हैं कि वांछित परीक्षण आकार प्राप्त किया गया है। विवरण के लिए, अपने सॉफ़्टवेयर दस्तावेज़ से परामर्श करें।

कुछ सलाह: इस उद्देश्य के लिए विशेष रूप से निर्मित अन्य परीक्षणों की तुलना में केएस परीक्षण सामान्यता के परीक्षण के लिए काफी कम शक्तिशाली है। उनमें से सबसे अच्छा शायद शापिरो-विल्क परीक्षण है, लेकिन आमतौर पर इस्तेमाल किए जाने वाले और लगभग जितने शक्तिशाली हैं, शापिरो-फ्रांसिया और एंडरसन-डार्लिंग हैं

यह प्लॉट छह सामान्य रूप से वितरित होने वाले लॉग के 10,000 नमूनों में कोलमोगोरोव-स्मिरनोव परीक्षण सांख्यिकीय के वितरण को प्रदर्शित करता है:

केएस स्टैटिस्टिक का हिस्टोग्राम

100,000 अतिरिक्त नमूनों के आधार पर, ऊपरी 95 वीं प्रतिशतक (जो आकार परीक्षण के लिए इस सांख्यिकीय के लिए महत्वपूर्ण मूल्य का अनुमान है ) 0.520 है। इस परीक्षण से गुजरने वाले नमूने का एक उदाहरण डेटासेट हैα=5%

0.000, 0.001, 0.002, 1.000, 1.001, 1000000

परीक्षण सांख्यिकीय 0.5 है (जो महत्वपूर्ण मूल्य से कम है)। इस तरह के नमूने को सामान्यता के अन्य परीक्षणों का उपयोग करके अस्वीकार कर दिया जाएगा।


10
मुझे लगता है कि कोई भी वितरण जो एक संकेत देता है। N = 6 के साथ परिणाम इतना सामान्य होगा कि यह उड़ने वाले रंगों के साथ IOTT को पास करेगा - यह इंटरोक्युलर आघात परीक्षण है। यह आपको आंखों के बीच से टकराता है।
पीटर Flom - को पुनः स्थापित मोनिका

2
@Peter यदि आप इस टिप्पणी को फिर से लिखना चाहते हैं, तो यह सही होगा। सब के बाद, एक सामान्य वितरण से कई नमूने पूरी तरह से सामान्य दिखेंगे, इसलिए स्पष्ट रूप से "कोई" बहुत मजबूत मात्रा है। आपके कहने का मतलब यह है कि एक अच्छा मौका है कि साथ एक यादृच्छिक नमूना स्पष्ट रूप से गैर-सामान्य होगा जब उचित तरीके से प्लॉट किया जाता है ( उदाहरण के लिए , संभावना प्लॉट) लेकिन इस परीक्षण द्वारा अस्वीकार नहीं किया जाएगा। एन=6एन=6
whuber

सिर्फ मनोरंजन के लिए, मैंने set.seed (3833782) x <- runif (6) ks.test (x, pnorm) आज़माया। यह p = .04 पर महत्वपूर्ण था। तो यह भी हो सकता है
पीटर Flom - को पुनः स्थापित मोनिका

4
@ पेटर गुड! सामान्यता के लिए केएस परीक्षण ने एक समान नमूना को खारिज कर दिया है। यही एक उम्मीद है।
whuber

3
set.seed(140);x=rnorm(6);ks.test(x,pnorm)पैदा करता है p-value = 0.0003255। निश्चित रूप से मुझे इसे खोजने से पहले 140 बीजों के साथ इसे आजमाना था ...
Spacedman

20

जैसा कि @whuber ने टिप्पणियों में पूछा, मेरी श्रेणी संख्या के लिए एक मान्यता। संपादित करें: शापिरो परीक्षण के साथ, क्योंकि एक-नमूना केएस परीक्षण वास्तव में गलत तरीके से उपयोग किया जाता है। व्हीबर सही है: कोलमोगोरोव-स्मिर्नोव परीक्षण के सही उपयोग के लिए, आपको वितरण मापदंडों को निर्दिष्ट करना होगा और उन्हें डेटा से नहीं निकालना होगा। यह हालांकि एक-नमूना केएस-परीक्षण के लिए एसपीएसएस जैसे सांख्यिकीय पैकेजों में क्या किया जाता है।

आप वितरण के बारे में कुछ कहने की कोशिश करते हैं, और आप यह जांचना चाहते हैं कि क्या आप एक टी-टेस्ट लागू कर सकते हैं। तो यह परीक्षण इस बात की पुष्टि करने के लिए किया जाता है कि विश्लेषण की अंतर्निहित मान्यताओं को अमान्य बनाने के लिए डेटा सामान्यता से पर्याप्त रूप से विचलित नहीं होता है। इसलिए, आप टाइप I-त्रुटि में रुचि नहीं रखते हैं, लेकिन टाइप II त्रुटि में।

अब किसी को स्वीकार्य शक्ति के लिए न्यूनतम n की गणना करने में सक्षम होने के लिए "काफी भिन्न" को परिभाषित करना होगा (कहना 0.8)। वितरण के साथ, यह परिभाषित करने के लिए सीधा नहीं है। इसलिए, मैंने प्रश्न का उत्तर नहीं दिया, क्योंकि मैं नियम-अंगूठे के अलावा एक समझदार उत्तर नहीं दे सकता हूं जिसका उपयोग करता हूं: n> 15 और n <50. किस पर आधारित है? मूल रूप से महसूस कर रहा हूँ, इसलिए मैं अनुभव से अलग उस विकल्प का बचाव नहीं कर सकता।

लेकिन मुझे पता है कि केवल 6 मूल्यों के साथ आपका टाइप II-एरर लगभग 1 हो सकता है, जिससे आपकी शक्ति 0. के करीब हो जाती है। 6 अवलोकनों के साथ, शापिरो टेस्ट एक सामान्य, पॉइसन, यूनिफॉर्म या यहां तक ​​कि घातीय वितरण के बीच अंतर नहीं कर सकता है। टाइप II-त्रुटि लगभग 1 होने के साथ, आपका परीक्षा परिणाम अर्थहीन है।

आकृति-परीक्षण के साथ सामान्यता परीक्षण की व्याख्या करने के लिए:

shapiro.test(rnorm(6)) # test a the normal distribution
shapiro.test(rpois(6,4)) # test a poisson distribution
shapiro.test(runif(6,1,10)) # test a uniform distribution
shapiro.test(rexp(6,2)) # test a exponential distribution
shapiro.test(rlnorm(6)) # test a log-normal distribution

एकमात्र जहां लगभग आधे मान 0.05 से छोटे हैं, वही अंतिम है। जो सबसे चरम मामला भी है।


यदि आप यह जानना चाहते हैं कि न्यूनतम एन क्या है जो आपको शापिरो टेस्ट के साथ अपनी पसंद की शक्ति प्रदान करता है, तो कोई इस तरह से एक सिमुलेशन कर सकता है:

results <- sapply(5:50,function(i){
  p.value <- replicate(100,{
    y <- rexp(i,2)
    shapiro.test(y)$p.value
  })
  pow <- sum(p.value < 0.05)/100
  c(i,pow)
})

जो आपको इस तरह से एक शक्ति विश्लेषण देता है:

यहाँ छवि विवरण दर्ज करें

जिससे मैं यह निष्कर्ष निकालता हूं कि 80% मामलों में एक सामान्य वितरण से एक घातीय को अलग करने के लिए आपको न्यूनतम 20 मानों की आवश्यकता होती है।

कोड प्लॉट:

plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
    main="Power simulation for exponential distribution",
    xlab="n",
    ylab="power"
)

2
@whuber: इसके सिर पर परिकल्पना परीक्षण के तर्क के बारे में: आप किस मामले में वैकल्पिक परिकल्पना में रुचि रखते हैं? इन परीक्षणों के सभी अनुप्रयोगों में मैंने देखा है, लोग नल की पुष्टि में रुचि रखते हैं: मेरा डेटा सामान्य वितरण से महत्वपूर्ण रूप से भिन्न नहीं है। यही कारण है कि मैं द्वितीय-त्रुटि के प्रकार पर जोर देता हूं।
जॉरिस मेस

4
n5

4
n=8n

3
@ दर्शक: हम अलग करने के लिए सहमत होंगे। मैं पूरी तरह से ईपीए (और निश्चित रूप से एफडीए का नहीं) दिशानिर्देशों का प्रशंसक हूं। मैंने इसे एक बार दुर्व्यवहार करते देखा है, फिर भी इसकी उपयोगिता पर अभी भी विश्वास किया जाता है। संभावना एक अजीब बात है, और केवल 6 मामलों के साथ बहुत अप्रत्याशित है। मुझे विश्वास नहीं है कि आप केवल 6 अवलोकनों के आधार पर एक पीडीएफ जैसे जटिल फ़ंक्शन के बारे में कुछ भी कह सकते हैं। YMMV
जोरिस मेय्स 20

5
@ImAlso यदि यह काफी सममित है, तो टी-टेस्ट बहुत अधिक गैर-सामान्यता को सहन कर सकता है , लेकिन यह बहुत अधिक विषमता को बर्दाश्त नहीं कर सकता है। (वास्तव में, सामान्यता के लिए तिरछा परीक्षण वास्तव में केएस परीक्षण की तुलना में ओपी में एक बेहतर विकल्प हो सकता है, सिर्फ इस कारण से।) यह फिट परीक्षणों और अन्य परिकल्पना परीक्षणों की अच्छाई के बीच सबसे बड़े अंतरों में से एक को इंगित करता है: एक विशाल है। संभावित विकल्पों और GoF परीक्षणों का स्थान उनमें से कुछ के खिलाफ अच्छा है, लेकिन दूसरों के खिलाफ नहीं है। आप उन्हें सभी विकल्पों के खिलाफ अच्छी तरह से काम नहीं कर सकते।
व्हिबर

-2

यहां प्रस्तुत प्रश्न में कुछ गलतफहमी है कि क्यों नॉर्मलिटी जांच 6 के नमूने के आकार की आवश्यकता है। यहां मुख्य उद्देश्य "यह परीक्षण करना है कि कोड संस्करण ए में बिताया गया समय कोड संस्करण बी में खर्च किए गए समय से अलग है या नहीं (ए) यह मेरा H1) ”है। जब शब्द "भिन्न" का उपयोग किया जाता है, तो क्या यह एक पूंछ परीक्षण है? हालाँकि सामान्यता का परीक्षण एक दूसरा चरण है। पहला कदम किसी दिए गए नमूना आकार के लिए परीक्षण की पूर्व निर्धारित (1-of) शक्ति की पर्याप्तता की जांच करना है जब शक्ति बहुत खराब है तो सामान्य स्थिति की जांच का क्या उपयोग है ?। सामान्य स्थिति की जाँच हमें यह तय करने में मदद करेगी कि क्या पैरामीट्रिक या गैर-पैरामीट्रिक परीक्षण जाना है ?। यदि आपके नमूने के आकार में पर्याप्त शक्ति नहीं है तो किसी को सामान्यता के परीक्षण के बारे में क्यों सोचना चाहिए?


(-1) यह बहुत अस्पष्ट है। प्रश्नों के उत्तर देने के लिए कृपया इस पृष्ठ को पढ़ें: आंकड़े.stackexchange.com/help/how-to-answer
मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.