अब तक, मैं छोटे नमूनों में सामान्यता मान्यताओं का परीक्षण करने के लिए शापिरो-विल्क सांख्यिकीय का उपयोग कर रहा हूं।
क्या आप कृपया दूसरी तकनीक सुझा सकते हैं?
अब तक, मैं छोटे नमूनों में सामान्यता मान्यताओं का परीक्षण करने के लिए शापिरो-विल्क सांख्यिकीय का उपयोग कर रहा हूं।
क्या आप कृपया दूसरी तकनीक सुझा सकते हैं?
जवाबों:
FBasics आर (के हिस्से में पैकेज Rmetrics ) भी शामिल है कई सामान्य परीक्षण , लोकप्रिय के कई कवर frequentist परीक्षण - सामान्य परीक्षण के लिए एक आवरण के साथ - Kolmogorov-स्मिर्नोव, शापिरो-विल्क, Jarque-बेरा, और डी 'Agostino सबसे बड़े पैकेज में - एंडरसन-डार्लिंग, क्रैमर-वॉन मिज़, लिलीफ़ोर्स (कोलमोगोरोव-स्मिरनोव), पियरसन ची-स्क्वायर और शापिरो-फ्रांसिया। पैकेज प्रलेखन सभी महत्वपूर्ण संदर्भ भी प्रदान करता है। यहां एक डेमो है जो दिखाता है कि परीक्षणों का उपयोग कैसे करें ।
एक दृष्टिकोण, यदि आपके पास समय है, तो एक से अधिक परीक्षणों का उपयोग करें और समझौते के लिए जांच करें। परीक्षण कई तरीकों से भिन्न होते हैं, इसलिए यह "सर्वश्रेष्ठ" चुनने के लिए पूरी तरह से सीधा नहीं है। आपके क्षेत्र में अन्य शोधकर्ता क्या उपयोग करते हैं? यह अलग-अलग हो सकता है और स्वीकृत तरीकों से चिपकना सबसे अच्छा हो सकता है ताकि दूसरे आपके काम को स्वीकार करें। मैं अक्सर जार्के-बेरा परीक्षण का उपयोग करता हूं, आंशिक रूप से उस कारण से, और तुलना के लिए एंडरसन-डार्लिंग।
आप "यूनिवर्सिएट नॉर्मलिटी के लिए टेस्ट की तुलना" (सीयर 2002) और "ए नॉर्मली टेस्ट के विभिन्न परीक्षणों की तुलना" देख सकते हैं मुद्दों की तुलना और चर्चा के लिए (यजीकी; योलकान 2007) को देख सकते हैं।
आर में तुलना के लिए इन तरीकों का परीक्षण करना भी तुच्छ है, सभी वितरण कार्यों के लिए धन्यवाद । यहां सिम्युलेटेड डेटा के साथ एक सरल उदाहरण दिया गया है (मैं अंतरिक्ष को बचाने के लिए परिणाम नहीं छापूंगा), हालांकि अधिक पूर्ण व्यय की आवश्यकता होगी:
library(fBasics); library(ggplot2)
set.seed(1)
# normal distribution
x1 <- rnorm(1e+06)
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)
# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)
एक बार जब आपके पास विभिन्न वितरणों पर विभिन्न परीक्षणों से परिणाम होते हैं, तो आप तुलना कर सकते हैं जो सबसे प्रभावी थे। उदाहरण के लिए, ऊपर जर्क-बेरा परीक्षण के लिए पी-मान सामान्य वितरण (स्वीकार करने) और <2.2e-16 के लिए वापस लौटा (अशक्त परिकल्पना को खारिज करते हुए)।
सामान्यता के लिए, वास्तविक शापिरो-विल्क के पास काफी छोटे नमूनों में अच्छी शक्ति है।
पढ़ाई में मुख्य प्रतियोगी जो मैंने देखा है वह अधिक सामान्य एंडरसन-डार्लिंग है, जो काफी अच्छा करता है, लेकिन मैं यह नहीं कहूंगा कि यह बेहतर था। यदि आप स्पष्ट कर सकते हैं कि आप किन विकल्पों में रुचि रखते हैं, तो संभवतः एक बेहतर आँकड़ा अधिक स्पष्ट होगा। [संपादित करें: यदि आप मापदंडों का अनुमान लगाते हैं, तो AD परीक्षण को इसके लिए समायोजित किया जाना चाहिए।]
[मैं छोटे नमूनों में जर्क-बेरा पर विचार करने के खिलाफ दृढ़ता से सलाह देता हूं (जो शायद सांख्यिकीय हलकों में बोमन-शेंटन के रूप में जाना जाता है - उन्होंने छोटे नमूना वितरण का अध्ययन किया)। तिरछा और कुर्तोसिस के स्पर्शोन्मुख संयुक्त वितरण छोटे-नमूना वितरण की तरह कुछ भी नहीं है - उसी तरह एक केला नारंगी की तरह नहीं दिखता है। कुछ दिलचस्प विकल्पों के मुकाबले इसमें बहुत कम शक्ति होती है - उदाहरण के लिए इसमें सममित द्विध्रुवीय वितरण को लेने की कम शक्ति होती है, जिसमें सामान्य वितरण के करीब कुर्तोसिस होता है।]
अक्सर लोग इस बात के लिए फिट होने की कसौटी पर कसते हैं कि क्या नहीं-विशेष रूप से अच्छे कारण हैं, या वे उस प्रश्न के अलावा एक प्रश्न का उत्तर दे रहे हैं जिसका वे वास्तव में जवाब देना चाहते हैं।
उदाहरण के लिए, आप लगभग निश्चित रूप से पहले से ही जानते हैं कि आपका डेटा वास्तव में सामान्य नहीं है (बिल्कुल नहीं), इसलिए किसी प्रश्न का उत्तर देने की कोशिश करने का कोई मतलब नहीं है - और परिकल्पना परीक्षण वास्तव में वैसे भी इसका जवाब नहीं देता है ।
आपको पता है कि आपके पास पहले से ही सटीक सामान्यता नहीं है, सामान्यता की आपकी परिकल्पना परीक्षण वास्तव में आपको एक प्रश्न के उत्तर के करीब दे रहा है "क्या मेरा नमूना आकार बड़े गैर-सामान्यता की मात्रा लेने के लिए पर्याप्त है जो मेरे पास है", जबकि असली सवाल जिसका जवाब देने में आप रुचि रखते हैं, वह आमतौर पर " इन गैर-सामान्यता का इन अन्य चीजों पर क्या प्रभाव पड़ता है?" परिकल्पना परीक्षण नमूना आकार को माप रहा है, जबकि आप जिस प्रश्न का उत्तर देने में रुचि रखते हैं, वह नमूना आकार पर बहुत निर्भर नहीं है।
ऐसे समय होते हैं जब सामान्यता का परीक्षण कुछ मायने रखता है, लेकिन उन स्थितियों में लगभग कभी छोटे नमूने नहीं होते हैं।
आप सामान्यता का परीक्षण क्यों कर रहे हैं?
सामान्यता परीक्षणों पर एक संपूर्ण विकिपीडिया श्रेणी शामिल है:
मुझे लगता है कि AD शायद उनमें से सबसे अच्छा है।
पूर्णता के लिए, अर्थशास्त्री भी 1983 के अपने पत्र से इकोनॉमिक्स लेटर्स में कीफर और सैल्मन टेस्ट को पसंद करते हैं - यह तिरस्कार और कुर्तोसिस के भावों को 'सामान्यीकृत' करता है, जो तब ची-स्क्वायर वितरित किया जाता है। मेरे पास एक पुराना C ++ संस्करण है जिसे मैंने ग्रेडिंग स्कूल के दौरान लिखा था मैं आर में अनुवाद कर सकता था।
संपादित करें: और यहाँ जेरेन्स-बेरा और कीफर-सैल्मन को प्राप्त करने वाले बिएरेंस (पुनः) द्वारा हालिया पेपर है।
संपादन 2: मैंने पुराने कोड को देखा, और ऐसा लगता है कि यह वास्तव में जर्क-बेरा और केफेर-सैल्मन के बीच एक ही परीक्षा है।
वास्तव में Kiefer सामन परीक्षण और जर्क बेरा परीक्षण गंभीर रूप से भिन्न हैं जैसा कि कई स्थानों पर दिखाया गया है लेकिन हाल ही में यहाँ - मानक त्रुटि वितरण के लिए क्षण परीक्षण: यी-टिंग चेन द्वारा एक सरल मजबूत दृष्टिकोण । निर्माण के द्वारा Kiefer सामन परीक्षण ARCH प्रकार त्रुटि संरचनाओं के सामने मानक जर्क बेरा परीक्षण के विपरीत मजबूत है। यी-टिंग चेन द्वारा कागज विकसित और चर्चा करता है कि मुझे क्या लगता है कि इस समय के आसपास सबसे अच्छा परीक्षण होने की संभावना है।
नमूना आकार <30 विषयों के लिए, शापिरो-विल्क को एक मजबूत शक्ति माना जाता है - परीक्षण के महत्व स्तर को समायोजित करते समय सावधान रहें , क्योंकि यह एक प्रकार II त्रुटि पैदा कर सकता है! [1]