R - QQPlot: यह देखने के लिए कि कैसे डेटा को सामान्य रूप से वितरित किया जाता है


47

शापिरो-विलक सामान्यता परीक्षण करने के बाद मैंने यह साजिश रची है। परीक्षण से पता चला कि यह संभावना है कि जनसंख्या सामान्य रूप से वितरित की जाती है। हालांकि, इस साजिश पर इस "व्यवहार" को कैसे देखें?यहाँ छवि विवरण दर्ज करें

अपडेट करें

डेटा का एक सरल हिस्टोग्राम:

यहाँ छवि विवरण दर्ज करें

अपडेट करें

शापिरो-विल्क परीक्षण कहता है:

यहाँ छवि विवरण दर्ज करें


6
संपादन संपादित करें: SW परीक्षा परिणाम इस परिकल्पना को खारिज करता है कि ये डेटा स्वतंत्र रूप से एक सामान्य सामान्य वितरण से तैयार किए गए थे: पी-मूल्य बहुत छोटा है। (यह qq भूखंड में दोनों स्पष्ट है, जो एक छोटी बाईं पूंछ प्रदर्शित करता है, और हिस्टोग्राम में, जो सकारात्मक तिरछापन प्रदर्शित करता है।) यह आपको परीक्षण की गलत व्याख्या करने का सुझाव देता है। जब आप परीक्षण की सही ढंग से व्याख्या करते हैं, तो क्या आपके पास पूछने के लिए एक प्रश्न है?
whuber

4
इसके विपरीत: सॉफ्टवेयर और सभी भूखंडों के अनुरूप हैं जो वे कहते हैं। क्यूक प्लॉट और हिस्टोग्राम विशिष्ट तरीके दिखाते हैं जिसमें डेटा सामान्यता से विचलित होता है; एसडब्ल्यू परीक्षण कहता है कि इस तरह के डेटा के सामान्य वितरण से आने की संभावना नहीं है।
whuber

1
प्लॉट क्यों कहता है कि इसका सामान्य वितरण नहीं हुआ है? Qqplot एक सीधी रेखा बनाता है और हिस्टोग्राम दिखता भी सामान्य वितरित है? मुझे यह नहीं मिलता है; (
ले मैक्स

7
क्यूक प्लॉट स्पष्ट रूप से सीधा नहीं है और हिस्टोग्राम स्पष्ट रूप से सममित नहीं है (जो कि सामान्य रूप से वितरित हिस्टोग्राम को संतुष्ट करना चाहिए कई मानदंडों में से सबसे बुनियादी है)। स्वेन होहेंस्टीन का उत्तर बताता है कि क्यूक प्लॉट को कैसे पढ़ा जाए।
whuber

1
आपको एक ही आकार के सामान्य वेक्टर को उत्पन्न करने में मदद मिल सकती है और सामान्य डेटा के साथ एक क्यूक्यू-प्लॉट बनाने के लिए यह देखना है कि यह कैसे प्रकट हो सकता है जब डेटा, वास्तव में, एक सामान्य वितरण से आता है।
स्टैट्सस्टूडेंट

जवाबों:


31

" परीक्षण से पता चला कि यह संभावना है कि जनसंख्या सामान्य रूप से वितरित की जाती है। "

नहीं; यह नहीं दिखा।

परिकल्पना परीक्षण आपको यह नहीं बताता है कि अशक्त होने की कितनी संभावना है। वास्तव में आप शर्त लगा सकते हैं कि यह अशांति झूठी है।

क्यूक्यू प्लॉट गैर-सामान्यता का एक मजबूत संकेत नहीं देता है (प्लॉट काफी सीधा है); आपकी उम्मीद से शायद थोड़ी कम पूंछ बची है, लेकिन यह वास्तव में बहुत मायने नहीं रखेगा।

हिस्टोग्राम के रूप में-शायद या तो बहुत कुछ नहीं कहता है; यह थोड़ी छोटी बाईं पूंछ पर भी संकेत करता है। लेकिन यहां देखें

आपके डेटा से होने वाली जनसंख्या वितरण बिल्कुल सामान्य नहीं होने वाला है। हालांकि, क्यूक्यू साजिश से पता चलता है कि सामान्यता शायद एक बहुत अच्छा अनुमान है।

यदि नमूना आकार बहुत छोटा नहीं था, तो शापिरो-विल्क की अस्वीकृति की कमी संभवतः बहुत कुछ कह रही होगी।

अद्यतन: वास्तविक शापिरो-विलक पी-मूल्य को शामिल करने के लिए आपका संपादन महत्वपूर्ण है क्योंकि वास्तव में यह इंगित करेगा कि आप विशिष्ट महत्वपूर्ण स्तरों पर शून्य को अस्वीकार कर देंगे। यह परीक्षण इंगित करता है कि आपका डेटा सामान्य रूप से वितरित नहीं किया गया है और भूखंडों द्वारा इंगित हल्के तिरछेपन को संभवतः परीक्षण द्वारा उठाया जा रहा है। विशिष्ट प्रक्रियाओं के लिए जो स्वयं चर की सामान्यता मान सकते हैं (एक नमूना टी-टेस्ट एक है जो दिमाग में आता है), जो कि एक बड़े आकार का नमूना प्रतीत होता है, यह हल्का गैर-सामान्यता लगभग कोई परिणाम नहीं होगा सभी - फिट परीक्षणों की अच्छाई के साथ समस्याओं में से एक यह है कि वे केवल तब अस्वीकार करने की अधिक संभावना रखते हैं जब यह कोई फर्क नहीं पड़ता (जब नमूना आकार कुछ मामूली गैर-सामान्यता का पता लगाने के लिए पर्याप्त है); इसी तरह वे अधिक होने की संभावना को अस्वीकार करने की संभावना रखते हैं जब यह सबसे अधिक मायने रखता है (जब नमूना आकार छोटा होता है)।


वास्तव में, इसने मुझे ओपी के बयान को गलत साबित कर दिया: मुझे लगा कि उन्होंने कहा कि संभावना नहीं है। ध्यान दें कि मैं आपसे थोड़ा असहमत हूं: जबकि एक परीक्षण आम तौर पर आपको बताता है कि एक अवलोकन की संभावना कितनी कम है यदि अशक्त परिकल्पना सच थी, तो हम यह तर्क देने के लिए इसका उपयोग करते हैं कि चूंकि हमें यह अवलोकन मिला था , अशक्त परिकल्पना सच होने की संभावना नहीं है।
निक सब्बे

अपने जवाब के लिए thx! मैं उन सभी बयानों से थोड़ा भ्रमित हूं जो दूसरी दिशा में जाते हैं। यह स्पष्ट रूप से कहने के लिए, मेरा उत्कर्ष नमूना की सामान्यता के बारे में एक बयान करना है। तो आप मेरे प्रोफेसर के जवाब के रूप में क्या कहना चाहेंगे? और सामान्यता दिखाने के लिए भी कैसे नमूना आकार बहुत बड़ा है? एस
ले मैक्स

2
सबसे मजबूत के बारे में आप कुछ इस तरह से कह सकते हैं - "क्यूक्यू प्लॉट सामान्य रूप से सामान्य रूप से सुसंगत है, लेकिन बाईं पूंछ थोड़ी 'छोटी' है, इसमें तिरछापन के हल्के संकेत हैं।"
ग्लेन_ब

37

यदि डेटा सामान्य रूप से वितरित किया जाता है, तो क्यूक्यू-सामान्य प्लॉट में अंक एक सीधी तिरछी रेखा पर स्थित होते हैं। आप इस लाइन को QQ प्लॉट को कमांड के साथ जोड़ सकते हैं qqline(x), जहाँ xवैल्यूज़ का सदिश है।

सामान्य और गैर-सामान्य वितरण के उदाहरण:

सामान्य वितरण

set.seed(42)
x <- rnorm(100)

लाइन के साथ QQ- सामान्य प्लॉट:

qqnorm(x); qqline(x)

यहाँ छवि विवरण दर्ज करें

सीधी रेखा से विचलन न्यूनतम होते हैं। यह सामान्य वितरण को इंगित करता है।

हिस्टोग्राम:

hist(x)

यहाँ छवि विवरण दर्ज करें

गैर-सामान्य (गामा) वितरण

y <- rgamma(100, 1)

QQ- सामान्य प्लॉट:

qqnorm(y); qqline(y)

यहाँ छवि विवरण दर्ज करें

अंक स्पष्ट रूप से सीधी रेखा की तुलना में एक और आकृति का अनुसरण करते हैं।

हिस्टोग्राम गैर-सामान्यता की पुष्टि करता है। वितरण घंटी के आकार का नहीं है, लेकिन सकारात्मक रूप से तिरछा है (यानी, अधिकांश डेटा बिंदु निचले आधे हिस्से में हैं)। सामान्य वितरण के हिस्टोग्राम कार्ड वितरण के केंद्र में सबसे अधिक आवृत्ति दिखाते हैं।

hist(y)

यहाँ छवि विवरण दर्ज करें


मुझे लगता है कि qqplot पर विश्वास अंतराल डाल उपयोगी है। कुछ भी "पूरी तरह से" सामान्य नहीं है, और नमूना-आकार ड्राइव कर सकता है कि कोई चीज कितनी अक्षम हो सकती है और अभी भी सामान्य है।
EngrStudent -

@EngrStudent क्या आपके पास qqplot में विश्वास अंतराल को शामिल करने के लिए साझा करने के लिए कोड है?
danno

1
@danno पैकेज qqPlotमें फ़ंक्शन देखें car
स्वेन होइनस्टीन

@danno - "qqPlot" को "कार" लाइब्रेरी में देखें। यह कुछ समय के लिए रहा है, और मैंने इसे नहीं बनाया। यह आत्मविश्वास अंतराल जोड़ता है। आप कुछ गैर-सामान्य वितरण के लिए आधार वितरण भी निर्दिष्ट कर सकते हैं। यह नीचे मेरे जवाब में है।
एंग्रीस्टूडेंट -

1
पीपीआरएक्समैंटीएलy

23

आर में सामान्यता की धारणा की वैधता की जांच के लिए कुछ उपकरण

library(moments)
library(nortest)
library(e1071)

set.seed(777)
x <- rnorm(250,10,1)

# skewness and kurtosis, they should be around (0,3)
skewness(x)
kurtosis(x)

# Shapiro-Wilks test
shapiro.test(x)

# Kolmogorov-Smirnov test
ks.test(x,"pnorm",mean(x),sqrt(var(x)))

# Anderson-Darling test
ad.test(x)

# qq-plot: you should observe a good fit of the straight line
qqnorm(x)
qqline(x)

# p-plot: you should observe a good fit of the straight line
probplot(x, qdist=qnorm)

# fitted normal density
f.den <- function(t) dnorm(t,mean(x),sqrt(var(x)))
curve(f.den,xlim=c(6,14))
hist(x,prob=T,add=T)

11

हालांकि यह नेत्रहीन रूप से जांचने के लिए एक अच्छा विचार है कि क्या आपका अंतर्ज्ञान कुछ परीक्षण के परिणाम से मेल खाता है, आप हर बार यह आसान होने की उम्मीद नहीं कर सकते । यदि हिग्स बोसोन का पता लगाने की कोशिश करने वाले लोग केवल अपने परिणामों पर भरोसा करेंगे यदि वे नेत्रहीन उनका आकलन कर सकते हैं, तो उन्हें बहुत तेज आंख की आवश्यकता होगी।

विशेष रूप से बड़े डेटासेट्स के साथ (और इस प्रकार, आमतौर पर बढ़ती शक्ति के साथ), आंकड़े छोटे अंतरों को उठाते हैं, तब भी जब वे नग्न आंखों से शायद ही समझ में आते हैं।

कहा जा रहा है: सामान्यता के लिए, आपके QQ- प्लॉट को एक सीधी रेखा दिखानी चाहिए: मैं कहूंगा कि यह नहीं है। पूंछ में स्पष्ट झुकता है, और यहां तक ​​कि बीच के पास कुछ हंगामा है। नेत्रहीन, मैं अभी भी कहने को तैयार हो सकता हूं (सामान्यता की जांच के लक्ष्य के आधार पर) यह डेटा "यथोचित" सामान्य है, हालांकि।

हालांकि ध्यान दें: अधिकांश उद्देश्यों के लिए जहां आप सामान्यता की जांच करना चाहते हैं, आपको केवल टिप्पणियों की सामान्यता के बजाय साधनों की सामान्यता की आवश्यकता है, इसलिए केंद्रीय सीमा प्रमेय आपको बचाने के लिए पर्याप्त हो सकता है। इसके अलावा: जबकि सामान्यता अक्सर एक धारणा है कि आपको "आधिकारिक तौर पर" जांचने की आवश्यकता है, इस धारणा को पूरा नहीं होने के लिए कई परीक्षणों को बहुत असंवेदनशील दिखाया गया है।


2

मुझे 'आर' लाइब्रेरी 'कार' से बाहर का संस्करण पसंद है क्योंकि यह न केवल केंद्रीय प्रवृत्ति प्रदान करता है, बल्कि आत्मविश्वास अंतराल भी प्रदान करता है। यह पुष्टि करने में मदद करने के लिए दृश्य मार्गदर्शन देता है कि डेटा का व्यवहार काल्पनिक वितरण के अनुरूप है या नहीं।

library(car)

qqPlot(lm(prestige ~ income + education + type, data=Duncan), 
       envelope=.99)

कुछ लिंक:

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.