QQplot की व्याख्या करना - क्या गैर-सामान्यता के लिए निर्णय लेने के लिए अंगूठे का कोई नियम है?


47

मैंने QQplots पर पर्याप्त सूत्र पढ़े हैं यह समझने के लिए कि एक QQplot अन्य सामान्यता परीक्षणों की तुलना में अधिक जानकारीपूर्ण हो सकता है। हालाँकि, मैं QQplots की व्याख्या करने के साथ अनुभवहीन हूं। मैंने बहुत गुस्ताखी की; मुझे गैर-सामान्य QQplots के बहुत सारे ग्राफ़ मिले, लेकिन उनकी व्याख्या करने के तरीके के बारे में कोई स्पष्ट नियम नहीं है, इसके अलावा क्या यह पता है कि वितरण और "आंत की भावना" के साथ तुलना की जाती है।

मैं जानना चाहूंगा कि क्या आपके पास (या आपको पता है) अंगूठे का कोई नियम आपको गैर-सामान्यता के लिए निर्णय लेने में मदद करता है।

यह प्रश्न तब सामने आया जब मैंने इन दोनों ग्राफों को देखा: ग्राफ 2 ग्राफ 1

मैं समझता हूं कि गैर-सामान्यता का निर्णय डेटा पर निर्भर करता है और मैं उनके साथ क्या करना चाहता हूं; हालाँकि, मेरा सवाल यह है: आम तौर पर, जब सीधी रेखा से देखे गए प्रस्थान सामान्यता के अनुमान को अनुचित बनाने के लिए पर्याप्त सबूत होते हैं?

इसके लायक क्या है, शापिरो-विल्क परीक्षण दोनों मामलों में गैर-सामान्यता की परिकल्पना को अस्वीकार करने में विफल रहा।


3
QQ लाइन के चारों ओर विश्वास बैंड बहुत अच्छे हैं। क्या आप उन्हें प्राप्त करने के लिए उपयोग किए गए आर कोड को साझा कर सकते हैं?
user603

जवाबों:


43

ध्यान दें कि शापिरो-विलक सामान्यता का एक शक्तिशाली परीक्षण है।

सर्वोत्तम दृष्टिकोण वास्तव में इस बात का एक अच्छा विचार है कि किसी भी प्रक्रिया का आप कितना संवेदनशील उपयोग करना चाहते हैं, जो विभिन्न प्रकार की गैर-सामान्यता के लिए है (कितनी बुरी तरह से गैर-सामान्य है, इसके लिए इस तरह से होना चाहिए कि वह आपकी तुलना में अधिक प्रभावित हो। स्वीकार कर सकते हैं)।

भूखंडों को देखने के लिए एक अनौपचारिक दृष्टिकोण कई डेटा सेट उत्पन्न करना होगा जो वास्तव में उसी नमूना आकार के सामान्य हैं जो आपके पास हैं - (उदाहरण के लिए, उनमें से 24 कहते हैं)। इस तरह के भूखंडों की ग्रिड के बीच अपना वास्तविक डेटा प्लॉट करें (24 यादृच्छिक सेटों के मामले में 5x5)। यदि यह विशेष रूप से असामान्य नहीं है (सबसे खराब दिखने वाला, कहते हैं), तो यह सामान्य रूप से यथोचित संगत है।

यहाँ छवि विवरण दर्ज करें

मेरी नज़र में, केंद्र में "Z" डेटा सेट "o" और "v" के साथ बराबर होता है और शायद "h" के साथ भी, जबकि "d" और "f" थोड़ा खराब दिखता है। "Z" वास्तविक डेटा है। जब मैं एक पल के लिए विश्वास नहीं करता कि यह वास्तव में सामान्य है, यह सामान्य रूप से असामान्य नहीं है जब आप इसकी तुलना सामान्य डेटा से करते हैं।

[संपादित करें: मैंने अभी-अभी एक यादृच्छिक पोल आयोजित किया है - ठीक है, मैंने अपनी बेटी से पूछा, लेकिन काफी यादृच्छिक समय पर - और एक सीधी रेखा की तरह कम से कम उसकी पसंद "डी" थी। तो उन सर्वेक्षणों में से 100% ने सोचा "घ" सबसे अजीब था।]

शापिरो-फ्रांसिया परीक्षण (जो QQ- प्लॉट में सहसंबंध पर प्रभावी रूप से आधारित है) करने के लिए और अधिक औपचारिक दृष्टिकोण होगा, लेकिन (ए) यह शापिरो विल्क परीक्षण जितना शक्तिशाली भी नहीं है, और (बी) औपचारिक उत्तर सवाल (कभी-कभी) जिसे आपको पहले से ही किसी भी तरह से जवाब पता होना चाहिए (आपके डेटा से वितरण बिल्कुल सामान्य नहीं था), सवाल के बजाय आपको उत्तर दिया जाना चाहिए (उस मामले में कितना बुरा है?)।


अनुरोध के अनुसार, उपरोक्त प्रदर्शन के लिए कोड। कुछ भी शामिल नहीं फैंसी:

z = lm(dist~speed,cars)$residual
n = length(z)
xz = cbind(matrix(rnorm(12*n),nr=n),z,matrix(rnorm(12*n),nr=n))
colnames(xz) = c(letters[1:12],"Z",letters[13:24])

opar = par()
par(mfrow=c(5,5));
par(mar=c(0.5,0.5,0.5,0.5))
par(oma=c(1,1,1,1));

ytpos = (apply(xz,2,min)+3*apply(xz,2,max))/4
cn = colnames(xz)

for(i in 1:25) {
  qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main="")
  qqline(xz[,i],col=2,lty=2)
  box("figure", col="darkgreen")
  text(-1.5,ytpos[i],cn[i])
}

par(opar)

ध्यान दें कि यह केवल दृष्टांत के प्रयोजनों के लिए था; मैं एक छोटा डेटा सेट चाहता था जो मामूली गैर-सामान्य दिखता था यही कारण है कि मैंने कारों के डेटा पर एक रेखीय प्रतिगमन से अवशिष्टों का उपयोग किया (मॉडल काफी उपयुक्त नहीं है)। हालांकि, अगर मैं वास्तव में एक प्रतिगमन के लिए अवशिष्ट के सेट के लिए इस तरह के प्रदर्शन को उत्पन्न कर रहा था, तो मैं मॉडल के रूप में एक ही सभी 25 डेटा सेटों को पुनः प्राप्त करूंगा , और उनके अवशेषों के क्यूक्यू भूखंडों को प्रदर्शित करूंगा, क्योंकि अवशेष कुछ हैं। संरचना सामान्य यादृच्छिक संख्या में मौजूद नहीं है।x

(मैं कम से कम 80 के दशक के मध्य से इस तरह के भूखंडों के सेट बना रहा हूं। यदि आप मान्य हैं कि वे कैसे अपरिचित हैं, तो आप भूखंडों की व्याख्या कैसे कर सकते हैं?

और देखें:

बुजा, ए।, कुक, डी। हॉफमैन, एच।, लॉरेंस, एम। ली।, ई। के।, स्वेन, डीएफ और विकम, एच। (2009) सांख्यिकीय इन्वेंटरी फॉर इन्वेंटरी डेटा एनालिसिस एंड मॉडल डायग्नोस्टिक्स फिल। ट्रांस। आर। ए 2009 367, 4361-4383 डोई: 10.1098 / rsta.2009.0120


8
+1। मुझे वास्तव में कुछ बेतरतीब ढंग से उत्पन्न लोगों के साथ अपने नमूने के क्यूक्यू-भूखंडों की तुलना करने का विचार पसंद है!
COOLSerdash

धन्यवाद @Glen_b क्या मैं आपसे पूछ सकता हूं कि आपने ग्राफ के ग्रिड का निर्माण कैसे किया?
greymatter0

3
मुझे अभी पता चला है कि मैंने कभी आपके अनुरोध का जवाब नहीं दिया, greymatter0। मेरी पूरी स्क्रिप्ट डालने के लिए वास्तव में कोई जगह नहीं है, लेकिन मैं इसके बारे में बताऊंगा। मैंने प्लॉट विकल्पों के साथ खेला - opar=par(); par(mfrow=c(5,5)); par(mar=c(0.5,0.5,0.5,0.5)); par(oma=c(1,1,1,1))फिर एक लूप में iमैंने जो किया qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main=""); qqline(xz[,i],col=2,lty=2); box("figure", col="darkgreen")उसके बाद par(opar)विकल्पों को वापस सेट करने के लिए जो कुछ भी वे पहले थे। वह कुछ विवरणों को छोड़ देता है लेकिन आपको वहां से प्रबंधन करने में सक्षम होना चाहिए।
ग्लेन_ बी

@ greymatter0 ... और अब मुझे पता है कि जब मैंने आखिरकार जवाब दिया, तो मैंने आपको ठीक से पिंग नहीं किया था। मैं क्षमाप्रार्थी हूं।
Glen_b

Glen_b चिंता मत करो, याद करने के लिए बहुत बहुत धन्यवाद!
greymatter0

22

यहां किसी भी उत्कृष्ट उत्तर का खंडन किए बिना, मेरे पास अंगूठे का एक नियम है जो अक्सर (लेकिन हमेशा नहीं) निर्णायक होता है। (@ डांटे द्वारा जवाब में एक टिप्पणी उत्तीर्ण भी लगता है।)

यह कभी-कभी राज्य के लिए बहुत स्पष्ट लगता है, लेकिन यहाँ आप हैं।

मुझे गैर-सामान्य कॉल करने में खुशी होती है अगर मुझे लगता है कि मैं एक अलग विवरण पेश कर सकता हूं जो स्पष्ट रूप से अधिक उपयुक्त है।

इसलिए, अगर सामान्य मात्रात्मक-मात्रात्मक भूखंड की पूंछ में मामूली वक्रता और / या अनियमितता है, लेकिन एक गामा क्वांटाइल-क्वांटाइल प्लॉट पर लगभग सीधा है, तो मैं कह सकता हूं "यह सामान्य रूप से अच्छी तरह से विशेषता नहीं है; यह एक गामा की तरह है। "।

यह कोई दुर्घटना नहीं है कि यह इतिहास और विज्ञान के दर्शन में एक मानक तर्क देता है, सामान्य वैज्ञानिक अभ्यास का उल्लेख नहीं करने के लिए, कि एक परिकल्पना सबसे स्पष्ट रूप से और प्रभावी रूप से मना की जाती है जब आपके पास इसके स्थान पर रखने के लिए बेहतर होता है। (क्यू: कार्ल पॉपर, थॉमस एस। कुह्न, और इसके बाद के संस्करण।)

यह सच है कि शुरुआती लोगों के लिए, और वास्तव में सभी के लिए, "यह सामान्य है, मामूली अनियमितताओं के अलावा जो हम हमेशा उम्मीद करते हैं" और "यह सामान्य से बहुत अलग है, कुछ असमानता को छोड़कर, जो हमें अक्सर मिलता है "।

आत्मविश्वास (जैसे) लिफाफे और कई नकली नमूने शक्तिशाली रूप से मदद कर सकते हैं, और मैं दोनों का उपयोग करता हूं और सिफारिश करता हूं, लेकिन यह भी उपयोगी हो सकता है। (संयोग से, सिमुलेशन के एक पोर्टफोलियो के साथ तुलना करना हाल ही में दोहराया गया आविष्कार है, लेकिन 1931 में कम से कम शेवार्ट के रूप में वापस चला जाता है।)

मैं अपनी शीर्ष पंक्ति गूँजता हूँ। कभी-कभी कोई ब्रांड-नाम वितरण बिल्कुल फिट नहीं होता है, और आपको सबसे अच्छा के रूप में आगे बढ़ना होगा।


12

जैसे @Glen_b ने कहा, आप अपने डेटा की तुलना उस डेटा से कर सकते हैं, जो आपके लिए सामान्य है - वह डेटा, जिसे आपने स्वयं उत्पन्न किया था, और फिर अपनी आंत की भावना पर भरोसा करते हैं :)

निम्नलिखित OpenIntro सांख्यिकी पाठ्यपुस्तक से एक उदाहरण है

आइए नजर डालते हैं इस QQ प्लॉट पर:

qq1

क्या यह सामान्य है? आइए इसकी तुलना सामान्य रूप से वितरित डेटा से करें:

qq2

यह हमारे डेटा से बेहतर दिखता है, इसलिए हमारा डेटा सामान्य नहीं लगता है। चलो इसे कई बार अनुकरण करके और साइड-बाय-साइड प्लॉट करके सुनिश्चित करें

QQ3

तो हमारी आंत की भावना हमें बताती है कि नमूना सामान्य रूप से वितरित होने की संभावना नहीं है।

ऐसा करने के लिए यहां आर कोड है

load(url("http://www.openintro.org/stat/data/bdims.RData"))
fdims = subset(bdims, bdims$sex == 0)

qqnorm(fdims$wgt, col=adjustcolor("orange", 0.4), pch=19)
qqline(fdims$wgt)

qqnormsim = function(dat, dim=c(2,2)) {
  par(mfrow=dim)
  qqnorm(dat, col=adjustcolor("orange", 0.4), 
         pch=19, cex=0.7, main="Normal QQ Plot (Data)")
  qqline(dat)
  for (i in 1:(prod(dim) - 1)) {
    simnorm = rnorm(n=length(dat), mean=mean(dat), sd=sd(dat))
    qqnorm(simnorm, col=adjustcolor("orange", 0.4), 
           pch=19, cex=0.7,
           main="Normal QQ Plot (Sim)")
    qqline(simnorm)
  }
  par(mfrow=c(1, 1))
}
qqnormsim(fdims$wgt)

9

सामान्यता के कई परीक्षण हैं। एक आमतौर पर अशक्त परिकल्पना पर केंद्रित है , जिसका नाम है, " "। हालांकि, वैकल्पिक परिकल्पना पर थोड़ा ध्यान दिया जाता है : "किसके खिलाफ"?H0:F=Normal

आमतौर पर, परीक्षण जो किसी अन्य वितरण पर विचार करते हैं क्योंकि सही परिकल्पना (उदाहरण के लिए, 1 और 2 देखें ) के साथ परीक्षणों की तुलना में वैकल्पिक परिकल्पना की शक्ति कम होती है ।

कई गैरपारंपरिक सामान्यता परीक्षणों ('नोस्टेस्ट' http://cran.r-project.org/web/packages/nortest/index.html) के कार्यान्वयन के साथ एक दिलचस्प आर पैकेज है । जैसा कि ऊपर दिए गए पत्रों में उल्लेख किया गया है, उपयुक्त परीक्षण परिकल्पना के साथ संभावना अनुपात परीक्षण, इन परीक्षणों की तुलना में अधिक शक्तिशाली है।

आपके (सज्जित) मॉडल से यादृच्छिक नमूनों के खिलाफ अपने नमूने की तुलना करने के बारे में @Glen_b द्वारा उल्लिखित विचार मेरे दूसरे संदर्भ में उल्लिखित है। उन्हें "QQ-Envelopes" या "QQ-Fans" कहा जाता है। इसके निहितार्थ के लिए डेटा उत्पन्न करने के लिए एक मॉडल की आवश्यकता होती है और, परिणामस्वरूप, एक वैकल्पिक परिकल्पना।


4

मेरे प्रतिगमन मॉडलिंग रणनीतियों के पाठ्यक्रम को पढ़ाते समय, यह विषय हमेशा मेरे छात्रों और मुझे परेशान करता है। मैं उन्हें बताता हूं कि हमारे चित्रमय आकलन हमेशा व्यक्तिपरक होते हैं, और मैं दिन में जल्दी थक जाने वाले ग्राफ के बारे में अधिक चिंता करने लगता हूं। औपचारिक सांख्यिकीय परीक्षणों को जोड़ना पर्याप्त मदद नहीं करता है: परीक्षण बहुत बड़े नमूना आकारों के लिए तुच्छ गैर-सामान्यता उठा सकते हैं और छोटे लिए महत्वपूर्ण गैर-सामान्यता को याद कर सकते हैं । मैं उन तरीकों का उपयोग करना पसंद करता हूं जो सामान्यता को ग्रहण नहीं करते हैं जो कि कुशल हैं, उदाहरण के लिए, निरंतर लिए क्रमिक प्रतिगमन ।वाईnY


1
+1। यदि आपके पास पांच मिनट @ फ्रेंक है, तो क्या आप इस थ्रेड पर एक नज़र डाल सकते हैं: आंकड़े.मेटा.स्टैकएक्सचेंज.com / questions / 4743 और वहां तौलना? यह ऑर्डिनल / ऑर्डर किए गए लॉगिट / प्रोबिट के लिए हमारे टैग के बारे में है - एक संपूर्ण गुच्छा या संबंधित टैग है, और इस [ऑर्डिनल] टैग का उपयोग करने में कुछ असंगतता है, इसलिए मैं इन टैगों को साफ करने का सुझाव दे रहा हूं। उन्हें व्यवस्थित करने के सर्वोत्तम तरीके के बारे में आपकी राय जानना बहुत अच्छा होगा।
अमीबा का कहना है कि

1
एक सतत लिए एक उदाहरण के साथ आरएमएस ऑरम फ़ंक्शन के बारे में पोस्ट के साथ शुरू करें । इस समय नहीं मिल रहा ...Y
फ्रैंक हरेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.