पीपी-प्लॉट्स बनाम क्यूक्यू-प्लॉट्स


39

डेटा के लिए सज्जित वितरण का विश्लेषण करने की कोशिश करते समय संभाव्यता भूखंडों, पीपी-भूखंडों और क्यूक्यू-भूखंडों के बीच अंतर क्या है?


4
ऐसा लगता है कि विकिपीडिया इस एक के साथ आपकी मदद कर सकता है: संभावना प्लॉटक्यूक्यू प्लॉट , पीपी प्लॉट । यदि आपके पास अधिक विशिष्ट प्रश्न है तो कृपया स्पष्ट करें!
वेक्टर 067

धन्यवाद, मुझे लगता है कि मुझे पीपी प्लॉट और संभावना प्लॉट भ्रमित हो रहे थे!
काई

जवाबों:


41

@ वेक्टर07 नोटों के रूप में , संभावना प्लॉट अधिक सार श्रेणी है जिसमें पीपी-प्लॉट और क्यूक-प्लॉट सदस्य हैं। इस प्रकार, मैं बाद के दो के बीच के अंतर पर चर्चा करूंगा। मतभेदों को समझने का सबसे अच्छा तरीका यह है कि वे कैसे निर्माण किए जाते हैं, इस बारे में सोचें और यह समझने के लिए कि आपको किसी वितरण के मात्राओं और वितरण के अनुपात के बीच अंतर को पहचानने की आवश्यकता है, जब आप किसी दिए गए क्वांटाइल तक पहुंचते हैं। आप वितरण के संचयी वितरण फ़ंक्शन (CDF) को प्लॉट करके इन दोनों के बीच संबंध देख सकते हैं । उदाहरण के लिए, मानक सामान्य वितरण पर विचार करें:

यहाँ छवि विवरण दर्ज करें

हम देखते हैं कि लगभग 68% y- अक्ष (लाल रेखाओं के बीच का क्षेत्र) x- अक्ष के 1/3 (नीले रंग के बीच का क्षेत्र) से मेल खाती है। इसका मतलब है कि जब हम दो वितरणों (यानी, हम एक पीपी-प्लॉट का उपयोग करते हैं) के बीच मैच का मूल्यांकन करने के लिए हमारे द्वारा पारित किए गए वितरण के अनुपात का उपयोग करते हैं, तो हम वितरण के केंद्र में बहुत अधिक संकल्प प्राप्त करेंगे, लेकिन कम पूंछ। दूसरी ओर, जब हम दो वितरणों के बीच मैच का मूल्यांकन करने के लिए मात्राओं का उपयोग करते हैं (यानी, हम एक qq- प्लॉट का उपयोग करते हैं), हमें पूंछ पर बहुत अच्छा संकल्प मिलेगा, लेकिन केंद्र में कम। (क्योंकि डेटा विश्लेषक आमतौर पर वितरण की पूंछ के बारे में अधिक चिंतित होते हैं, जिसका उदाहरण के लिए निष्कर्ष पर प्रभाव अधिक होगा, qq- प्लॉट पीपी-प्लॉट की तुलना में बहुत अधिक सामान्य हैं।)

इन तथ्यों को कार्रवाई में देखने के लिए, मैं एक पीपी-प्लॉट और एक क्यूक-प्लॉट के निर्माण से गुजरूंगा। (मैं मौखिक रूप से / अधिक धीरे - धीरे यहां एक qq- प्लॉट के निर्माण से गुजरता हूं: QQ- प्लॉट हिस्टोग्राम से मेल नहीं खाता ।) मुझे नहीं पता कि आप आर का उपयोग करते हैं, लेकिन उम्मीद है कि यह स्व-व्याख्यात्मक होगा:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

यहाँ छवि विवरण दर्ज करें

दुर्भाग्य से, ये भूखंड बहुत विशिष्ट नहीं हैं, क्योंकि कुछ डेटा हैं और हम एक सामान्य सामान्य की तुलना सही सैद्धांतिक वितरण से कर रहे हैं, इसलिए केंद्र या वितरण की पूंछ में देखने के लिए कुछ विशेष नहीं है। इन अंतरों को बेहतर ढंग से प्रदर्शित करने के लिए, मैं स्वतंत्रता के 4 डिग्री और एक द्वि-मोडल वितरण के साथ एक (वसा-पूंछ) टी-वितरण की साजिश करता हूं। Qq- प्लॉट में वसा की पूंछ बहुत अधिक विशिष्ट होती है, जबकि पीपी-प्लॉट में द्वि-माप्यता अधिक विशिष्ट होती है।

यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें


14
@ एलेक्ज़ेंडर हम वास्तव में छात्रों के लिए आपकी चिंता की सराहना करते हैं। आपकी निहित धारणा यह है कि यह साइट केवल उन छात्रों के लिए है जो आंकड़ों के लिए नए हैं, हालांकि गलत है; और आपके आग्रह कि "वर्डी उत्तर" छात्रों के लिए अनुचित हैं, वास्तविकता के लिए खड़े नहीं होते हैं, क्योंकि इस साइट पर कई "वर्डी" उत्तर उपस्थित होंगे। अपनी शिकायत को व्यक्त करने का एक अधिक रचनात्मक तरीका यह है: हमें अपनी प्रतिक्रियाओं को बेहतर बनाने के तरीके दिखाएं, और हमें एक प्रश्न का उत्तर देने के लिए प्रेरित करें, जो यहां नए छात्रों की जरूरतों को पूरा करने के लिए आपके मानकों को पूरा करता है।
whuber

12

यहाँ v8doc.sas.com से एक परिभाषा दी गई है :

एक पीपी प्लॉट एक निर्दिष्ट सैद्धांतिक संचयी वितरण फ़ंक्शन F (·) के साथ सेट किए गए डेटा के अनुभवजन्य संचयी वितरण फ़ंक्शन की तुलना करता है। क्यूक्यू प्लॉट एक डेटा वितरण की मात्राओं को एक निर्दिष्ट परिवार के वितरण के मानकीकृत सैद्धांतिक वितरण की मात्राओं के साथ तुलना करता है।

पाठ में, वे भी उल्लेख करते हैं:

  • पीपी भूखंडों और क्यूक्यू भूखंडों के निर्माण और व्याख्या के तरीके के बारे में मतभेद।
  • अनुभवजन्य और सैद्धांतिक वितरण की तुलना के बारे में, एक या दूसरे का उपयोग करने के फायदे।

संदर्भ :

एसएएस संस्थान इंक, एसएएस ऑनलाइनडॉक®, संस्करण 8, कैरी, एनसी: एसएएस संस्थान इंक। 1999

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.