डेटा के लिए सज्जित वितरण का विश्लेषण करने की कोशिश करते समय संभाव्यता भूखंडों, पीपी-भूखंडों और क्यूक्यू-भूखंडों के बीच अंतर क्या है?
डेटा के लिए सज्जित वितरण का विश्लेषण करने की कोशिश करते समय संभाव्यता भूखंडों, पीपी-भूखंडों और क्यूक्यू-भूखंडों के बीच अंतर क्या है?
जवाबों:
@ वेक्टर07 नोटों के रूप में , संभावना प्लॉट अधिक सार श्रेणी है जिसमें पीपी-प्लॉट और क्यूक-प्लॉट सदस्य हैं। इस प्रकार, मैं बाद के दो के बीच के अंतर पर चर्चा करूंगा। मतभेदों को समझने का सबसे अच्छा तरीका यह है कि वे कैसे निर्माण किए जाते हैं, इस बारे में सोचें और यह समझने के लिए कि आपको किसी वितरण के मात्राओं और वितरण के अनुपात के बीच अंतर को पहचानने की आवश्यकता है, जब आप किसी दिए गए क्वांटाइल तक पहुंचते हैं। आप वितरण के संचयी वितरण फ़ंक्शन (CDF) को प्लॉट करके इन दोनों के बीच संबंध देख सकते हैं । उदाहरण के लिए, मानक सामान्य वितरण पर विचार करें:
हम देखते हैं कि लगभग 68% y- अक्ष (लाल रेखाओं के बीच का क्षेत्र) x- अक्ष के 1/3 (नीले रंग के बीच का क्षेत्र) से मेल खाती है। इसका मतलब है कि जब हम दो वितरणों (यानी, हम एक पीपी-प्लॉट का उपयोग करते हैं) के बीच मैच का मूल्यांकन करने के लिए हमारे द्वारा पारित किए गए वितरण के अनुपात का उपयोग करते हैं, तो हम वितरण के केंद्र में बहुत अधिक संकल्प प्राप्त करेंगे, लेकिन कम पूंछ। दूसरी ओर, जब हम दो वितरणों के बीच मैच का मूल्यांकन करने के लिए मात्राओं का उपयोग करते हैं (यानी, हम एक qq- प्लॉट का उपयोग करते हैं), हमें पूंछ पर बहुत अच्छा संकल्प मिलेगा, लेकिन केंद्र में कम। (क्योंकि डेटा विश्लेषक आमतौर पर वितरण की पूंछ के बारे में अधिक चिंतित होते हैं, जिसका उदाहरण के लिए निष्कर्ष पर प्रभाव अधिक होगा, qq- प्लॉट पीपी-प्लॉट की तुलना में बहुत अधिक सामान्य हैं।)
इन तथ्यों को कार्रवाई में देखने के लिए, मैं एक पीपी-प्लॉट और एक क्यूक-प्लॉट के निर्माण से गुजरूंगा। (मैं मौखिक रूप से / अधिक धीरे - धीरे यहां एक qq- प्लॉट के निर्माण से गुजरता हूं: QQ- प्लॉट हिस्टोग्राम से मेल नहीं खाता ।) मुझे नहीं पता कि आप आर का उपयोग करते हैं, लेकिन उम्मीद है कि यह स्व-व्याख्यात्मक होगा:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
दुर्भाग्य से, ये भूखंड बहुत विशिष्ट नहीं हैं, क्योंकि कुछ डेटा हैं और हम एक सामान्य सामान्य की तुलना सही सैद्धांतिक वितरण से कर रहे हैं, इसलिए केंद्र या वितरण की पूंछ में देखने के लिए कुछ विशेष नहीं है। इन अंतरों को बेहतर ढंग से प्रदर्शित करने के लिए, मैं स्वतंत्रता के 4 डिग्री और एक द्वि-मोडल वितरण के साथ एक (वसा-पूंछ) टी-वितरण की साजिश करता हूं। Qq- प्लॉट में वसा की पूंछ बहुत अधिक विशिष्ट होती है, जबकि पीपी-प्लॉट में द्वि-माप्यता अधिक विशिष्ट होती है।
यहाँ v8doc.sas.com से एक परिभाषा दी गई है :
एक पीपी प्लॉट एक निर्दिष्ट सैद्धांतिक संचयी वितरण फ़ंक्शन F (·) के साथ सेट किए गए डेटा के अनुभवजन्य संचयी वितरण फ़ंक्शन की तुलना करता है। क्यूक्यू प्लॉट एक डेटा वितरण की मात्राओं को एक निर्दिष्ट परिवार के वितरण के मानकीकृत सैद्धांतिक वितरण की मात्राओं के साथ तुलना करता है।
पाठ में, वे भी उल्लेख करते हैं:
संदर्भ :
एसएएस संस्थान इंक, एसएएस ऑनलाइनडॉक®, संस्करण 8, कैरी, एनसी: एसएएस संस्थान इंक। 1999