पायथन में क्यूक्यू प्लॉट


11

मैंने निम्नलिखित कोड का उपयोग करके एक qq प्लॉट उत्पन्न किया। मुझे पता है कि क्यूक प्लॉट का उपयोग यह जांचने के लिए किया जाता है कि डेटा सामान्य रूप से वितरित किया गया है या नहीं। मेरा सवाल यह है कि q और प्लॉट में x और y अक्ष लेबल क्या दर्शाते हैं और आर वर्ग मान क्या दर्शाता है ??

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

यहाँ छवि विवरण दर्ज करें

मुझे पता है कि पहले से ही क्यूक प्लॉट के बारे में चर्चा चल रही है , लेकिन मैं उस चर्चा से गुजरने के बावजूद अवधारणा को समझ नहीं पाया।


4
यह लिंक किए गए धागे के डुप्लिकेट होने के बहुत करीब है - पायथन बनाम आर यहां एक महत्वपूर्ण अंतर नहीं है - लेकिन पहलू नया है। नकल से बचने के लिए उस पहलू पर थोड़ा और ध्यान देना सवाल और जवाब के लिए एक अच्छा विचार हो सकता है। (मुझे आश्चर्य है कि क्या आर 2 को गलत समझा जा रहा है, यहां तक ​​कि खराब फिट के लिए भी, क्यूक्यू प्लॉट में अपरिहार्य ढलान का मतलब है कि हम आर 2 को शून्य से कुछ हद तक बड़ा होने की उम्मीद करते हैं । इसलिए मान जो एक प्रतिगमन विश्लेषण में काफी प्रभावशाली हो सकते हैं। यहाँ इतना प्रभावशाली नहीं है।)R2R2R2
सिल्वरफ़िश

@ सिल्वरफ़िश मुझे पर ध्यान केंद्रित करने के लिए सहायक या सार्थक नहीं लगेगा । QQ भूखंडों को आम तौर पर देखा जाता है , न कि केवल असंख्य आर 2 मूल्यों की तालिका के साथ रिपोर्ट किया जाता है । जब तक विज़ुअलाइज़ेशन है, तब तक इसे एक ही संख्या में क्यों घटाएं? यदि QQ प्लॉट "खराब" दिखता है, लेकिन R 2 किसी भी तरह "अच्छा" दिखता है, तो क्या आप अभी भी दावा करेंगे कि यह सामान्य है? अधिकांश अच्छे पैकेज ठीक इसी कारण से आर 2 प्रदान नहीं करते हैं । इस विज़-बनाम-मोमेंट तर्क का एक प्यारा नाम भी है: अंसकोम्बे की चौकड़ीआर2आर2आर2आर2
माइक विलियमसन

आर2आर2

क्या आप सुनिश्चित हैं कि आप एक QQ प्लॉट की साजिश रच रहे हैं? help(probplot)राज्यों: probplotएक संभावना प्लॉट उत्पन्न करता है, जिसे क्यूक्यू या पीपी प्लॉट के साथ भ्रमित नहीं होना चाहिए।
अबुकज

जवाबों:


10

मैक्डॉन्ड का उत्तर सटीक है, हालांकि मूल पोस्ट से, मैंने सोचा कि यह क्रिया को थोड़ा सरल बनाने में मददगार हो सकता है।

एक QQ प्लॉट "क्वांटाइल-क्वांटाइल प्लॉट" के लिए खड़ा है ।

यह एक ऐसा भूखंड है जहाँ कुल्हाड़ियों को जानबूझकर रूपांतरित किया जाता है ताकि एक सीधी रेखा में एक सामान्य (या गाऊसी) वितरण दिखाई दे । दूसरे शब्दों में, एक बिल्कुल सामान्य वितरण बिल्कुल ढलान = 1 और अवरोधन = 0 के साथ एक पंक्ति का पालन करेगा।

इसलिए, यदि भूखंड दिखाई नहीं देता है - मोटे तौर पर - एक सीधी रेखा, तो अंतर्निहित वितरण सामान्य नहीं है। यदि यह झुकता है, तो उदाहरण के लिए, अपेक्षा से अधिक "उच्च उड़ता" मूल्य हैं। (लिंक अधिक उदाहरण प्रदान करता है।)


  1. X & y लेबल क्या दर्शाते हैं?

सैद्धांतिक quantiles x- अक्ष रखा जाता है। यही है, एक्स-एक्सिस आपका डेटा नहीं है , यह केवल एक अपेक्षा है कि आपका डेटा कहाँ होना चाहिए था, अगर यह सामान्य था।

वास्तविक डेटा y- अक्ष साजिश रची है।

मान माध्य से मानक विचलन हैं। तो, 0डेटा का मतलब, 11 मानक से ऊपर का विचलन है, आदि। इसका मतलब है, उदाहरण के लिए, 68.27%आपके सभी डेटा -1 और 1 के बीच होना चाहिए, यदि आपके पास सामान्य वितरण है।

  1. आर2

आर2आर2आर2आर2


अंत में, एक समान भूखंड है जिसे शायद ही कभी पीपी भूखंड कहा जाता है । यह प्लॉट तब अधिक उपयोगी होता है, जब आप इस बात पर ध्यान केंद्रित करने में रुचि रखते हैं कि डेटा का बड़ा हिस्सा चरम सीमा के बजाय कहां है ।


1
तिरछा शब्द यहां सबसे अच्छा विकल्प नहीं है: मैं कहता हूं कि यह रूपांतरित होगा
निक कॉक्स

महान व्याख्या। क्या आप बता सकते हैं कि एक्स-एक्सिस (अपेक्षित मान) कैसे उत्पन्न होते हैं?
विवेक अनंत

1

Y अक्ष मनाया वितरण और X अक्ष, सैद्धांतिक वितरण के मूल्यों को दर्शाता है।

प्रत्येक बिंदु एक मात्रा है। मान लीजिए, यदि भूखंड पर 100 अंक थे, तो पहला बिंदु (निचला-बाईं ओर) एक अंतराल के लिए ऊपरी सीमा को इंगित करता है, और जब सबसे छोटे से बड़े तक का आदेश दिया जाता है, तो डेटा बिंदुओं का सबसे छोटा 1 प्रतिशत इसी अंतराल में समान वितरण रहता है। इसी तरह, दूसरा बिंदु एक अंतराल का ऊपरी हिस्सा है, जहां वितरण से डेटा बिंदुओं का सबसे छोटा 2 प्रतिशत स्थित है। यह मात्रात्मक की अवधारणा है। लेकिन यह 100 अंतराल के साथ एक मामले तक सीमित नहीं है, यह एक सामान्य अवधारणा है और आपके पास जितना संभव हो उतने अंतराल हो सकते हैं, फिर आपके पास कई मात्रात्मक अंतराल की सीमाओं का वर्णन होगा।

--

मैंने अपने उत्तर में डेटा बिंदुओं का इस्तेमाल किया, जैसे कि ऑर्डर किए गए डेटा पॉइंट्स आदि। यह डिस्ट्रिब्यूट डिस्ट्रीब्यूशन को संदर्भित करता है, लेकिन कॉन्सेप्ट को लगातार वितरण के लिए सामान्यीकृत किया जा सकता है।

आर2आर2


3
आर2आर2
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.