QQ प्लॉट हिस्टोग्राम से मेल नहीं खाता है


12

मेरे पास हिस्टोग्राम, कर्नेल घनत्व और वित्तीय लॉग रिटर्न का एक सामान्य सामान्य वितरण है, जो नुकसान (संकेत बदल जाता है) में बदल जाता है, और इन आंकड़ों का एक सामान्य क्यूक्यू प्लॉट:

http://tinypic.com/r/34ocwvr/6

क्यूक्यू साजिश स्पष्ट रूप से दिखाती है कि पूंछ सही ढंग से फिट नहीं हैं। लेकिन अगर मेरे पास हिस्टोग्राम और फिटेड सामान्य वितरण (नीला) पर एक नज़र है, तो भी लगभग 0.0 के मान सही ढंग से फिट नहीं किए गए हैं। तो क्यूक्यू प्लॉट से पता चलता है कि केवल पूंछों को उचित रूप से फिट नहीं किया गया है, लेकिन स्पष्ट रूप से पूरे वितरण को सही ढंग से फिट नहीं किया गया है। क्यूक्यू प्लॉट में यह क्यों नहीं दिखा?


10
बाईं ओर का नीला वक्र दाईं ओर "सर्वश्रेष्ठ फिट" की काल्पनिक रेखा से मेल खाता है। दाईं ओर की रेखा उस सर्वोत्तम फिट रेखा नहीं है: यह वह है जो वितरण में मध्य मूल्यों को सबसे अच्छी तरह से फिट करती है । यदि आप पूरी चीज़ के बजाय, मध्य दो-तिहाई या हिस्टोग्राम के लिए "घंटी वक्र" फिट करने के लिए थे, तो वह वक्र चोटी और खड़ी ढलान वाले पक्षों का अनुसरण करने के करीब आएगा, लेकिन तब यह दूर होगा कंधों और पूंछ पर बहुत कम। यह वही है जो qq भूखंड में लाइन दिखा रहा है, वह भी: उन भूखंडों को सही समझौते में हैं; यह अलग है कि फिट बैठता है।
whuber

जवाबों:


11

+1 से @NickSabbe, 'प्लॉट सिर्फ आपको बताता है कि "कुछ गलत है", जो अक्सर क्यूक-प्लॉट का उपयोग करने का सबसे अच्छा तरीका है (क्योंकि यह समझना मुश्किल है कि उन्हें कैसे समझा जाए)। हालांकि, यह कैसे बनाया जाए, इस बारे में सोचकर एक qq- प्लॉट की व्याख्या करना सीखना संभव है।

आप अपने डेटा को क्रमबद्ध करके शुरू करेंगे, फिर आप न्यूनतम मूल्य से प्रत्येक को समान प्रतिशत के रूप में अपना रास्ता गिनाएंगे। उदाहरण के लिए, यदि आपके पास 20 डेटा बिंदु थे, जब आपने पहले एक (न्यूनतम) की गणना की थी, तो आप अपने आप से कहेंगे, 'मैंने अपने डेटा का 5% गिना था।' आप इस प्रक्रिया का पालन तब तक करेंगे जब तक आप अंत तक नहीं पहुंच जाते, जिस बिंदु पर आप अपने डेटा के 100% से गुजर चुके होंगे। इन प्रतिशत मानों की तुलना तत्कालीन सामान्य से समान प्रतिशत मानों से की जा सकती है (अर्थात, समान माध्य और SD के साथ सामान्य)।

जब आप इन्हें प्लॉट करने जाते हैं, तो आपको पता चलता है कि आपको अंतिम मूल्य से परेशानी है, जो कि 100% है, क्योंकि जब आप 100% सैद्धांतिक सामान्य से गुज़रे हैं तो आप 'इनफिनिटी' में हैं। प्रतिशत की गणना करने से पहले अपने डेटा में प्रत्येक बिंदु पर हर में एक छोटे से निरंतर जोड़कर इस समस्या से निपटा जाता है। एक विशिष्ट मान हर में 1 जोड़ना होगा; उदाहरण के लिए, आप अपने 1 (20 का) डेटा बिंदु 1 / (20 + 1) = 5% कहेंगे, और आपका अंतिम 20 / (20 + 1) = 95% होगा। अब यदि आप एक सामान्य सैद्धांतिक के विपरीत इन बिंदुओं को प्लॉट करते हैं, तो आपके पास एक पीपी-प्लॉट होगा(संभावनाओं के खिलाफ संभावनाओं की साजिश रचने के लिए)। इस तरह की साजिश आपके वितरण के बीच के विचलन और वितरण के केंद्र में एक सामान्य स्थिति को दर्शाती है। ऐसा इसलिए है क्योंकि एक सामान्य वितरण का 68% +/- 1 एसडी के भीतर है, इसलिए पीपी-प्लॉट का उत्कृष्ट समाधान है, और कहीं और खराब संकल्प। (इस बिंदु पर अधिक जानकारी के लिए, यहां मेरे उत्तर को पढ़ने में मदद मिल सकती है: पीपी-प्लॉट्स बनाम क्यूक्यू-प्लॉट्स ।)

अक्सर, हम सबसे अधिक चिंतित हैं कि हमारे वितरण की पूंछ में क्या हो रहा है। वहां बेहतर रिज़ॉल्यूशन प्राप्त करने के लिए (और इस तरह बीच में बदतर रिज़ॉल्यूशन), हम इसके बजाय qq- प्लॉट का निर्माण कर सकते हैं । हम अपनी संभावनाओं के सेट को ले कर और उन्हें सामान्य वितरण के CDF के व्युत्क्रम से गुजारते हैं (यह एक आँकड़ों की किताब के पीछे z- टेबल को पढ़ने की तरह है - आप एक संभाव्यता में पढ़ते हैं और एक z पढ़ते हैं- स्कोर)। इस ऑपरेशन का परिणाम क्वांटाइल्स के दो सेट हैं , जो एक दूसरे के खिलाफ इसी तरह साजिश रच सकते हैं।

@whuber सही है कि संदर्भ रेखा बाद में (आमतौर पर) सबसे अच्छी फिटिंग लाइन को 50% बिंदुओं के माध्यम से (यानी, पहले चतुर्थक से तीसरे तक) के द्वारा प्लॉट की जाती है। यह कथानक को पढ़ने में आसान बनाने के लिए किया जाता है। इस पंक्ति का उपयोग करके, आप प्लॉट की व्याख्या यह दिखा सकते हैं कि क्या आपके वितरण की मात्राएँ उत्तरोत्तर सामान्य से भिन्न होती हैं, जैसे आप पूंछ में जाते हैं। (ध्यान दें कि केंद्र से आगे बिंदुओं की स्थिति वास्तव में उन करीबियों से स्वतंत्र नहीं है; इसलिए तथ्य यह है कि, आपके विशिष्ट हिस्टोग्राम में, 'कंधों' के अलग होने के बाद पूंछ एक साथ आती है, इसका मतलब यह नहीं है कि मात्राएँ अब फिर से वही हैं।)

आप किसी प्लॉट किए गए बिंदु के लिए तुलना की गई कुल्हाड़ियों से पढ़े गए मूल्यों पर विचार करके एक क्यू-प्लॉट को विश्लेषणात्मक रूप से व्याख्या कर सकते हैं। यदि डेटा को एक सामान्य वितरण द्वारा अच्छी तरह से वर्णित किया गया था, तो मान उसी के बारे में होना चाहिए। उदाहरण के लिए, बहुत दूर नीचे के कोने पर चरम बिंदु लें: इसका मान कहीं-कहीं अतीत , लेकिन इसका मान केवल थोड़ा अतीत , इसलिए यह 'इसे' की तुलना में बहुत अधिक है। सामान्य तौर पर, क्यूक-प्लॉट की व्याख्या करने के लिए एक सरल रूब्रिक यह है कि यदि किसी दिए गए पूंछ को संदर्भ रेखा से वामावर्त घुमाते हैं, तो आपके वितरण की उस पूंछ में एक सैद्धांतिक सामान्य की तुलना में अधिक डेटा होता है, और यदि कोई पूंछ दक्षिणावर्त घुमाती है। है कम- 3 y - 2x3y.2सैद्धांतिक सामान्य की तुलना में आपके वितरण की उस पूंछ में डेटा। दूसरे शब्दों में:

  • यदि दोनों पूंछ वामावर्त मोड़ लें तो आपके पास भारी पूंछ ( लेप्टोकार्टोसिस ) है,
  • यदि दोनों घड़ी की दिशा में मुड़ते हैं, तो आपके पास हल्की पूंछ (प्लैटीक्यूरोसिस) होती है,
  • अगर आपकी दाहिनी पूंछ मुड़ जाती है, तो वामावर्त और आपकी बाईं पूंछ, दक्षिणावर्त मुड़ जाती है, तो आपके दाहिने तिरछा है
  • यदि आपकी बाईं पूंछ मुड़ जाती है तो वामावर्त और आपकी दाईं पूंछ घड़ी की दिशा में मुड़ जाती है, आपने तिरछा छोड़ दिया है

मुझे ऐसे रूब्रिक्स संतोषजनक से कम लगते हैं। एक यह है कि प्लॉट के पीछे के सिद्धांतों के साथ उनका कोई सीधा संबंध नहीं है: उन्हें अलग से याद रखना होगा (और एक दोषपूर्ण स्मृति द्वारा पूरी तरह से भ्रमित किया जा सकता है)। एक और (इस मामले में) यह है कि यह मज़बूती से उपयोगी होने के लिए बहुत जटिल है। फिर भी एक और बात यह है कि इस तरह के प्लॉट कैसे तैयार किए जाते हैं, में मानकीकरण की कमी एक अलग प्रक्रिया द्वारा किए गए qq प्लॉट पर लागू होने पर इस पद्धति को गलत बना सकती है। लेकिन qq भूखंडों की व्याख्या करना आसान है: मेरे प्रयास को क्वांटडेक . com/envstats/notes/class_03/probability.htm से आधे रास्ते पर एक स्पष्टीकरण पर देखें ।
whuber

5

सीधे शब्दों में कहें: क्यूक्यू-प्लॉट अनुभवजन्य वितरण में रैंकिंग को अपेक्षित वितरण की तुलना में दर्शाता है। आपके मामले में (और यह वास्तव में अक्सर ऐसा होता है; हमेशा सममित वितरण के साथ), मध्य के निकट रैंक अपेक्षित और अनुभवजन्य के बीच समान होगा, इसलिए, क्यूक्यू-प्लॉट वहां की रेखा के करीब है।

वास्तव में क्यूक्यू-प्लॉट में उनकी स्थिति के आधार पर "अजीब" टिप्पणियों की पहचान करना इतना सरल नहीं है: प्लॉट आपको बताता है कि "कुछ गलत है", और यदि आप डेटा / वितरण के बारे में अधिक जानते हैं, तो आपको पता चल सकता है। जहां मुद्दे हैं।


1
मैं विपरीत निष्कर्ष को बनाए रखूंगा, निक: क्यूक प्लॉट डेटा के शरीर की तुलना में "अजीब" परिणामों की पहचान करना और मूल्यांकन करना बहुत आसान बनाता है, जबकि हिस्टोग्राम बहुत अस्पष्ट हो जाता है कि क्यूक प्लॉट का पता चलता है। यहाँ मुद्दा यह नहीं है कि क्या qq प्लॉट एक लाइन के करीब है: यह चिंता करता है कि किस लाइन को सॉफ़्टवेयर द्वारा प्लॉट के लिए संदर्भ के रूप में चुना गया था! (मैं संदिग्ध R। ठिकानों ऐसे चतुर्थकों के रूप में कुछ मध्यम प्रतिशतक, पर इसके लिए फिट है, जबकि जाहिर हिस्टोग्राम के लिए फिट मिलान क्षणों पर आधारित था)
whuber

1
@ वाउचर: व्यक्तिगत रूप से, मैं दोनों को संभव होने पर देखना पसंद करता हूं (ज्यादातर जब से मैं "क्यूक्यू-प्लॉट्स की तुलना में हिस्टोग्राम" को आसानी से पढ़ता हूं)। लेकिन आप सही हैं और मैं सही हूं।
निक सबबे

और आप काफी सही हैं कि दो तकनीकें पूरक हैं। उदाहरण के लिए, बिमोडिटी एक हिस्टोग्राम में क्यूक प्लॉट की तुलना में आसानी से पता लगा सकती है (और क्वांटिफाई) करती है। मेरा मानना ​​है कि अभ्यास के साथ, हिस्टोग्राम और क्यूक प्लॉट दोनों को पढ़ना आसान हो जाता है। QQ प्लॉट केवल सीखने में थोड़ा अधिक समय ले सकते हैं क्योंकि उनके पास प्रस्तुति का एक मानक रूप नहीं है: आपको हमेशा यह देखना होगा कि कौन सा अक्ष मूल्य है और कौन सा क्वांटाइल है, और कभी-कभी क्वांटाइल "समतुल्य मान" में बदले जाते हैं (बजाय मानकीकृत किया जा रहा है)।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.