हिस्टोग्राम से अधिक QQ- भूखंडों का उपयोग करने के लाभ


22

में इस टिप्पणी को , निक कॉक्स ने लिखा है:

कक्षाओं में बायनिंग एक प्राचीन पद्धति है। हिस्टोग्राम्स उपयोगी हो सकते हैं, वहीं आधुनिक सांख्यिकीय सॉफ्टवेयर कच्चे डेटा के वितरण के लिए उपयुक्त होने के साथ-साथ इसे आसान भी बनाता है। बिनिंग सिर्फ विस्तार को दूर फेंकता है जो यह निर्धारित करने में महत्वपूर्ण है कि कौन से वितरण प्रशंसनीय हैं।

इस टिप्पणी का संदर्भ फिट का मूल्यांकन करने के लिए एक वैकल्पिक साधन के रूप में QQ- भूखंडों का उपयोग करने का सुझाव देता है। कथन बहुत प्रशंसनीय लगता है, लेकिन मैं इस कथन का समर्थन करने वाले एक विश्वसनीय संदर्भ के बारे में जानना चाहता हूं। क्या कुछ कागज है जो इस तथ्य की अधिक गहन जांच करता है, एक साधारण "अच्छी तरह से परे, यह स्पष्ट लगता है"? परिणामों या पसंदों की कोई वास्तविक व्यवस्थित तुलना?

मैं यह भी देखना चाहता हूं कि हिस्टोग्राम के ऊपर क्यूक्यू-प्लॉट्स का यह लाभ मॉडल फिटिंग के अलावा अन्य अनुप्रयोगों तक कैसे बढ़ाया जा सकता है। इस सवाल पर जवाब सहमत हैं कि "एक क्यूक्यू-प्लॉट [...] आपको बताता है कि" कुछ गलत है "। मैं एक अशक्त मॉडल की तुलना में अवलोकन किए गए डेटा में संरचना की पहचान करने के लिए एक उपकरण के रूप में उनका उपयोग करने के बारे में सोच रहा हूं और आश्चर्य करता हूं कि क्या न केवल पता लगाने के लिए बल्कि गैर-यादृच्छिक वर्णन करने के लिए QQ- भूखंडों (या उनके अंतर्निहित डेटा) का उपयोग करने के लिए कोई भी स्थापित प्रक्रिया मौजूद है। मनाया डेटा में संरचना। संदर्भ, जिसमें यह निर्देश शामिल है, इसलिए विशेष रूप से उपयोगी होगा।


4
आंकड़े.stackexchange.com/questions/51718/… पहले से ही सवाल का आधा जवाब देता है, अर्थात् क्यों हिस्टोग्राम को सबसे अच्छी तरह से बचा जाता है, इससे कोई फर्क नहीं पड़ता कि आप उनके साथ क्या करते हैं।
गाला

जवाबों:


25

यहां विहित कागज था

विलक, एमबी और आर। ज्ञानदेसिकन। 1968. डेटा के विश्लेषण के लिए संभावना प्लॉटिंग के तरीके। बायोमेट्रिक 55: 1-17

और यह अभी भी करीब और बार-बार पढ़ने को दोहराता है।

कई अच्छे उदाहरणों के साथ एक स्पष्ट उपचार दिया गया था

क्लीवलैंड, डब्ल्यूएस 1993। विज़ुअलाइज़िंग डेटा। शिखर सम्मेलन, एनजे: होबार्ट प्रेस।

और यह अधिक परिचयात्मक उल्लेख के लायक है

क्लीवलैंड, डब्लूएस 1994. द एलिमेंट्स ऑफ़ ग्राफिंग डेटा। शिखर सम्मेलन, एनजे: होबार्ट प्रेस।

इस दृष्टिकोण के उचित प्रदर्शन वाले अन्य ग्रंथों में शामिल हैं

डेविसन, एसी 2003. सांख्यिकीय मॉडल। कैम्ब्रिज: कैम्ब्रिज यूनिवर्सिटी प्रेस।

राइस, जेए 2007. गणितीय सांख्यिकी और डेटा विश्लेषण। बेलमोंट, सीए: डक्सबरी।

एक तरफ, मुझे कुछ भी पता नहीं है कि आप क्या पूछ रहे हैं। एक बार जब आप क्वांटाइल-क्वांटाइल प्लॉट्स के बिंदु को देख चुके हैं, तो विस्तार से दिखाते हैं कि हिस्टोग्राम एक दूसरे दर्जे का विकल्प है जो न तो दिलचस्प है और न ही उपयोगी है, बहुत अधिक एक बैरल में मछली की तरह।

लेकिन मैं इस तरह संक्षेप में बताऊंगा:

  1. बिनिंग विवरणों को दबा देता है, और विवरण अक्सर महत्वपूर्ण होते हैं। यह न केवल पूंछ में चल रहा है, बल्कि बीच में जो चल रहा है, उस पर भी लागू हो सकता है। उदाहरण के लिए, ग्रेन्युलैरिटी या मल्टीमॉडैलिटी महत्वपूर्ण होने के साथ-साथ तिरछापन या पूंछ का वजन भी हो सकता है।

  2. बिनिंग को बिन उत्पत्ति और बिन चौड़ाई के बारे में निर्णय लेने की आवश्यकता होती है, जो हिस्टोग्राम की उपस्थिति को शक्तिशाली रूप से प्रभावित कर सकती है, इसलिए यह देखना कठिन है कि वास्तविक क्या है और विकल्पों का साइड-इफेक्ट क्या है। यदि आपका सॉफ़्टवेयर आपके लिए ये निर्णय लेता है, तो समस्याएं बनी रहती हैं। (उदाहरण के लिए, डिफ़ॉल्ट बिन विकल्प अक्सर डिज़ाइन किए जाते हैं ताकि आप "बहुत अधिक डिब्बे" का उपयोग न करें, अर्थात थोड़ा चौरसाई करने के उद्देश्य से।)

  3. दो हिस्टोग्राम की तुलना की चित्रमय और मनोवैज्ञानिक समस्या एक सीधी रेखा के बिंदुओं के एक सेट के फिट को पहचानने की तुलना में पेचीदा है।

-माध्य) / एस.डी. यदि मात्राएँ केवल क्रम के आँकड़े हैं, तो आपको केवल इतना करना होगा कि आपको परिवर्तन को लागू करना है, जैसे कि अधिकतम का लघुगणक समान रूप से लघुगणक का अधिकतम है, और इसके आगे। (तुच्छ रूप से, पारस्परिकता आदेश को उलट देती है।) भले ही आप चयनित मात्राओं को दो क्रम आँकड़ों के आधार पर प्लॉट करते हैं, आमतौर पर वे केवल दो मूल डेटा मूल्यों के बीच प्रक्षेपित होते हैं और प्रक्षेप का प्रभाव तुच्छ होता है। इसके विपरीत, लॉग या अन्य रूपांतरित तराजू पर हिस्टोग्राम को बिन उत्पत्ति और चौड़ाई पर एक नए निर्णय की आवश्यकता होती है जो विशेष रूप से मुश्किल नहीं है, लेकिन यह तुच्छ नहीं है। वितरण को संक्षेप में प्रस्तुत करने के तरीके के रूप में घनत्व अनुमान के बारे में बहुत कुछ कहा जा सकता है।


8

विलियम एस। क्लीवलैंड का काम देखें।

विज़ुअलाइज़िंग डेटा शायद सबसे अच्छा एकल स्रोत है, लेकिन उसका वेब पेज भी देखें , विशेषकर ग्रंथ सूची और विज़ुअलाइज़िंग डेटा के लिए पृष्ठ (एस + कोड सहित जो उपयोग के लिए अनुकूल है R)।

क्लीवलैंड के कई कारण हैं कि क्यूक्यू प्लॉट अच्छे हैं और हिस्टोग्राम इतने अच्छे क्यों नहीं हैं।



7

एक बार जब आप उनका उपयोग करना सीख लेते हैं, तो QQ प्लॉट आपको तिरछापन, भारीपन, सामान्य आकार, चोटियों आदि की पहचान करने की अनुमति देते हैं, उसी प्रकार की विशेषताएं जो लोग मूल्यांकन करने का प्रयास करने के लिए हिस्टोग्राम का उपयोग करते हैं।

कर्नेल घनत्व के अनुमान या लॉग-स्पलाइन घनत्व के अनुमान, हिस्टोग्राम के कुछ मुद्दों से बच सकते हैं, जो गाला ने टिप्पणियों में बताया था।

उस लिंक से इस उदाहरण पर विचार करें:

हालांकि, जब तक आप बहुत भाग्यशाली नहीं होते हैं, तब तक असंतुष्ट विसंगति कभी-कभी हिस्टोग्राम के साथ छूट सकती है, और यहां तक ​​कि चिकनी घनत्व के अनुमानों के साथ भी (क्योंकि वे सहज, स्वाभाविक रूप से), लेकिन अक्सर क्यूक्यू भूखंडों पर स्पष्ट होगा। चिकना घनत्व का अनुमान - जब तक कि विशेष रूप से इलाज नहीं किया जाता है - तब तक सीमित चर के साथ भी परेशानी हो सकती है।

हिस्टोग्राम और चिकने घनत्व का अनुमान है कि दोनों डेटा के सन्निकटन पर निर्भर करते हैं - जो उपयोगी हो सकता है - लेकिन यह कलाकृतियों या कुछ गलत तरीके से प्रस्तुत करना भी हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.