बॉक्सप्लॉट से कम विचरण


12

मैं सोच रहा था कि एक बॉक्सप्लॉट का उपयोग करके एक चर के प्रसरण को कैसे कम किया जाए। क्या कम से कम यह घटाना संभव है कि क्या दो चर एक समान रूप से अपने बॉक्सप्लॉट को देख रहे हों?


1
हाल ही में एक समान विषय के बारे में इस लेख पर ठोकर खाई । आशा है कि यह आपको कुछ जानकारी देगा।
पेंग्विन_केनाइट

जवाबों:


16

नहीं बहुत सख्त मान्यताओं के बिना, नहीं। यदि आप मान रहे थे कि उत्तर हां था (पूछने के बजाय, जिसके लिए मैं आपकी सराहना करता हूं), तो मुझे यकीन है कि मैं आपको इस (काउंटर) उदाहरण के साथ बेवकूफ बना सकता हूं:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

बहुत समान लगता है, है ना? फिर भी !σ12=1,σ22=1.96

यदि यह कोड से स्पष्ट नहीं है, तो जनसंख्या 2है:

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

और नहीं, आप यह नहीं घटा सकते कि यह आबादी सामान्य है क्योंकि यह बिल्कुल सममित है। यहाँ जनसंख्या की एक QQ साजिश है 2:

यकीन है कि मुझे सामान्य नहीं लगता है।

संपादित करें - आपकी टिप्पणी का जवाब:

भिन्नता एक संख्यात्मक आँकड़ा है। अगर दो डिस्ट्रीब्यूशन के वेरिएंट्स सचमुच एक समान हैं, तो आपको इसके बारे में बहुत कुछ कहना होगा। यदि दो वितरण बिल्कुल सामान्य हैं , तो फिर, एक गणितीय परिभाषा है कि वे दोनों फिट होंगे। यदि दो वितरण बिल्कुल सामान्य या विचरण में समान नहीं हैं, तो आपको अन्यथा नहीं कहना चाहिए। यदि आप कहना चाहते हैं कि वे लगभग समान या सामान्य हैं, तो आपको संभवतः "लगभग पर्याप्त" को इस तरह से परिभाषित करना चाहिए जो आपके उद्देश्यों के अनुरूप हो, जिसे आपने यहां निर्दिष्ट नहीं किया है। वितरण संबंधी मतभेदों की संवेदनशीलता विश्लेषणों में व्यापक रूप से भिन्न होती है जो आमतौर पर आपके जैसे प्रश्नों को प्रेरित करती है। उदाहरण के लिए,टीयह बाद में दिए गए समान नमूना आकारों के उल्लंघन के लिए काफी मजबूत है , इसलिए मैं अपनी 2आबादी 1(सामान्य वितरण) की तुलना करने के लिए उस परीक्षण की सिफारिश नहीं करूंगा ।


3
अच्छा उदाहरण। निक आर का उपयोग कर रहे हैं (जब तक हर कोई आर का उपयोग करता है, तब तक यह उल्लेख करना अच्छा है।)
निक कॉक्स

यह सोचने में मदद नहीं कर सकते कि पूरे दिन विज्ञान के लिए एक अच्छा दिन होगा :)
निक स्टॉनर 27'14

मेरा उस पर एक लंबा निबंध है, लेकिन किसी तरह यह उपलब्ध स्थान में फिट नहीं होगा।
निक कॉक्स

अच्छा उत्तर। क्या आप यह लिख सकते हैं कि हमें कौन सी जानकारी को रिपोर्ट करने के लिए कहना चाहिए: "वे सामान्य हैं और विचरण एक ही है"
डोनेबेओ

जवाब देने के लिए संपादित किया गया।
निक स्टॉनर

10

यह अच्छी तरह से उत्तर दिया गया है। इन अतिरिक्त टिप्पणियों को टिप्पणी के रूप में जाने के लिए थोड़ा लंबा (अद्यतन: अब बहुत लंबा है)।

सख्ती से, आप सभी एक वितरण की परिवर्तनशीलता के बारे में एक बॉक्सप्लॉट पढ़ सकते हैं इसकी इंटरक्वेर्टाइल रेंज (बॉक्स की लंबाई या ऊंचाई) और सीमा (प्रदर्शन के चरम के बीच की लंबाई या ऊंचाई) हैं।

एक सन्निकटन के रूप में, बॉक्स प्लॉट जो समान प्रतीत होते हैं, बहुत समान रूपांतर होने की संभावना है, लेकिन बाहर देखो। बहुत अलग बॉक्स स्थिति या पूंछ (या दोनों) के साथ बॉक्स भूखंडों में समान रूपांतरों की संभावना नहीं है, लेकिन यह असंभव नहीं है। लेकिन भले ही बॉक्स प्लॉट समान दिखते हों, आपको बॉक्स के भीतर परिवर्तनशीलता के बारे में सादे या वेनिला बॉक्स प्लॉट में कोई जानकारी नहीं मिलती है या वास्तव में व्हिस्की के भीतर परिवर्तनशीलता होती है (बॉक्स के बीच अक्सर दिखाई जाने वाली रेखाएं और निकटवर्ती कार्टेल के 1.5 IQR के भीतर डेटा बिंदु) । बॉक्स भूखंडों के एनबी कई प्रकार मौजूद हैं; लेखक अक्सर अपने सॉफ़्टवेयर द्वारा उपयोग किए गए सटीक नियमों का दस्तावेजीकरण करने में गरीब होते हैं।

बॉक्स प्लॉट की लोकप्रियता इसकी कीमत है। कई समूहों या चर (20 या 30, कभी-कभी और भी अधिक) की सकल विशेषताओं को दिखाने के लिए बॉक्स प्लॉट बहुत उपयोगी हो सकते हैं। जैसा कि आमतौर पर 2 या 3 समूहों की तुलना करने के लिए उपयोग किया जाता है, वे ओवरसोल्ड हैं, मेरे विचार में, जैसा कि अन्य प्लॉट एक ही स्थान पर बुद्धिमानी से बहुत अधिक विस्तार दिखा सकते हैं। स्वाभाविक रूप से, यह व्यापक रूप से है अगर सार्वभौमिक रूप से सराहना नहीं की जाती है, और बॉक्स साजिश के विभिन्न संवर्द्धन अधिक विस्तार दिखाते हैं।

भिन्नताओं के साथ गंभीर काम के लिए मूल डेटा तक पहुंच की आवश्यकता होती है।

यह व्यापक ब्रश है, और अधिक विवरण जोड़ा जा सकता है। उदाहरण के लिए, बॉक्स के भीतर मध्यिका की स्थिति कभी-कभी थोड़ी अधिक जानकारी देती है।

अपडेट करें

मुझे लगता है कि कई और लोग बॉक्स प्लॉट से विचरण का अनुमान लगाने के विशिष्ट प्रश्न की तुलना में सामान्य रूप से बॉक्स भूखंडों के उपयोग (और सीमाएं) में रुचि रखते हैं (जिसके लिए संक्षिप्त उत्तर है "आप नहीं कर सकते, सिवाय अप्रत्यक्ष रूप से, लगभग, और कभी-कभी "), इसलिए मैं विकल्प पर आगे की टिप्पणियाँ जोड़ूंगा, जैसा कि @Christian Sauer ने कहा है।

  • संवेदनशील रूप से उपयोग किए जाने वाले हिस्टोग्राम अक्सर प्रतिस्पर्धी होते हैं। फ्रीडमैन, पिसानी और पुरवे द्वारा आधुनिक क्लासिक परिचयात्मक पाठ उन्हें भर में उपयोग करता है।

  • डॉट या स्ट्रिप प्लॉट (चार्ट) (और कई अन्य नामों से) के रूप में जाने जाने वाले विभिन्न तरीकों को समझना आसान है। यदि वांछित हो तो बिनिंग के बाद, पहचान बिंदुओं को स्टैक किया जा सकता है। आप अपने दिल की सामग्री में माध्यिका और चतुर्थक, या माध्य और आत्मविश्वास अंतराल जोड़ सकते हैं।

  • मात्रात्मक भूखंड हैं, ऐसा लगता है, एक अधिग्रहित स्वाद लेकिन कई मायनों में सभी के सबसे बहुमुखी। मैं यहाँ आदेशित मूल्यों के भूखंडों को फिर से संचयी प्रायिकता (प्लॉटिंग पोजीशन) के साथ-साथ क्वांटाइल प्लॉट्स में शामिल करता हूँ जो कि यदि डेटा "ब्रांड-नेम" वितरण माना जाता है (सामान्य, घातीय, गामा, जो भी हो) सीधे होगा। (CJ Geyer द्वारा प्रयुक्त "ब्रांड-नेम" के संदर्भ के लिए @Scortchi का आभार।)

लेकिन एक व्यापक सूची संभव नहीं है। (उदाहरण के लिए, मैं कभी-कभी जोड़ूंगा, एक स्टेम-एंड-लीफ प्रतिनिधित्व डेटा में महत्वपूर्ण विवरण देखने के लिए बिल्कुल सही है, जैसे कि जब अंक वरीयता प्रचंड होती है।) मुख्य सिद्धांत यह है कि वितरण प्लॉट का सबसे अच्छा प्रकार अनुमति देता है। असंभव प्रतीत होता है, डेटा में ठीक संरचना की धारणा जो दिलचस्प या महत्वपूर्ण हो सकती है (मॉड्युलिटी, ग्रैन्युलैरिटी, आउटलेर, आदि) और साथ ही मोटे संरचना (स्तर, प्रसार, तिरछा, आदि)।

बॉक्स प्लॉट सभी प्रकार की संरचना को दिखाने में समान रूप से अच्छे नहीं हैं। वे नहीं हो सकते हैं, और होने का इरादा नहीं था। यह ध्यान देने योग्य है कि JW Tukey in Exploratory data analysis Reading, MA: Addison-Wesley (1977) ने रेले के बायोमॉडल डेटा का उदाहरण दिया, जो एक बॉक्स प्लॉट मुख्य संरचना को पूरी तरह से अस्पष्ट कर देता है। एक महान सांख्यिकीविद् के रूप में, वह अच्छी तरह से जानते थे कि बॉक्स प्लॉट हमेशा जवाब नहीं होते थे।

एक विचित्र प्रथा, परिचयात्मक ग्रंथों में व्यापक, एनओवीए पर चर्चा कर रहा है ताकि पाठकों को बॉक्स भूखंडों को देखने के लिए आमंत्रित किया जा सके, जो कि मध्यस्थों और चतुर्थकों को दिखाते हैं, न कि साधन और संस्करण (बल्कि एसडी)। स्वाभाविक रूप से, डेटा को देखना न दिखने से बहुत बेहतर है, लेकिन फिर भी, एक अधिक उपयुक्त चित्रमय प्रतिनिधित्व निश्चित रूप से फिट किए गए साधनों के साथ कच्चे डेटा के कुछ प्लॉट +/- एसई के कुछ उपयुक्त कई हैं।


निक, क्या आप कम संख्या में चर के लिए बॉक्स-प्लॉट के विकल्प का वर्णन कर सकते हैं?
क्रिश्चियन साउर

@ChristianSauer प्रॉम्प्ट के लिए धन्यवाद: कृपया अपडेट देखें।
निक कॉक्स

बहुत अच्छी अपडेट के लिए धन्यवाद। मैं विशेष रूप से आपके अंतिम पैराग्राफ को पसंद करता हूं, मुझे लगता है कि बॉक्स-प्लॉट्स को ANOVA और / या रिग्रेशन के साथ काफी भ्रमित किया गया है - यह सेब और संतरे की तुलना करने जैसा है।
क्रिश्चियन सॉयर

2
सांख्यिकी, जैसे किसी भी अन्य विज्ञान के बारे में, विचित्र शब्दावली से भरी है, अंकन, और विश्लेषण की आदतों को दूसरों से कॉपी किया गया है।
निक कॉक्स

1
मैं पूरी तरह से सहमत हूँ - अपने गुरु की थीसिस में मैंने उनके सामान्य वितरण के लिए अपरिवर्तनीय वेरिएबल्स की जाँच की ... जो कि कार्गो पंथ के आँकड़ों का सबसे अच्छा रूप है :(
क्रिश्चियन सॉयर

6

एक भोली दृष्टिकोण:

0.67σ1.35σ

मैंक्यूआर=1.35σσ=0.74मैंक्यूआर

और बॉक्सप्लॉट द्वारा भिन्नताओं की तुलना करने के बारे में: व्यापक बक्से का मतलब बड़ा संस्करण है, लेकिन इससे आपको खोजपूर्ण समझ मिलती है, और आपको व्हिस्की और आउटलेर का भी ध्यान रखना होगा। पुष्टि के लिए आपको परिकल्पना के विपरीत उपयोग करना चाहिए।


विचरण की तुलना करने के लिए हमारे पास अभी भी यह है कि दोनों वितरण सामान्य हैं? क्या हम यह मान सकते हैं कि यदि बॉक्स केंद्र के सममित सम्मान है तो चर सामान्य है?
डोंबेबो

1
मैं सब कुछ सब्सक्राइब करता हूं @Nick_Stauner कहता है। मैंने जो खुलासा किया, वह मान रहा था कि आपकी आबादी सामान्य है, जिसमें दूसरों के बीच की आवश्यकता है, लेकिन सिर्फ समरूपता और कुर्तोसिस = 0. यह धारणा अक्सर उल्लंघन नहीं होती है।
रूफो

2
कर्टोसिस को विभिन्न तरीकों से परिभाषित किया गया है। एक और (सरल) परिभाषा पर, एक सामान्य (गाऊसी) में कर्टोसिस 3 है। आपको यह जांचने की आवश्यकता है कि यदि आप इसे व्यवहार में ला रहे हैं तो आपके सॉफ़्टवेयर का उपयोग कौन सी परिभाषा के अनुसार होता है।
निक कॉक्स

1
एक सामान्य वितरण के लिए , यदि मैं गलत नहीं हूं, तो कर्टोसिस 3, अतिरिक्त कुर्टोसिस 0 होगा । यदि कोई भी लोकप्रिय सॉफ़्टवेयर पैकेज डिफ़ॉल्ट रूप से गैर-अतिरिक्त कर्टोसिस का उत्पादन करता है, तो मैं उत्सुक हूं। यह शायद बहुत भ्रम पैदा करेगा (इनकार करने के लिए नहीं कि सामान्य रूप से लोग विपरीत व्यवहार में "अधिकता" की चूक से भ्रमित होते हैं) ...
निक स्टानर

1
-
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.