मैं सोच रहा था कि एक बॉक्सप्लॉट का उपयोग करके एक चर के प्रसरण को कैसे कम किया जाए। क्या कम से कम यह घटाना संभव है कि क्या दो चर एक समान रूप से अपने बॉक्सप्लॉट को देख रहे हों?
मैं सोच रहा था कि एक बॉक्सप्लॉट का उपयोग करके एक चर के प्रसरण को कैसे कम किया जाए। क्या कम से कम यह घटाना संभव है कि क्या दो चर एक समान रूप से अपने बॉक्सप्लॉट को देख रहे हों?
जवाबों:
नहीं बहुत सख्त मान्यताओं के बिना, नहीं। यदि आप मान रहे थे कि उत्तर हां था (पूछने के बजाय, जिसके लिए मैं आपकी सराहना करता हूं), तो मुझे यकीन है कि मैं आपको इस (काउंटर) उदाहरण के साथ बेवकूफ बना सकता हूं:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
बहुत समान लगता है, है ना? फिर भी !
यदि यह कोड से स्पष्ट नहीं है, तो जनसंख्या 2
है:
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
और नहीं, आप यह नहीं घटा सकते कि यह आबादी सामान्य है क्योंकि यह बिल्कुल सममित है। यहाँ जनसंख्या की एक QQ साजिश है 2
:
यकीन है कि मुझे सामान्य नहीं लगता है।
संपादित करें - आपकी टिप्पणी का जवाब:
भिन्नता एक संख्यात्मक आँकड़ा है। अगर दो डिस्ट्रीब्यूशन के वेरिएंट्स सचमुच एक समान हैं, तो आपको इसके बारे में बहुत कुछ कहना होगा। यदि दो वितरण बिल्कुल सामान्य हैं , तो फिर, एक गणितीय परिभाषा है कि वे दोनों फिट होंगे। यदि दो वितरण बिल्कुल सामान्य या विचरण में समान नहीं हैं, तो आपको अन्यथा नहीं कहना चाहिए। यदि आप कहना चाहते हैं कि वे लगभग समान या सामान्य हैं, तो आपको संभवतः "लगभग पर्याप्त" को इस तरह से परिभाषित करना चाहिए जो आपके उद्देश्यों के अनुरूप हो, जिसे आपने यहां निर्दिष्ट नहीं किया है। वितरण संबंधी मतभेदों की संवेदनशीलता विश्लेषणों में व्यापक रूप से भिन्न होती है जो आमतौर पर आपके जैसे प्रश्नों को प्रेरित करती है। उदाहरण के लिए,यह बाद में दिए गए समान नमूना आकारों के उल्लंघन के लिए काफी मजबूत है , इसलिए मैं अपनी 2
आबादी 1
(सामान्य वितरण) की तुलना करने के लिए उस परीक्षण की सिफारिश नहीं करूंगा ।
यह अच्छी तरह से उत्तर दिया गया है। इन अतिरिक्त टिप्पणियों को टिप्पणी के रूप में जाने के लिए थोड़ा लंबा (अद्यतन: अब बहुत लंबा है)।
सख्ती से, आप सभी एक वितरण की परिवर्तनशीलता के बारे में एक बॉक्सप्लॉट पढ़ सकते हैं इसकी इंटरक्वेर्टाइल रेंज (बॉक्स की लंबाई या ऊंचाई) और सीमा (प्रदर्शन के चरम के बीच की लंबाई या ऊंचाई) हैं।
एक सन्निकटन के रूप में, बॉक्स प्लॉट जो समान प्रतीत होते हैं, बहुत समान रूपांतर होने की संभावना है, लेकिन बाहर देखो। बहुत अलग बॉक्स स्थिति या पूंछ (या दोनों) के साथ बॉक्स भूखंडों में समान रूपांतरों की संभावना नहीं है, लेकिन यह असंभव नहीं है। लेकिन भले ही बॉक्स प्लॉट समान दिखते हों, आपको बॉक्स के भीतर परिवर्तनशीलता के बारे में सादे या वेनिला बॉक्स प्लॉट में कोई जानकारी नहीं मिलती है या वास्तव में व्हिस्की के भीतर परिवर्तनशीलता होती है (बॉक्स के बीच अक्सर दिखाई जाने वाली रेखाएं और निकटवर्ती कार्टेल के 1.5 IQR के भीतर डेटा बिंदु) । बॉक्स भूखंडों के एनबी कई प्रकार मौजूद हैं; लेखक अक्सर अपने सॉफ़्टवेयर द्वारा उपयोग किए गए सटीक नियमों का दस्तावेजीकरण करने में गरीब होते हैं।
बॉक्स प्लॉट की लोकप्रियता इसकी कीमत है। कई समूहों या चर (20 या 30, कभी-कभी और भी अधिक) की सकल विशेषताओं को दिखाने के लिए बॉक्स प्लॉट बहुत उपयोगी हो सकते हैं। जैसा कि आमतौर पर 2 या 3 समूहों की तुलना करने के लिए उपयोग किया जाता है, वे ओवरसोल्ड हैं, मेरे विचार में, जैसा कि अन्य प्लॉट एक ही स्थान पर बुद्धिमानी से बहुत अधिक विस्तार दिखा सकते हैं। स्वाभाविक रूप से, यह व्यापक रूप से है अगर सार्वभौमिक रूप से सराहना नहीं की जाती है, और बॉक्स साजिश के विभिन्न संवर्द्धन अधिक विस्तार दिखाते हैं।
भिन्नताओं के साथ गंभीर काम के लिए मूल डेटा तक पहुंच की आवश्यकता होती है।
यह व्यापक ब्रश है, और अधिक विवरण जोड़ा जा सकता है। उदाहरण के लिए, बॉक्स के भीतर मध्यिका की स्थिति कभी-कभी थोड़ी अधिक जानकारी देती है।
अपडेट करें
मुझे लगता है कि कई और लोग बॉक्स प्लॉट से विचरण का अनुमान लगाने के विशिष्ट प्रश्न की तुलना में सामान्य रूप से बॉक्स भूखंडों के उपयोग (और सीमाएं) में रुचि रखते हैं (जिसके लिए संक्षिप्त उत्तर है "आप नहीं कर सकते, सिवाय अप्रत्यक्ष रूप से, लगभग, और कभी-कभी "), इसलिए मैं विकल्प पर आगे की टिप्पणियाँ जोड़ूंगा, जैसा कि @Christian Sauer ने कहा है।
संवेदनशील रूप से उपयोग किए जाने वाले हिस्टोग्राम अक्सर प्रतिस्पर्धी होते हैं। फ्रीडमैन, पिसानी और पुरवे द्वारा आधुनिक क्लासिक परिचयात्मक पाठ उन्हें भर में उपयोग करता है।
डॉट या स्ट्रिप प्लॉट (चार्ट) (और कई अन्य नामों से) के रूप में जाने जाने वाले विभिन्न तरीकों को समझना आसान है। यदि वांछित हो तो बिनिंग के बाद, पहचान बिंदुओं को स्टैक किया जा सकता है। आप अपने दिल की सामग्री में माध्यिका और चतुर्थक, या माध्य और आत्मविश्वास अंतराल जोड़ सकते हैं।
मात्रात्मक भूखंड हैं, ऐसा लगता है, एक अधिग्रहित स्वाद लेकिन कई मायनों में सभी के सबसे बहुमुखी। मैं यहाँ आदेशित मूल्यों के भूखंडों को फिर से संचयी प्रायिकता (प्लॉटिंग पोजीशन) के साथ-साथ क्वांटाइल प्लॉट्स में शामिल करता हूँ जो कि यदि डेटा "ब्रांड-नेम" वितरण माना जाता है (सामान्य, घातीय, गामा, जो भी हो) सीधे होगा। (CJ Geyer द्वारा प्रयुक्त "ब्रांड-नेम" के संदर्भ के लिए @Scortchi का आभार।)
लेकिन एक व्यापक सूची संभव नहीं है। (उदाहरण के लिए, मैं कभी-कभी जोड़ूंगा, एक स्टेम-एंड-लीफ प्रतिनिधित्व डेटा में महत्वपूर्ण विवरण देखने के लिए बिल्कुल सही है, जैसे कि जब अंक वरीयता प्रचंड होती है।) मुख्य सिद्धांत यह है कि वितरण प्लॉट का सबसे अच्छा प्रकार अनुमति देता है। असंभव प्रतीत होता है, डेटा में ठीक संरचना की धारणा जो दिलचस्प या महत्वपूर्ण हो सकती है (मॉड्युलिटी, ग्रैन्युलैरिटी, आउटलेर, आदि) और साथ ही मोटे संरचना (स्तर, प्रसार, तिरछा, आदि)।
बॉक्स प्लॉट सभी प्रकार की संरचना को दिखाने में समान रूप से अच्छे नहीं हैं। वे नहीं हो सकते हैं, और होने का इरादा नहीं था। यह ध्यान देने योग्य है कि JW Tukey in Exploratory data analysis Reading, MA: Addison-Wesley (1977) ने रेले के बायोमॉडल डेटा का उदाहरण दिया, जो एक बॉक्स प्लॉट मुख्य संरचना को पूरी तरह से अस्पष्ट कर देता है। एक महान सांख्यिकीविद् के रूप में, वह अच्छी तरह से जानते थे कि बॉक्स प्लॉट हमेशा जवाब नहीं होते थे।
एक विचित्र प्रथा, परिचयात्मक ग्रंथों में व्यापक, एनओवीए पर चर्चा कर रहा है ताकि पाठकों को बॉक्स भूखंडों को देखने के लिए आमंत्रित किया जा सके, जो कि मध्यस्थों और चतुर्थकों को दिखाते हैं, न कि साधन और संस्करण (बल्कि एसडी)। स्वाभाविक रूप से, डेटा को देखना न दिखने से बहुत बेहतर है, लेकिन फिर भी, एक अधिक उपयुक्त चित्रमय प्रतिनिधित्व निश्चित रूप से फिट किए गए साधनों के साथ कच्चे डेटा के कुछ प्लॉट +/- एसई के कुछ उपयुक्त कई हैं।
एक भोली दृष्टिकोण:
और बॉक्सप्लॉट द्वारा भिन्नताओं की तुलना करने के बारे में: व्यापक बक्से का मतलब बड़ा संस्करण है, लेकिन इससे आपको खोजपूर्ण समझ मिलती है, और आपको व्हिस्की और आउटलेर का भी ध्यान रखना होगा। पुष्टि के लिए आपको परिकल्पना के विपरीत उपयोग करना चाहिए।