एक बॉक्सप्लॉट से तिरछापन का आकलन कैसे करें?


19

इस डेटा से निर्मित बॉक्सप्लॉट को देखकर तिरछाता कैसे तय करें:

340, 300, 520, 340, 320, 290, 260, 330

एक पुस्तक में कहा गया है, "यदि निचली चतुर्थक ऊपरी चतुर्थक की तुलना में माध्यिका से बहुत दूर है, तो वितरण नकारात्मक रूप से तिरछा होता है।" कई अन्य स्रोतों ने कमोबेश यही कहा।

मैंने R का उपयोग करके एक बॉक्सप्लॉट बनाया। यह निम्न की तरह है:

बॉक्स प्लॉट

मुझे लगता है कि यह नकारात्मक रूप से तिरछा है , क्योंकि निचली चतुर्थक ऊपरी चतुर्थक की तुलना में मध्य से दूर है। लेकिन समस्या यह है कि जब मैं तिरछापन निर्धारित करने के लिए दूसरी विधि का उपयोग करता हूं:

माध्य (337.5)> माध्य (325)

यह इंगित करता है कि डेटा सकारात्मक रूप से तिरछा है । क्या मैं कुछ भुल गया?

जवाबों:


19

तिरछापन का एक उपाय माध्य-मध्य पर आधारित है - पियर्सन का दूसरा तिरछा गुणांक

तिरछापन का एक अन्य माप सापेक्ष चतुर्थक अंतर (Q3-Q2) बनाम (Q2-Q1) अनुपात के रूप में व्यक्त पर आधारित है

जब (Q3-Q2) बनाम (Q2-Q1) इसके बजाय एक अंतर (या समतुल्य midhinge-मंझला) के रूप में व्यक्त किया जाता है, तो इसे आयामहीन बनाने के लिए स्केल किया जाना चाहिए (जैसा कि आमतौर पर तिरछी माप के लिए आवश्यक होता है), IQR द्वारा कहा गया है, जैसा कि। यहाँ ( डालकर )।यू=0.25

सबसे आम उपाय निश्चित रूप से तीसरे-क्षण तिरछा है

कोई कारण नहीं है कि ये तीन उपाय अनिवार्य रूप से सुसंगत होंगे। उनमें से कोई भी अन्य दो से अलग हो सकता है।

जिसे हम "तिरछापन" के रूप में मानते हैं, वह कुछ हद तक फिसलन और गैर-परिभाषित अवधारणा है। अधिक चर्चा के लिए यहां देखें ।

यदि हम आपके डेटा को सामान्य qqplot के साथ देखते हैं:

यहाँ छवि विवरण दर्ज करें

[वहां चिह्नित लाइन केवल पहले 6 बिंदुओं पर आधारित है, क्योंकि मैं वहां के पैटर्न से अंतिम दो के विचलन पर चर्चा करना चाहता हूं।]

हम देखते हैं कि सबसे छोटे 6 बिंदु लाइन पर लगभग पूरी तरह से झूठ बोलते हैं।

फिर 7 वां बिंदु रेखा के नीचे है (बाएं छोर से संबंधित दूसरे बिंदु की तुलना में मध्य के करीब), जबकि आठवां बिंदु ऊपर बैठता है।

7 वां बिंदु हल्के बाएं तिरछा, अंतिम, मजबूत दाहिने तिरछा दर्शाता है। यदि आप किसी भी बिंदु को अनदेखा करते हैं, तो तिरछापन की छाप पूरी तरह से दूसरे द्वारा निर्धारित की जाती है।

अगर मैं था कहने के लिए यह था एक या दूसरे, मैं फोन करता हूँ कि "सही तिरछा" लेकिन मैं यह भी कहना था कि ऐसा लगता है कि एक बहुत बड़ी बात के प्रभाव के कारण पूरी तरह से किया गया था। इसके बिना यह कहना सही है कि यह सही तिरछा है। (दूसरी ओर, इसके बजाय 7 वें बिंदु के बिना, यह स्पष्ट रूप से तिरछा नहीं बचा है।)

हमें बहुत सावधान रहना चाहिए जब हमारी धारणा पूरी तरह से एकल बिंदुओं द्वारा निर्धारित की जाती है, और एक बिंदु को हटाकर चारों ओर फ़्लिप किया जा सकता है। यह एक आधार पर ज्यादा नहीं है!


मैं इस आधार के साथ शुरू करता हूं कि एक बाहरी 'आउटलाइंग' क्या मॉडल है (एक मॉडल पर सम्मान के साथ एक बाहरी चीज दूसरे मॉडल के तहत काफी विशिष्ट हो सकती है)।

मुझे लगता है कि सामान्य के 0.01 ऊपरी प्रतिशतक (1/10000) पर एक अवलोकन (मतलब से ऊपर 3.72 सेंट) समान रूप से सामान्य मॉडल के लिए एक अवगुण है। एक्सपोनेंशियल डिस्ट्रीब्यूशन मॉडल के 0.01 ऊपरी प्रतिशत पर अवलोकन के समान है। (यदि हम वितरण को अपनी संभाव्य अभिन्न परिवर्तन द्वारा परिवर्तित करते हैं, तो प्रत्येक एक ही वर्दी में जाएगा)

बॉक्सप्लॉट नियम को एक समान रूप से सही तिरछा वितरण के साथ समस्या को देखने के लिए, एक घातीय वितरण से बड़े नमूनों का अनुकरण करें।

उदाहरण के लिए, यदि हम एक सामान्य से आकार 100 के नमूनों का अनुकरण करते हैं, तो हम प्रति नमूने 1 से कम औसत निकलते हैं। यदि हम इसे घातांक के साथ करते हैं, तो हम लगभग 5. औसत करते हैं। लेकिन इसका कोई वास्तविक आधार नहीं है कि यह कहने के लिए कि घातीय मानों का एक उच्च अनुपात "आउटिंग" है, जब तक कि हम एक सामान्य मॉडल के साथ तुलना नहीं करते। विशेष स्थितियों में हमारे पास कुछ विशिष्ट रूप के एक बाहरी नियम होने के विशिष्ट कारण हो सकते हैं, लेकिन कोई सामान्य नियम नहीं है, जो हमें सामान्य सिद्धांतों के साथ छोड़ देता है जैसे कि मैंने इस उपधारा पर शुरू किया था - प्रत्येक मॉडल / वितरण को अपनी स्वयं की रोशनी में इलाज करने के लिए (यदि एक मॉडल के संबंध में कोई मूल्य असामान्य नहीं है, तो उसे उस स्थिति में एक बाहरी क्यों कहें?)


शीर्षक में प्रश्न करने के लिए :

हालांकि यह एक बहुत ही क्रूड इंस्ट्रूमेंट है (यही वजह है कि मैंने क्यूक्यू-प्लॉट पर गौर किया) एक बॉक्सप्लॉट में तिरछापन के कई संकेत हैं - यदि एक कम से कम एक बिंदु एक बाहरी के रूप में चिह्नित है, तो संभावित रूप से (कम से कम) तीन हैं:

यहाँ छवि विवरण दर्ज करें

इस नमूने (n = 100) में, बाहरी बिंदु (हरा) चरम सीमा को चिह्नित करते हैं, और मध्यिका के साथ बाईं तिरछी सलाह देते हैं। तब बाड़ (नीला) सुझाव देते हैं (जब माध्यिका के साथ संयुक्त होता है) सही तिरछापन का सुझाव देते हैं। फिर टिका (चतुर्थक, भूरा), मध्यमा के साथ संयुक्त होने पर बाएं तिरछापन का सुझाव देते हैं।

जैसा कि हम देखते हैं, उन्हें सुसंगत होने की आवश्यकता नहीं है। जिस पर आप ध्यान केंद्रित करेंगे वह उस स्थिति पर निर्भर करता है जिसमें आप (और संभवतः आपकी प्राथमिकताएँ) हैं।

हालांकि, बॉक्सप्लेट कितना कच्चा है, इस पर एक चेतावनी । यहाँ अंत में उदाहरण दिया गया है - जिसमें डेटा उत्पन्न करने का विवरण शामिल है - एक ही बॉक्सपॉट के साथ चार अलग-अलग वितरण देता है:

यहाँ छवि विवरण दर्ज करें

जैसा कि आप देख सकते हैं कि पूर्ण समरूपता दिखाने वाले तिरछेपन के उपरोक्त सभी संकेतकों के साथ एक काफी तिरछा वितरण है।

-

आइए इसे इस दृष्टिकोण से लें कि "आपका शिक्षक क्या जवाब दे रहा था, यह देखते हुए कि यह एक बॉक्सप्लॉट है, जो एक बिंदु को एक स्पष्ट रूप से चिह्नित करता है?"।

हम पहले जवाब देने के साथ रह गए हैं "क्या वे आपको उस बिंदु को छोड़कर तिरछापन का आकलन करने की उम्मीद करते हैं, या नमूने में इसके साथ?"। कुछ इसे बाहर कर देंगे, और जो कुछ भी दूसरे जवाब में किया गया, जैसा कि बाकी है, तिरछापन का आकलन करें। हालांकि मैंने उस दृष्टिकोण के विवादित पहलुओं को कहा है, मैं यह नहीं कह सकता कि यह गलत है - यह स्थिति पर निर्भर करता है। कुछ में इसे शामिल किया जाएगा (कम से कम क्योंकि आपके नमूने के 12.5% ​​को छोड़कर सामान्यता से प्राप्त नियम के कारण एक बड़ा कदम * लगता है)।

* एक जनसंख्या वितरण की कल्पना करें जो सुदूर दाएं पूंछ को छोड़कर सममित है (मैंने इसका उत्तर देने में एक ऐसा निर्माण किया - सामान्य लेकिन अत्यधिक दाहिनी पूंछ पारेटो होने के साथ - लेकिन इसे मेरे उत्तर में प्रस्तुत नहीं किया गया)। यदि मैं आकार 8 के नमूने खींचता हूं, तो अक्सर 7 का अवलोकन सामान्य दिखने वाले हिस्से से होता है और एक ऊपरी पूंछ से आता है। यदि हम उस मामले में बॉक्सप्लॉट-आउटलेर्स के रूप में चिह्नित बिंदुओं को बाहर करते हैं, तो हम उस बिंदु को छोड़कर कर रहे हैं जो हमें बता रहा है कि यह वास्तव में तिरछा है! जब हम करते हैं, तो उस स्थिति में रहने वाला छोटा वितरण बाएं-तिरछा होता है, और हमारा निष्कर्ष सही के विपरीत होगा।


1
@jsk यह निर्भर करता है कि आप तिरछापन कैसे मापना चाहते हैं। चूँकि तिरछेपन की डिग्री आंशिक रूप से आउटलाइंग पॉइंट्स (एक दिशा को दूसरी से अधिक दिशा देने वाली प्रवृत्ति) द्वारा निर्धारित की जाती है, उन्हें हटाने से यकीनन तिरछा मापने की बात याद आती है। एक अधिक विस्तृत चर्चा और विश्लेषण मेरी अद्यतन पोस्ट में है। यदि आप असंबद्ध हैं, तो कृपया असहमत होने के लिए स्वतंत्र महसूस करें, इस तरह के आदान-प्रदान अक्सर मूल्यवान होते हैं।
Glen_b -Reinstate मोनिका

1
@ ग्लेन_ब, जबकि मैं निश्चित रूप से आपके द्वारा उठाए जा रहे रुख का सम्मान करता हूं और समझता हूं, मेरा मानना ​​है कि पहले के विपरीत बाहरी को हटाने के बाद तिरछा न्याय करने के लिए एक उचित तर्क दिया जाना चाहिए। आउटलाइन को हटाने के बाद, 7 वें बिंदु (260) को हटाने के बाद भी वितरण नकारात्मक रूप से तिरछा हो जाएगा। क्या आपने qqplot की जाँच की और / या माध्य और माध्यिका की तुलना की?
jsk

1
शायद 7 वें को हटाने के बाद मामला काफी कमजोर है, लेकिन मुझे इसे हटाने के बाद तिरछा न्याय करने का कोई कारण नहीं दिखता। यह एक बाहरी बात नहीं है, हालांकि यह बात अच्छी तरह से ली गई है कि तिरछा के उपाय, चाहे आप इस मामले में उन्हें कैसे देखते हैं, एकल बिंदुओं द्वारा संचालित किया जा रहा है।
jsk

1
@Glen_ b Q3 + 1.5IQR ऊपरी स्तर पर आउटलेर्स की पहचान के लिए इस स्तर पर सिखाए गए अंगूठे का विशिष्ट नियम है। उन्हें हटाना या न रखना दूसरी बात है। क्या आप तर्क दे रहे हैं कि वितरण सही तिरछा है क्योंकि माध्य बड़ा है? इस तथ्य को अनदेखा क्यों करें कि क्यू 3 क्यू 3 की तुलना में क्यू 2 से आगे है?
jsk

1
मैं यह जानना चाहता हूं कि यहां सतह के पास क्या है, लेकिन काफी नहीं: अक्सर बॉक्सप्लाट्स बहुत अधिक घनीभूत होते हैं, इसलिए आपको सभी डेटा को भी देखने की आवश्यकता हो सकती है।
निक कॉक्स

11

नहीं, आपने कुछ भी याद नहीं किया: आप वास्तव में प्रस्तुत किए गए सरलीकृत सारांश से परे देख रहे हैं। ये आंकड़े सकारात्मक और नकारात्मक रूप से तिरछे हैं ("तिरछापन" के अर्थ में डेटा वितरण में विषमता के कुछ रूप का सुझाव देते हैं )।

जॉन टुके ने अपने "एन-नंबर सारांश" के माध्यम से डेटा के बैचों में विषमता का पता लगाने का एक व्यवस्थित तरीका बताया। एक बॉक्सप्लॉट 5-संख्या सारांश का एक ग्राफिक है और इस विश्लेषण के लिए उत्तरदायी है।


एच+एच-एक्स+एक्स-टीमैं+मैंटीमैं+टीमैं-=+=-(टीमैं++टीमैं-)/2मैं

इस विचार को एक बॉक्सप्लॉट में लागू करने के लिए, प्रत्येक जोड़े के मध्य भाग को समान भागों में बनाएं: मध्यिका (जो पहले से ही है), मध्य का टिका (बॉक्स के छोर, नीले रंग में दिखाया गया है), और चरम के मध्य बिंदु (लाल रंग में दिखाया गया है)।

बॉक्स प्लॉट

इस उदाहरण में मध्यिका की तुलना में मध्य-काज का कम मूल्य इंगित करता है कि बैच का मध्य थोड़ा नकारात्मक रूप से तिरछा है (इस प्रकार प्रश्न में उद्धृत मूल्यांकन की पुष्टि हो रही है, जबकि एक ही समय में उपयुक्त रूप से बैच के मध्य तक इसके दायरे को सीमित कर दिया गया है) ) जबकि मध्यम (चरम) का उच्च मूल्य बैच की पूंछ को इंगित करता है (या कम से कम उसके चरम) सकारात्मक रूप से तिरछा होता है (यद्यपि, करीब निरीक्षण पर, यह एक उच्च उच्चता के कारण है)। यद्यपि यह लगभग एक तुच्छ उदाहरण है, एक एकल "तिरछापन" सांख्यिकीय की तुलना में इस व्याख्या की सापेक्ष समृद्धि पहले से ही इस दृष्टिकोण की वर्णनात्मक शक्ति को प्रकट करती है।

अभ्यास की एक छोटी राशि के साथ आपको इन मध्य-आँकड़ों को आकर्षित करने की आवश्यकता नहीं है: आप कल्पना कर सकते हैं कि वे कहाँ हैं और किसी भी बॉक्सप्लॉट से सीधे परिणामी तिरछी जानकारी पढ़ सकते हैं।


एचडीएक्समैं=1,2,3,4,5। अगले आंकड़े में बाएं हाथ का प्लॉट इन युग्मित आँकड़ों के मध्य बिंदुओं के लिए नैदानिक ​​प्लॉट है। तेजी ढलान से, यह स्पष्ट है कि डेटा अधिक से अधिक सकारात्मक रूप से तिरछा हो रहा है क्योंकि हम उनकी पूंछ में पहुंचते हैं।

चित्र 2

मध्य और दाएं भूखंड वर्ग जड़ों ( डेटा के, मध्य-संख्या के आंकड़ों के नहीं!) और (आधार -10) लघुगणक के लिए एक ही बात दिखाते हैं । जड़ों के मूल्यों की सापेक्ष स्थिरता (बीच में ढलान के सापेक्ष छोटी ऊर्ध्वाधर सीमा और स्तर को नोटिस करता है) इंगित करता है कि 219 मानों का यह बैच अपने मध्य भागों में और इसके पूंछ के सभी हिस्सों में लगभग सममित हो जाता है। चरम पर जब वर्गमूल के रूप में ऊंचाइयों को फिर से व्यक्त किया जाता है। यह परिणाम उनके वर्गमूल के संदर्भ में इन ऊंचाइयों के निरंतर विश्लेषण के लिए एक मजबूत - लगभग सम्मोहक आधार है।

अन्य बातों के अलावा, इन भूखंडों में डेटा की विषमता के बारे में कुछ मात्रात्मक पता चलता है: मूल पैमाने पर, वे तुरंत डेटा के अलग-अलग तिरछापन को प्रकट करते हैं (एक एकल सांख्यिकीय का उपयोग करने की उपयोगिता पर काफी संदेह कास्टिंग करते हैं) वर्गमूल पैमाने, डेटा उनके मध्य के बारे में सममित के करीब हैं - और इसलिए पांच-संख्या सारांश के साथ संक्षेप में, या समकक्ष रूप से एक बॉक्सप्लॉट किया जा सकता है। तिरछा फिर से एक लॉग स्केल पर सराहनीय रूप से भिन्न होता है, यह दर्शाता है कि लॉगरिदम इन आंकड़ों को फिर से व्यक्त करने का एक तरीका "मजबूत" है।

सात-, नौ-, और अधिक-संख्या के सारांश के लिए एक बॉक्सप्लॉट का सामान्यीकरण आकर्षित करने के लिए सीधा है। Tukey उन्हें "योजनाबद्ध भूखंड" कहते हैं। आज कई भूखंड एक समान उद्देश्य से काम करते हैं, जिसमें QQ भूखंडों और रिश्तेदार सस्ता माल जैसे "बीन भूखंड" और "वायलिन भूखंड" शामिल हैं। (यहां तक ​​कि नीच हिस्टोग्राम को इस उद्देश्य के लिए सेवा में दबाया जा सकता है।) इस तरह के भूखंडों के बिंदुओं का उपयोग करके, एक व्यक्ति विस्तृत शैली में विषमता का आकलन कर सकता है और डेटा को फिर से व्यक्त करने के तरीकों का एक समान मूल्यांकन कर सकता है।


7

माध्यिका से कम या अधिक होने का मतलब एक शॉर्टकट है जो अक्सर तिरछा की दिशा निर्धारित करने के लिए काम करता है जब तक कि कोई आउटलेयर न हो। इस मामले में, वितरण को नकारात्मक रूप से तिरछा किया गया है, लेकिन इसका मतलब औसत के कारण मध्य से बड़ा है।


वह समझाता है। मैंने जो किताबें पढ़ीं, उनमें इस बात का जिक्र नहीं था!
जेरीडब्ल्यू

उम्मीद है कि पुस्तकों में कम से कम यह उल्लेख किया गया है कि औसत माध्यिका की तुलना में आउटलेर्स के लिए कितना कम प्रतिरोधी है!
jsk

चाहे वह नकारात्मक रूप से तिरछा गिना जाए, यह इस बात पर निर्भर करता है कि आप तिरछा कैसे मापते हैं।
Glen_b -Reinstate मोनिका

काफी उचित। यह एक छोटा डेटासेट है जो इसे विषमता को आंकने के लिए विशेष रूप से चुनौतीपूर्ण बनाता है। मुझे लगता है कि इस उदाहरण को दुर्भाग्य से तिरछा निर्धारण के लिए अंगूठे के परस्पर विरोधी नियमों के कारण वहां फेंक दिया गया था
jsk

1
मैं सहमत हूं कि इस तरह के छोटे डेटासेट इसे चुनौतीपूर्ण बना सकते हैं, लेकिन निरंतर वितरण का निर्माण करना पूरी तरह से संभव है जो समान रूप से चुनौतीपूर्ण हैं।
Glen_b -Reinstate मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.