बॉक्स और व्हिस्कर भूखंड पढ़ना: समूहों के बीच महत्वपूर्ण अंतर को दूर करना संभव है?

मान लीजिए कि हम इस बॉक्स और व्हिस्कर प्लाट को देख रहे हैं:

गुरुवार और शुक्रवार के बीच, मुझे लगता है कि ज्यादातर सहमत होंगे कि समय पर सोने में एक महत्वपूर्ण अंतर प्रतीत होता है। क्या यह एक सांख्यिकीय-मान्य अनुमान है, हालांकि? क्या हम इस तथ्य के कारण महत्वपूर्ण अंतर समझ सकते हैं कि गुरुवार और शुक्रवार के बीच न तो आंतरिक-चतुर्थक पर्वतमाला ओवरलैप है? इस तथ्य के बारे में कि गुरुवार और शुक्रवार की ऊपरी और निचली मूंछें, क्रमशः ओवरलैप करती हैं? क्या यह हमारे विश्लेषण को प्रभावित करता है?

आमतौर पर इस तरह एक चार्ट के साथ कुछ प्रकार का एनोवा होगा, लेकिन मैं बस उत्सुक हूं कि हम समूहों के बीच के मतभेदों के बारे में बस एक बॉक्सप्लेट को देखकर कैसे कह सकते हैं ।

anova data-visualization boxplot

— blacksite
स्रोत

मंडलियां आउटलेर्स का प्रतिनिधित्व करती हैं।

— माइकल आर। चेरिक

जब तक साजिश नमूना आकार के किसी भी संकेत को याद करती है, तब तक यह मुश्किल है। लेकिन यदि आप मध्यस्थों के लिए प्लॉट विश्वास अंतराल के साथ शामिल हैं, तो आप उन आत्मविश्वास अंतरालों की तुलना करते हैं। वे आपके कथानक में मौजूद नहीं हैं।

— kjetil b halvorsen

@kjetilbhalvorsen यह सिर्फ एक प्लॉट है जिसे मैं Google से हड़पता हूं :) ... मैंने अपने प्लॉट पर शामिल किया है, ठीक वैसा ही जैसा आपने वर्णित किया है, एक टुक के एचएसडी टेस्ट के हिस्से के रूप में

— 14:17

CI के बिना, आप "महत्वपूर्ण" मतभेदों के बारे में बात नहीं कर सकते। हालांकि, मैं कहूंगा कि गुरुवार और शुक्रवार के बीच "उल्लेखनीय" अंतर है। या यहां तक कि "सबसे उल्लेखनीय" अंतर गुरुवार और शुक्रवार के बीच होता है ..

— ऐश

सर्किल निकट चतुर्थांश से 1.5 IQR से अधिक अंक हैं। वे निष्पक्ष और निष्पक्ष रूप से आउटलेर नहीं हैं। बाकी के वितरण की तुलना में गुरुवार के लिए यह असाधारण नहीं है। वह शुक्रवार के लिए वास्तव में करता है; और एक शोधकर्ता या विश्लेषक को यह जांचना चाहिए कि क्या यह संभव है और देखें कि क्या समझाने के लिए कोई कहानी है। शायद किसी को नींद नहीं आई! इस तरह से डेटा बिंदुओं को चिह्नित करना उन्हें निरीक्षण और विचार के लिए चिह्नित कर रहा है। यह भूत भगाने के लिए राक्षसों की पहचान करने का एक सांख्यिकीय तरीका नहीं है।

— निक कॉक्स

जवाबों:

नहीं, आप नहीं कर सकते। यदि आपके पास नमूना आकार और बहुत अधिक अनुभव है, तो आप अनुमान लगाने में सक्षम हो सकते हैं - और आपके अनुमान की सटीकता नमूना आकार पर (प्रभाव आकार के अतिरिक्त) पर निर्भर करेगी। यदि एन = 1,000,000 प्रति समूह, बहुत सारे महत्व। यदि एन = 10 प्रति समूह, इतना नहीं। 100 प्रति समूह पर यह अनुमान लगाना कठिन है।

मेरा तर्क है कि यह एक अच्छी बात है। एक बॉक्स प्लॉट के साथ करने की बात यह है कि सांख्यिकीय महत्व का अनुमान लगाने की कोशिश न करें, लेकिन यह देखने के लिए कि क्या चल रहा है और इसके बारे में तर्क करने की कोशिश करें। हम्म। वीकेंड पर अधिक सोना। यह दिलचस्प है लेकिन वास्तव में आश्चर्यजनक नहीं है। हम सप्ताहांत के एक समारोह के रूप में नींद के घंटे मॉडल कर सकते हैं बनाम नहीं। या हम यह देखने की कोशिश कर सकते हैं कि क्या यह पैटर्न अलग है। शायद सेवानिवृत्त लोगों के पास यह पैटर्न नहीं है? शिफ्ट श्रमिकों के बारे में क्या? जो लोग सप्ताहांत पर काम करते हैं? जो लोग सप्ताह में 7 दिन काम करते हैं?

ग्रेड स्कूल में मेरे पसंदीदा प्रोफेसर के रूप में (हरमन फ्रीडमैन) कहा करते थे: "शोध पर पी-आईएनजी बंद करो!"

— पीटर Flom - को पुनः स्थापित मोनिका
स्रोत

मुझे लगता है कि यह उत्तर अनावश्यक रूप से निराशावादी है। बॉक्सप्लाट्स में वास्तव में समूह के आकार के बारे में कुछ जानकारी होती है, क्योंकि वास्तव में छोटे समूह के आकार ( ) में "अध: पतन" संरचनाएं होती हैं। क्योंकि ये वितरण बहुत कम तिरछे नहीं हैं और इनमें कुछ आउटलेयर हैं, IQR (एक उपयुक्त मल्टीपल) SD के लिए एक अच्छा सरोगेट है, जहां हम मानक त्रुटियों को ऊपरी तौर पर सीमित कर सकते हैं। इस प्रकार, व्यक्ति अकेले साजिश रचने और तैयार एनोवा को अकेले कर सकता है: और यह दिखाएगा कि समग्र एनोवा महत्वपूर्ण है। व्यक्ति रूढ़िवादी पश्च- परीक्षण भी कर सकता है ।

N < 5

$N \lt 5$

— whuber

हाँ तुम कर सकते हो। कम से कम एक अनुमानित अर्थ में।

मैं नीचे कुछ रूपरेखा और सीमाओं के साथ-साथ कैसे नीचे (और वास्तव में "बॉक्स-ओवरलैप" के लिए एक संबंध है)। लेकिन पहले आइए कुछ पृष्ठभूमि और संदर्भ के लिए कुछ पूर्वाग्रहों पर चर्चा करते हैं। (मुझे लगता है कि यहां एक उचित उत्तर पर उदाहरण के विवरणों पर ध्यान केंद्रित नहीं करना चाहिए - हालांकि वह शायद कुछ उल्लेखों को एक तरफ कर देता है - लेकिन बॉक्सप्लेट का उपयोग करने के केंद्रीय मुद्दे पर यह आकलन करने के लिए कि क्या स्पष्ट मतभेदों को आसानी से यादृच्छिक भिन्नता के रूप में दूर समझा जा सकता है या नहीं। ।)

यदि आपके पास डेटा तक पहुंच है, तो आप नॉटेड बॉक्सप्लाट्स खींच सकते हैं जो इस तरह की दृश्य तुलना के लिए डिज़ाइन किए गए हैं।

यहाँ नोकदार बॉक्सप्लेट गणना की चर्चा है । यदि पायदान-अंतराल दो समूहों की तुलना में ओवरलैप नहीं करता है, तो 5% के स्तर पर लगभग भिन्न होते हैं; गणना सामान्य पर गणना पर आधारित है, लेकिन वे बहुत मजबूत हैं और वितरण की एक सीमा के भीतर काफी अच्छी तरह से प्रदर्शन करते हैं। (यदि यह एक औपचारिक परीक्षण के रूप में माना जाता है कि शक्ति सामान्य पर इतनी अधिक नहीं है, लेकिन यह अधिक या कम "विशिष्ट" भारी-पूंछ वाले मामलों की एक किस्म के लिए बहुत अच्छा करना चाहिए।)

यह देखते हुए कि नोकदार बॉक्सप्लॉट कैसे काम करते हैं, आप अंगूठे के एक त्वरित नियम को समझ सकते हैं जो तब काम करेगा जब आपके पास प्रश्न में केवल एक प्रदर्शन होगा। जब नमूना का आकार 10 होता है और माध्यिका को बॉक्स के मध्य के करीब रखा जाता है, तो एक नोकदार बॉक्सप्लेट में पायस बॉक्स की चौड़ाई के बारे में होता है, इसलिए पायदान समाप्त होता है और बॉक्स लगभग उसी स्थान पर होता है।

अंगूठे का एक " " नियम कैसे बनता है, इसकी चर्चा के लिए यहां देखें । $n=10$

हालाँकि, आपको इस तुलना के लिए बॉक्स के मध्य में माध्यिका की आवश्यकता नहीं है; केवल यह बताता है कि हम शासन में कैसे पहुंचे। यद्यपि हम नोकदार बॉक्सप्लेट्स से शुरू करते हैं और मध्यिका के लिए एक अंतराल की सामान्य-आधारित गणना करते हैं, अब हम सिर्फ पर "बॉक्स-ओवरलैप" नियम पर विचार कर रहे हैं और एक अशक्त (किसी भी आगे की मान्यताओं के साथ) में परिणाम होगा; समान निरंतर वितरण बनाम कुछ विकल्प जो बक्सों को अलग करना चाहते हैं (जरूरी नहीं कि शुद्ध स्थान परिवर्तन, हालांकि यह व्याख्या का सबसे आसान विकल्प है)। $n=10$

चतुर्थकों के संभावित सापेक्ष आदेशों की संभाव्यता (एक बॉक्सप्लॉट में टिका है जो नमूनों के आकार में टुकी की परिभाषा से चिपक जाता है) जहां वे एकल अवलोकनों पर होते हैं, नल के नीचे वितरण आकार पर निर्भर नहीं करते हैं। उस मामले में ( प्रत्येक नमूने में पर जैसे ) परीक्षण परीक्षण का यह संस्करण वितरण मुक्त है । पर यह वितरण मुक्त नहीं है (के बाद से सटे आदेश आँकड़ों के औसत का वितरण अब वितरण आकार से संबंधित है), लेकिन यह लगभग वितरण से मुक्त है। $n=9$ $n=10$

प्रकार I त्रुटि दर पास $n=10$ : आमतौर पर उपयोग किए जाने वाले वितरणों के एक नंबर पर अनुकार (दोनों सममित और तिरछा, भारी और हल्का पूंछ वाले) बताते हैं कि दो-नमूना बॉक्स-ओवरलैप परीक्षण में पर 2.3% महत्व स्तर है। (वितरणों में वास्तव में बहुत भिन्नता नहीं है) और यह पर 5.6% परीक्षण के बारे में है (यह पर 5% से कम है , संभवत: आदेश आँकड़ों के औसत से भिन्नता को कम करने के कारण। अवलोकन का नुकसान इसे बढ़ाता है)। यदि आपके पास 9 और 10 के नमूने हैं, तो महत्व स्तर 5% से कम है। $n=10,10$ $n=9,9$ $n=8,8$

अन्य नमूना आकार : यदि आप नमूना आकारों को जानते हैं तो आप यह पता लगा सकते हैं कि डिस्प्ले से सिर्फ पायदान कहां जाता है। यदि आपके पास नमूना आकारों पर एक कम बाध्य है, तो आप पायदान स्थानों पर एक ऊपरी बाध्य प्राप्त कर सकते हैं। लेकिन यहां तक कि अगर आप सभी जानते हैं कि कम से कम 10 है, तो आप बॉक्स-ओवरलैप के लिए जल्दी से जांच कर सकते हैं। पायदान-अंतराल की चौड़ाई समानुपाती होती है, इसलिए आप इस पर काम कर सकते हैं कि , मध्यिका से प्रत्येक चतुर्थांश के बारे में नोट लगभग आधा होना चाहिए। $n$ $\sqrt{n}$ $n=40$

अपने प्लॉट को देखते हुए:

ध्यान दें कि हम इस प्रश्न में भूखंड की उपस्थिति से बता सकते हैं कि नमूना आकार कम से कम 5 होना चाहिए; यदि वे 5 से कम थे, तो व्यक्तिगत-नमूना बॉक्सप्लॉट्स के अलग-अलग सुराग होंगे कि वे एक कम नमूना आकार के थे (जैसे कि प्रत्येक बॉक्स के मध्य में मृत व्यक्ति का केंद्र या व्हिस्की की लंबाई 0 के होने पर)

वैकल्पिक रूप से यदि बक्से (चतुर्थांश को चिह्नित करना) एक-दूसरे को ओवरलैप नहीं करते हैं और नमूना का आकार कम से कम 10 है, तो तुलना किए जाने वाले दो समूहों में 5% स्तर पर अलग-अलग मंझला होना चाहिए (एकल जोड़ीदार तुलना के रूप में माना जाता है)।

यदि आपको पता नहीं है , क्योंकि हम जानते हैं कि नमूना का आकार कम से कम 5 होना चाहिए, तो आपको अंतराल को बक्से से थोड़ा बड़ा करने की जरूरत है, विशेष रूप से, यदि आप प्रत्येक बॉक्स को लगभग 40% बढ़ाते हैं माध्यिका से दूरी और वे अभी भी ओवरलैप नहीं करते हैं वे लिए एक महत्वपूर्ण अंतर का संकेत देते हैं - यहां एक तर्क के साथ-साथ नोक-बॉक्सप्लॉट तर्क से लौटकर व्यापक आधार के बजाय हम केवल बॉक्स की तुलना करने के लिए विचार कर सकते हैं। $n$ $n=5$

[ध्यान दें, कि यह तुलना की संख्या का कोई हिसाब नहीं रखता है, इसलिए यदि आप कई तुलना कर रहे हैं तो आपकी समग्र प्रकार I त्रुटि बड़ी होगी। यह औपचारिक परीक्षण के बजाय एक दृश्य निरीक्षण के लिए है; फिर भी इसमें शामिल विचारों को अधिक औपचारिक दृष्टिकोण के लिए अनुकूलित किया जा सकता है, जिसमें कई तुलनाओं के लिए समायोजन भी शामिल है।]

संबोधित किया जा सकता है कि क्या आप कर सकते हैं , यह विचार करना उचित होगा कि क्या आपको चाहिए । शायद नहीं; संभावित पी-हैकिंग का मुद्दा वास्तविक है, लेकिन यदि आप इसका उपयोग यह जानने के लिए कर रहे हैं कि क्या, उदाहरण के लिए, अनुसंधान के मुद्दे पर नए डेटा एकत्र करने के लिए और आपके पास एक पेपर में एक बॉक्सप्लॉट है - कहते हैं - यह हो सकता है शोर के कारण भिन्नता से आसानी से समझाया जा सकता है या नहीं, इसके बारे में कुछ आकलन करने में सक्षम होने के लिए काफी उपयोगी है। लेकिन उस मुद्दे पर गहराई से विचार करने के लिए वास्तव में एक अलग सवाल का जवाब देना होगा।

— Glen_b -Reinstate मोनिका
स्रोत