"बॉक्सप्लॉट का उपयोग कब करें और बारप्लॉट कब करें" नियम (अंगूठे का?)


14

दोनों बॉक्स और गलमुच्छा साजिश और बार चार्ट हैं एनोवा के लिए उपयुक्त ग्राफिक्स आर बुक (करावली, 2013) के अनुसार, लेकिन जो अधिक उपयुक्त है ? मुझे लगता है कि यह स्थिति पर निर्भर करता है ... क्या कोई मेरी मदद कर सकता है?


5
" हालांकि एक समस्या को कई वैकल्पिक परीक्षणों द्वारा हल किया जा सकता है - हमेशा एक ही परीक्षण होता है जो उपयोग करने के लिए सबसे उपयुक्त है " - मैं उस वाक्य से असहमत हूं; मुझे नहीं लगता कि यह हमेशा सच है।
Glen_b -Reinstate मोनिका

5
मैं यहां @Glen_b से सहमत हूं और सुझाव देता हूं कि यहां तक ​​कि यह शब्द महत्वपूर्ण बिंदु को याद करता है। सबसे उपयुक्त परीक्षण की पहचान करना डेटा के लिए सटीक निर्माण प्रक्रिया को जानने पर न्यूनतम निर्भर करता है, जो कि, हम कहेंगे, असामान्य है। यह अधिक सामान्य है कि अलग-अलग फायदे और नुकसान के साथ कई संभावित परीक्षण हैं।
निक कॉक्स

1
मुझे नहीं लगता कि मैं अच्छे सांख्यिकीय सोच के किसी भी संक्षिप्त लक्षण वर्णन में भी (परिकल्पना या महत्व) परीक्षणों का उल्लेख करूंगा ... मुझे लगता है कि यह एक पक्ष मुद्दा है, हालांकि। आपका प्रश्न इसके बिना पर्याप्त स्पष्ट है।
निक कॉक्स

जवाबों:


18

विशेष रूप से एनोवा के चित्रमय चित्रण के लिए:

  • एक बॉक्स प्लॉट या बार चार्ट एनोवा के लिए रेखांकन के बिना कुछ भी बेहतर नहीं है, लेकिन जैसा कि आमतौर पर प्लॉट किया जाता है, दोनों एक ग्राफिकल सारांश के रूप में अप्रत्यक्ष या अपूर्ण हैं।

  • एनोवा एक या एक से अधिक प्रकारों की विविधताओं के संदर्भ में साधनों की तुलना के बारे में है, इसलिए सबसे उपयुक्त ग्राफिक न्यूनतम डेटा का मतलब है और साथ ही कच्चे डेटा को दिखाएगा। समूह मानक विचलन (एसडी) या संबंधित मात्रा कोई नुकसान नहीं पहुंचाएगी।

  • =-+-1.5 आईक्यूआर। इस तरह का सम्मेलन सकल बाहरी लोगों को दिखाने में मददगार हो सकता है, जो एनोवा के लिए समस्याग्रस्त हो सकता है, लेकिन एएनओएए में न तो मध्यस्थ और न ही चतुर्थक कोई भूमिका निभाते हैं और क्या मेडियन अनुमानित साधनों की जाँच करने के लिए एक बिंदु है, ग्रहण नहीं किया गया है। आमतौर पर, अनुभवी डेटा विश्लेषक उदाहरण के रूप में चिह्नित आउटलेर्स और / या वितरण की विषमता को एक समस्या के संकेत के रूप में लेते हैं, जो एक समस्या की निशानी के रूप में होती है, जैसे कि डेटा के परिवर्तन या गैर-पहचान लिंक फ़ंक्शन के साथ सामान्यीकृत रैखिक मॉडल की आवश्यकता। फिर भी यह आश्चर्य की बात है कि एक एनोवा को प्रस्तुत किए जाने पर कितने पाठ्यपुस्तक और अन्य खाते बॉक्स प्लॉट दिखाते हैं, लेकिन हाथियों का उल्लेख नहीं करते हैं, इसका मतलब यह नहीं है कि प्लॉट नहीं किए गए हैं।

  • इसके विपरीत, इस संदर्भ में सबसे सामान्य प्रकार का बार चार्ट साधन और एसडी या मानक त्रुटियों द्वारा डेटा को सारांशित करता है, लेकिन अन्यथा व्यक्तिगत डेटा बिंदुओं के किसी भी प्रदर्शन को छोड़ देता है। इसलिए, उदाहरण के लिए, आउटलेयर या चिह्नित असममितता केवल व्यक्तिगत साधनों के आउट-ऑफ-लाइन साधनों या फुलाए गए परिवर्तनशीलता से अनुमान लगाया जा सकता है।

आम तौर पर, ऐसे कई सुझाव हैं कि किस प्रकार के ग्राफ़ उपयोगी हैं, लेकिन इस बारे में थोड़ी सहमति है कि कौन से सर्वोत्तम हैं। मैं मानदंड के रूप में सुझाव दूंगा कि एक अच्छा ग्राफ दिखाता है

  • डेटा में भिन्नता का पूरा पैटर्न, कम से कम पृष्ठभूमि या संदर्भ के रूप में

  • डेटा के प्रासंगिक सारांश, विशेष रूप से उन मॉडल के लिए जो मनोरंजन किए जा रहे हैं या जिन पर विचार किया जा रहा है

  • डेटा के साथ संभावित समस्याओं के संकेत जो धारणाओं पर संदेह करते हैं।

कई डिज़ाइन हैं जो एनोवा के साथ मदद करते हैं, जैसे कि जोड़े गए साधनों और एसई के साथ डॉट या स्ट्रिप प्लॉट।

जॉन टुके का यह पत्र प्रचार के ग्राफ और विश्लेषणात्मक रेखांकन के बीच के अंतर को स्पष्ट करता है जो यहाँ प्रासंगिक है। ANOVA के बहुत से चित्रमय चित्रण बहुत अधिक विश्लेषण के बिना प्रचार रेखांकन (देखो (समूह बहुत अलग हैं) हैं (और हम इस एप्लिकेशन में डेटा या तकनीक की सीमाओं के बारे में और क्या सीख सकते हैं?)।


तो कैसे के साथ वायलिन भूखंडों के बारे में, आदर्श रूप से मतलब के साथ, एसडी और outliers खींचा?
जिग्गीस्टार

वायलिन भूखंड सहायक हो सकते हैं। व्यक्तिगत रूप से मैं कच्चे डेटा के कुछ करीब रहना पसंद करता हूं, ताकि मैं तौर-तरीके और ग्रैन्युलैरिटी भी देख सकूं।
निक कॉक्स

8

कृपया बार चार्ट्स के बीच भ्रमित न हों (एक बार का उपयोग प्रत्येक ब्याज की मात्रा दिखाने के लिए किया जाता है) और डायनामाइट प्लॉट्स (एक बार प्रत्येक समूह के औसत से पता चलता है, साथ ही त्रुटि बार)। डायनामाइट भूखंड कभी भी स्वीकार्य नहीं होते हैं क्योंकि वे बिना किसी कारण के डेटा के वितरण को छिपाते हैं।

हां मुझे एहसास है कि यह अब तक का सबसे आम प्रकार का कथानक है। यह एक बड़ी समस्या है जो उस (निम्न) महत्व को दर्शाती है जो शोधकर्ता अपने डेटा के आकार पर रखते हैं। यदि आप एक हत्या के हथियार की तलाश में थे, तो क्या यह बेहतर होगा यदि एक गवाह ने आपको 1) केवल हथियार का स्थान और आकार बताया हो? या 2) स्थान, आकार और आकार?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf


क्या आपके पास अन्य संसाधन हैं, क्यों डायनामाइट प्लॉट आदर्श नहीं हैं?
mguzmann

@mguzmann क्षमा करें, मैं नहीं करता। मैं यह भी सोचता था कि यह विचार किसके साथ आया था, समय के साथ इसके अपनाने आदि और उस पर कुछ भी नहीं मिला। मुझे लगता है कि यह कंप्यूटर से पहले के दिनों में +/- त्रुटि की तालिका रिपोर्टिंग से विकसित हुआ है। मैंने 1930 के दशक के कागजात देखे हैं जो संपूर्ण डेटासेट की तालिकाएँ प्रकाशित करने का प्रबंधन करते हैं इसलिए मुझे यकीन नहीं है कि अभ्यास कभी भी उचित था। उदाहरण के लिए: Hedrich AW। खसरा, 1900-1931, बाल्टीमोर, मैरीलैंड में "जनसंख्या के प्रति अतिसंवेदनशील" मासिक अनुमान। एम जे हाइज 1933; 17: 613-636।
लेविड
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.