बॉक्स भूखंड बनाम टके-क्रेमर अंतराल


10

" आर 'में बॉक्सप्लॉट से " पायदान " मदद दस्तावेज ( या मूल पाठ ) निम्नलिखित देता है:

यदि दो भूखंडों के नोटिस ओवरलैप नहीं करते हैं, तो यह 'मजबूत सबूत' है कि दो मध्यस्थ अलग-अलग होते हैं (चेम्बर्स एट अल, 1983, पृष्ठ 62)। उपयोग की गई गणना के लिए boxplot.stats देखें।

और ' boxplot.stats ' निम्नलिखित देता है:

Notches (यदि अनुरोध किया गया है) +/- 1.58 IQR / sqrt (n) तक विस्तारित है। यह उसी गणना पर आधारित प्रतीत होता है, जैसा कि मैकगिल एट अल (1978, पी। 16) में दिए गए चेम्बर्स एट अल (1983, पृष्ठ 62) में सूत्र के साथ 1.57 है। वे माध्यिका की विषमता संबंधी सामान्यता पर आधारित हैं और दो मध्यस्थों की तुलना में लगभग समान नमूना आकार हैं, और कहा जाता है कि वे नमूनों के अंतर्निहित वितरण के लिए असंवेदनशील हैं। यह विचार दो मध्यस्थों में अंतर के लिए लगभग 95% विश्वास अंतराल देने के लिए प्रतीत होता है।

अब मैं स्तंभों के साधनों की तुलना करने के लिए टकी-क्रेमर परीक्षण के जेएमपी संस्करण का उपयोग करने से अधिक परिचित हूं। JMP के लिए प्रलेखन यह देता है:

एक परीक्षण दिखाता है जो सभी साधनों के बीच अंतर के लिए आकार का है। यह Tukey या Tukey-Kramer HSD (ईमानदारी से महत्वपूर्ण अंतर) परीक्षण है। (तुके १ ९ ५३, क्रेमर १ ९ ५६)। यह परीक्षण एक सटीक अल्फा-स्तर का परीक्षण है यदि नमूना आकार समान हैं, और नमूना आकार भिन्न होने पर रूढ़िवादी हैं (हैटर 1984)।

प्रश्न: दो दृष्टिकोणों के बीच संबंध की प्रकृति क्या है? क्या एक को दूसरे में बदलने का तरीका है?

ऐसा लगता है कि एक मध्ययुगीन व्यक्ति के लिए लगभग 95% सीआई की तलाश कर रहा है, और यह निर्धारित करता है कि क्या ओवरलैप है; और दूसरा एक "सटीक अल्फा टेस्ट" है (मेरे नमूने एक ही आकार के हैं) यह निर्धारित करने के लिए कि नमूनों के दो सेट के मध्यस्थ एक दूसरे की उचित सीमा के भीतर हैं या नहीं।

मैं पैकेज का संदर्भ देता हूं, लेकिन मैं तर्क के पीछे गणित में रुचि रखता हूं।

जवाबों:


11

जहाँ तक नोकदार बॉक्सप्लॉट जाता है, आपके प्रश्न में उल्लिखित मैकगिल एट अल [1] में बहुत पूर्ण विवरण शामिल हैं (मेरे द्वारा यहां बताई गई हर बात स्पष्ट रूप से उल्लिखित नहीं है, लेकिन फिर भी यह पता लगाने के लिए पर्याप्त रूप से विस्तृत है)।

अंतराल एक मजबूत लेकिन गाऊसी-आधारित है

कागज नोटों के लिए निम्नलिखित अंतराल को उद्धृत करता है (जहां नमूना माध्यिका है और नमूना इंटरक्वेर्टाइल रेंज है):MR

M±1.7×1.25R/(1.35N)

कहाँ पे:

  • 1.35 एक एसिम्प्टोटिक रूपांतरण कारक है, जो IQRs को अनुमानों में बदल देता है - विशेष रूप से, यह लगभग 0.75 मात्रात्मक और मानक सामान्य के 0.25 मात्रात्मक के बीच का अंतर है; जनसंख्या चौकड़ी लगभग 1.35 अलग होती है, इसलिए के आस-पास का मान होना चाहिए (asymptotically निष्पक्ष) का अनुमान (अधिक सटीक, लगभग 1.349)।σσR/1.35σ

  • 1.25 आता है क्योंकि हम माध्य के बजाय माध्यिका की असममित मानक त्रुटि से निपट रहे हैं। विशेष रूप से, नमूना माध्यिका का विचरण is जहां माध्यिका पर घनत्व-ऊंचाई है। एक सामान्य वितरण के लिए, है , इसलिए नमूना मंझला की asymptotic मानक त्रुटि है ।14nf02f0f012πσ0.3989σ12Nf0=π/2σ/N1.253σ/N

    जैसा कि StasK यहाँ उल्लेख करता है , छोटा है, यह जितना अधिक संदिग्ध होगा, पहले स्थान पर सामान्य वितरण का उपयोग करने के तर्क के बारे में एक के साथ अपने तीसरे कारण की जगह लेगा।N

    उपरोक्त दोनों को मिलाकर, हम लगभग के माध्यिका की मानक त्रुटि का एक अनुमान प्राप्त करते हैं । मैकगिल वगैरह ने इसका श्रेय केंडल और स्टुअर्ट को दिया (मुझे याद नहीं है कि कोई विशेष सूत्र वहां होता है या नहीं, लेकिन घटक होंगे)।1.25R/(1.35N)

  • इसलिए चर्चा के लिए जो कुछ बचा है वह 1.7 का कारक है।

    ध्यान दें कि यदि हम एक नमूने की एक निश्चित मूल्य (एक परिकल्पित मंझला कहते हैं) से तुलना कर रहे थे, तो हम 5% परीक्षण के लिए 1.96 का उपयोग करेंगे; नतीजतन, अगर हमारे पास दो अलग-अलग मानक त्रुटियां थीं (एक अपेक्षाकृत बड़ी, एक बहुत छोटी), जो कि उपयोग करने के लिए कारक के बारे में होगी (क्योंकि अगर अशक्त सत्य थे, तो अंतर पूरी तरह से बड़े होने के साथ भिन्नता के कारण होगा मानक त्रुटि, और छोटा एक - लगभग - प्रभावी रूप से तय किया जा सकता है)।

    दूसरी ओर, यदि दो मानक त्रुटियां समान थीं, तो 1.96 बहुत अधिक बड़ा कारक होगा, क्योंकि दोनों सेट के नोट उसमें आते हैं - दो सेट के लिए notches के ओवरलैप में हम प्रत्येक में से एक जोड़ रहे हैं। यह सही कारक asymptotically बना देगा।1.96/21.386

    कहीं न कहीं, हमारे पास 1.7 एक मोटा समझौता कारक है। मैकगिल एट अल इसे "अनुभवजन्य रूप से चयनित" के रूप में वर्णित करते हैं। यह भिन्नताओं के एक विशेष अनुपात को संभालने के काफी करीब आता है, इसलिए मेरा अनुमान (और यह इससे अधिक कुछ नहीं है) यह है कि अनुभवजन्य चयन (संभवतः कुछ सिमुलेशन पर आधारित), variances के लिए गोल-मूल्य अनुपात के एक सेट के बीच था (जैसे 1: 1, 2: 1,3: 1, ...), जिनमें से से "सबसे अच्छा समझौता" अनुपात तब में प्लग किया गया था, दो आंकड़ों के लिए गोल । कम से कम यह 1.7 के बहुत करीब समाप्त होने का एक प्रशंसनीय तरीका है।r : 1 1.96 / 96rr:11.96/1+1/r

इन सबको मिलाकर (1.35,1.25 और 1.7) एक साथ लगभग 1.57 मिलता है। कुछ स्रोत १.३५ या १.२५ (या दोनों) की गणना करके १.५25 प्राप्त करते हैं और अधिक सटीक लेकिन १.३ ,६ और १.९ ६ के बीच एक समझौते के रूप में, १. 1. दो महत्वपूर्ण आंकड़ों के लिए भी सटीक नहीं है (यह सिर्फ एक बॉलपार्क समझौता मूल्य है), इसलिए अतिरिक्त परिशुद्धता है व्यर्थ (वे के रूप में अच्छी तरह से सिर्फ 1.6 करने के लिए पूरी बात गोल हो सकता है और इसके साथ किया जा सकता है)।

ध्यान दें कि यहाँ कहीं भी कई तुलनाओं के लिए कोई समायोजन नहीं है।


Tukey-Kramer HSD में अंतर के लिए विश्वास की सीमाओं में कुछ विशिष्ट समानताएँ हैं :

y¯iy¯j±qα;k;Nk2σ^ε1ni+1nj

लेकिन ध्यान दें

  • यह एक संयुक्त अंतराल है, अंतर के लिए दो अलग-अलग योगदान नहीं (इसलिए हमारे पास में एक शब्द है बजाय दो अलग योगदान और और हम लगातार विचरण मान (ताकि हम साथ समझौता के साथ काम नहीं कर रहे हैं - जब हमारे पास भिन्न भिन्न संस्करण हो सकते हैं - बल्कि मामला) केc.1ni+1nj kk.1ni 1.961.96/96k.1nj1.961.96/2

  • यह साधनों पर आधारित है, न कि मध्यस्थों में (इसलिए 1.35)

  • यह पर आधारित है , जो साधनों में सबसे बड़े अंतर के आधार पर आधारित है (इसलिए इस 1 में कोई 1.96 भाग भी नहीं है , यहां तक ​​कि द्वारा विभाजित भी )। कई बॉक्स भूखंडों की तुलना में इसके विपरीत, मध्ययुगीन में सबसे बड़े अंतर पर notches को आधार बनाने का कोई विचार नहीं है, यह सभी शुद्ध पेयरवाइज है।q2

इसलिए जबकि घटकों के रूप के पीछे के कई विचार कुछ हद तक अनुरूप हैं, वे वास्तव में वे क्या कर रहे हैं में काफी भिन्न हैं।

[१] मैकगिल, आर।, टुकी, जेडब्ल्यू और लार्सन, WA (१ ९ Vill) बॉक्स प्लॉट्स के रूपांतर। अमेरिकन स्टेटिस्टिशियन 32, 12-16।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.