छोटे नमूनों में टी-टेस्ट या गैर-पैरामीट्रिक परीक्षण जैसे विलकॉक्सन के बीच चयन कैसे करें


96

कुछ परिकल्पनाओं का परीक्षण स्टूडेंट के टी - टेस्ट (दो-नमूने के मामले में असमान रूपांतरों के लिए वेल्च के सुधार का उपयोग करके), या विल्कोक्सॉन की तरह गैर-पैरामीट्रिक परीक्षण द्वारा हस्ताक्षरित रैंक टेस्ट, विलकॉक्सन-मैन-व्हिटनी यू टेस्ट, का उपयोग करके किया जा सकता है। या युग्मित हस्ताक्षर परीक्षण। हम एक कैसे बना सकते हैं सैद्धांतिक निर्णय के बारे में जो परीक्षण के लिए सबसे उपयुक्त है, नमूने का आकार "छोटे" है विशेष रूप से अगर?

कई परिचयात्मक पाठ्यपुस्तकों और व्याख्यान नोट्स एक "फ़्लोचार्ट" दृष्टिकोण देते हैं जहाँ सामान्यता की जाँच की जाती है (या - असावधानी से - सामान्यता परीक्षण द्वारा, या अधिक मोटे तौर पर QQ कथानक या इसी तरह से) एक t -est या गैर-पैरामीट्रिक परीक्षण के बीच निर्णय लेने के लिए। वेल्डेड सुधार को लागू करने के लिए अनपेक्षित दो-नमूना t -est के लिए विचरण की एकरूपता के लिए आगे की जाँच हो सकती है। इस दृष्टिकोण के साथ एक मुद्दा यह है कि निर्णय जिस पर लागू करने के लिए परीक्षण मनाया डेटा पर निर्भर करता है, और यह चयनित परीक्षा के प्रदर्शन (शक्ति, प्रकार I त्रुटि दर) को कैसे प्रभावित करता है।

एक और समस्या यह है कि छोटे डेटा सेटों में सामान्य जाँच कितनी कठिन है: औपचारिक परीक्षण में कम शक्ति होती है, इसलिए उल्लंघन का अच्छी तरह से पता नहीं लगाया जा सकता है, लेकिन इसी तरह के मुद्दे एक क्यूक्यू भूखंड पर डेटा को लागू करने पर लागू होते हैं। यहां तक ​​कि अहंकारी उल्लंघन भी चल सकता है, जैसे कि यदि वितरण मिलाया जाता है, लेकिन मिश्रण के एक घटक से कोई अवलोकन नहीं किया गया। बड़े विपरीत , हम केंद्रीय सीमा प्रमेय के सुरक्षा-जाल, और परीक्षण सांख्यिकीय और टी वितरण की स्पर्शोन्मुख सामान्यता पर झुकाव नहीं कर सकते ।n

इस के लिए एक राजसी प्रतिक्रिया है "सुरक्षा पहले": एक छोटे से नमूने में सामान्यता धारणा को मज़बूती से सत्यापित करने का कोई तरीका नहीं है, गैर-पैरामीट्रिक तरीकों से चिपके रहते हैं। एक और सामान्यता मानने के लिए किसी भी आधार पर विचार करना है, सैद्धांतिक रूप से (जैसे चर कई यादृच्छिक घटकों और सीएलटी लागू होता है) या अनुभवजन्य है (उदाहरण के लिए बड़े सुझाव चर के साथ पिछले अध्ययन सामान्य है), और केवल टी का उपयोग करके अगर ऐसे मैदान मौजूद हैं । लेकिन यह आमतौर पर केवल अनुमानित सामान्यता को सही ठहराता है , और स्वतंत्रता की कम डिग्री पर यह निर्धारित करना मुश्किल है कि सामान्य के पास यह कैसे संभव है कि टी- टेस्ट को अमान्य करने से बचें ।n

टी-टेस्ट या गैर-पैरामीट्रिक परीक्षण को सामान्यता मुद्दे पर ध्यान केंद्रित करने के लिए अधिकांश गाइड। लेकिन छोटे नमूने भी कुछ मुद्दों को फेंक देते हैं:

  • यदि "असंबंधित नमूने" या "अप्रकाशित" टी-टेस्ट करते हैं, तो क्या एक वेल्च सुधार का उपयोग करना है ? कुछ लोग भिन्नताओं की समानता के लिए एक परिकल्पना परीक्षण का उपयोग करते हैं, लेकिन यहां इसकी शक्ति कम होगी; अन्य लोग यह जांचते हैं कि एसडी "यथोचित" हैं या नहीं (विभिन्न मानदंडों द्वारा)। क्या यह छोटे नमूनों के लिए वेल्च सुधार का उपयोग करने के लिए बस सुरक्षित है, जब तक कि जनसंख्या के बराबर होने का कोई अच्छा कारण नहीं है?

  • यदि आप सत्ता और मजबूती के बीच व्यापार-बंद के रूप में तरीकों का विकल्प देखते हैं, तो गैर-पैरामीट्रिक तरीकों की असममित दक्षता के बारे में दावे अनैतिक हैं । अंगूठे का नियम कि " अगर डेटा वास्तव में सामान्य हैं , तो विल्कॉक्सन परीक्षणों में लगभग 95% टी-परीक्षण की शक्ति होती है , और यदि डेटा नहीं है तो अक्सर अधिक शक्तिशाली होते हैं, इसलिए बस एक विलकॉक्सन का उपयोग करें" कभी-कभी सुना जाता है, लेकिन यदि 95% केवल बड़े पर लागू होता है , तो यह छोटे नमूनों के लिए त्रुटिपूर्ण तर्क है।n

  • छोटे नमूने इसे बहुत कठिन या असंभव बना सकते हैं, यह आकलन करने के लिए कि क्या परिवर्तन डेटा के लिए उपयुक्त है क्योंकि यह बताना मुश्किल है कि परिवर्तित डेटा सामान्य (पर्याप्त) वितरण से संबंधित है या नहीं। इसलिए यदि कोई क्यूक्यू प्लॉट बहुत सकारात्मक रूप से तिरछा डेटा प्रकट करता है, जो लॉग लेने के बाद अधिक उचित लगता है, तो क्या लॉग डेटा पर टी-टेस्ट का उपयोग करना सुरक्षित है? बड़े नमूनों पर यह बहुत लुभावना होगा, लेकिन छोटे साथ मैं शायद तब तक विराम लगाऊंगा जब तक कि पहले स्थान पर लॉग-सामान्य वितरण की उम्मीद करने के लिए आधार नहीं था।n

  • गैर पैरामीट्रिक्स के लिए मान्यताओं की जाँच के बारे में क्या? कुछ स्रोत विल्कोक्सॉन परीक्षण लागू करने से पहले एक सममित वितरण की पुष्टि करने की सलाह देते हैं (इसे स्टोकेस्टिक प्रभुत्व के बजाय स्थान के लिए एक परीक्षण के रूप में मानते हैं), जो सामान्यता की जांच करने के लिए समान समस्याएं लाता है। यदि हम पहली जगह पर गैर-पैरामीट्रिक परीक्षण लागू कर रहे हैं, तो "सुरक्षा पहले" के मंत्र का अंधा पालन है, तो एक छोटे से नमूने से तिरछापन का आकलन करने में कठिनाई जाहिर तौर पर हमें एक जोड़ी साइन टेस्ट की निचली शक्ति तक ले जाएगी। ।

इन छोटे-नमूने के मुद्दों को ध्यान में रखते हुए, क्या टी और गैर-पैरामीट्रिक परीक्षणों के बीच निर्णय लेने के माध्यम से काम करने के लिए एक अच्छा - उम्मीद योग्य - प्रक्रिया है ?

कई उत्कृष्ट उत्तर दिए गए हैं, लेकिन परीक्षण परीक्षणों को क्रमबद्ध करने के लिए अन्य विकल्पों पर विचार करने वाली प्रतिक्रिया, जैसे कि क्रमपरिवर्तन परीक्षण, का भी स्वागत किया जाएगा।


2
मुझे समझाना चाहिए कि "टेस्ट चुनने का तरीका" क्या हो सकता है - परिचयात्मक ग्रंथ अक्सर फ्लोचार्ट का उपयोग करते हैं। अप्रकाशित डेटा के लिए, हो सकता है: "1. दोनों नमूनों को सामान्य रूप से वितरित किए जाने पर जांचने के लिए कुछ विधि का उपयोग करें (यदि 3 पर न जाएं), 2. असमान भिन्नताओं की जांच के लिए कुछ विधि का उपयोग करें: यदि ऐसा है, तो दो-नमूना टी-परीक्षण करें वेल्च का सुधार, यदि नहीं, तो सुधार के बिना प्रदर्शन करें। 3. डेटा को सामान्यता में बदलने का प्रयास करें (यदि काम 2 और 4 पर जाएं)। 4. इसके बजाय U परीक्षण करें (संभवतः विभिन्न मान्यताओं की जांच के बाद)। " लेकिन इन चरणों में से कई छोटे एन के लिए असंतोषजनक लगते हैं, जैसा कि मुझे आशा है कि मेरा क्यू समझाता है!
सिल्वरफिश

2
दिलचस्प सवाल (+1) और एक इनाम स्थापित करने के लिए एक बहादुर कदम। आगे देखिए कुछ दिलचस्प जवाब। वैसे, जो मैं अक्सर अपने क्षेत्र में लागू देखता हूं, वह क्रमपरिवर्तन परीक्षण (या तो टी-टेस्ट या मान-व्हिटनी-विल्कोक्सन के बजाय) है। मुझे लगता है कि इसे एक योग्य दावेदार माना जा सकता है। इसके अलावा, आपने कभी भी यह निर्दिष्ट नहीं किया कि आप "छोटे नमूना आकार" से क्या मतलब है।
अमीबा

1
@ एलेक्सिस कई किताबों का दावा है कि विलकॉक्सन टेस्ट माध्यिका के बारे में समरूपता मानता है, कम से कम यदि परिणाम स्थान के बारे में एक बयान के रूप में देखे जाते हैं (कुछ लोग बॉक्स की जांच करने की सलाह देते हैं: ग्लेन के साथ मेरी चर्चा देखें / मल्टीस्टेप के खतरों के लिए नीचे फ्रैंक हरेल का जवाब। प्रक्रिया)। इसके अलावा कुछ सूत्रों का कहना है कि विलकॉक्सन-मैन-व्हिटनी यू मानती है कि समूह वितरण केवल अनुवाद से भिन्न होता है (और हिस्टोग्राम या अनुभवजन्य सीडीएफ पर दृश्य जांच का सुझाव देता है)। एक गाथा। यू परीक्षण अलग-अलग आकार के वितरण के कारण हो सकता है, भले ही मध्यस्थ समान हों। फ्रैंक हरेल के उत्तर के तहत टिप्पणियों में उद्धृत पत्रों को भी देखें।
सिल्वर फिश

3
@Silverfish "यदि परिणामों को स्थान के बारे में एक बयान के रूप में देखा जाता है" जो कि एक महत्वपूर्ण चेतावनी है, क्योंकि ये परीक्षण आमतौर पर H साक्ष्य के बारे में कथन हैं। । अतिरिक्त वितरण संबंधी धारणाएं बनाना, अनुमान की गुंजाइश (जैसे औसत अंतर के लिए परीक्षण) को बढ़ाता है, लेकिन आम तौर पर परीक्षणों के लिए आवश्यक नहीं हैं। 0:P(XA>XB)=0.5
एलेक्सिस

2
यह देखने के लायक हो सकता है कि "त्रुटिपूर्ण" कैसे "विलकॉक्सन के लिए 95% शक्ति" तर्क छोटे नमूनों के लिए है (भाग में यह इस बात पर निर्भर करता है कि क्या, वास्तव में, एक करता है, और छोटा कितना छोटा है)। उदाहरण के लिए, यदि आप 5% के बजाय 5.5% पर परीक्षण आयोजित करने के लिए खुश हैं, तो यह निकटतम उपयुक्त प्राप्य महत्व स्तर होना चाहिए, शक्ति अक्सर काफी अच्छी तरह से पकड़ती है। एक बार जब आप डेटा एकत्र करने से पहले "पावर गणना" चरण में - यह पता लगा सकते हैं कि परिस्थितियां क्या हो सकती हैं और इस बात का अंदाजा लगा सकते हैं कि आपके द्वारा विचार किए जा रहे नमूना आकारों में विल्कोन के गुण क्या हैं।
Glen_b

जवाबों:


67

मैं सवालों के क्रम को बदलने जा रहा हूं।

मैंने पाठ्यपुस्तकों और व्याख्यान नोटों को अक्सर असहमत पाया है, और पसंद के माध्यम से काम करने के लिए एक प्रणाली चाहेंगे जो सुरक्षित रूप से सर्वोत्तम अभ्यास के रूप में अनुशंसित किया जा सकता है, और विशेष रूप से एक पाठ्यपुस्तक या पेपर जिसे यह उद्धृत किया जा सकता है।

दुर्भाग्य से, पुस्तकों में इस मुद्दे की कुछ चर्चाएँ और प्राप्त ज्ञान पर निर्भर हैं। कभी-कभी जो ज्ञान प्राप्त होता है वह उचित होता है, कभी-कभी यह कम होता है (कम से कम इस अर्थ में कि यह एक छोटी सी समस्या पर ध्यान केंद्रित करता है जब एक बड़ी समस्या को नजरअंदाज कर दिया जाता है); हमें सलाह के लिए दिए गए औचित्य (यदि कोई औचित्य की पेशकश की जाती है) की देखभाल के साथ जांच करनी चाहिए।

टी-टेस्ट या गैर-पैरामीट्रिक परीक्षण को सामान्यता मुद्दे पर ध्यान केंद्रित करने के लिए अधिकांश गाइड।

यह सच है, लेकिन यह कुछ कारणों से गलत है जो मैं इस उत्तर में संबोधित करता हूं।

यदि एक "असंबंधित नमूने" या "अप्रकाशित" टी-टेस्ट करते हैं, तो क्या एक वेल्च सुधार का उपयोग करना है?

यह (इसका उपयोग करने के लिए जब तक कि आपके पास विचार करने के लिए कारण समान होना चाहिए) कई संदर्भों की सलाह है। मैं इस जवाब में कुछ की ओर इशारा करता हूं।

कुछ लोग भिन्नताओं की समानता के लिए एक परिकल्पना परीक्षण का उपयोग करते हैं, लेकिन यहां इसकी शक्ति कम होगी। आम तौर पर मैं सिर्फ नेत्रगोलक करता हूं कि नमूना एसडी "यथोचित" करीब है या नहीं (जो कुछ व्यक्तिपरक है, इसलिए इसे करने का एक अधिक राजसी तरीका होना चाहिए) लेकिन फिर, कम n के साथ यह अच्छी तरह से हो सकता है कि जनसंख्या एसडी अधिक है सैंपल वालों के अलावा।

क्या यह छोटे नमूनों के लिए वेल्च सुधार का उपयोग करने के लिए बस सुरक्षित है, जब तक कि जनसंख्या भिन्नता के बराबर होने का कुछ अच्छा कारण नहीं है? यही सलाह है। परीक्षणों के गुण धारणा परीक्षण के आधार पर चुनाव से प्रभावित होते हैं।

इस पर कुछ संदर्भ यहाँ और यहाँ देखे जा सकते हैं , हालाँकि और भी ऐसी ही बातें हैं।

समान-संस्करण के मुद्दे में सामान्यता के मुद्दे की कई समान विशेषताएं हैं - लोग इसका परीक्षण करना चाहते हैं, सलाह देते हैं कि परीक्षणों के परिणामों पर परीक्षणों की कंडीशनिंग पसंद का परीक्षण बाद के दोनों प्रकार के परीक्षण के परिणामों को प्रतिकूल रूप से प्रभावित कर सकता है - यह केवल यह मान लेना बेहतर नहीं है कि क्या आप समान रूप से और इसी तरह से संबंधित अन्य अध्ययनों से जानकारी का उपयोग करके, डेटा के बारे में तर्क द्वारा पर्याप्त रूप से उचित नहीं ठहरा सकते हैं।

हालांकि, मतभेद हैं। एक यह है कि - कम से कम अशक्त परिकल्पना के तहत परीक्षण सांख्यिकीय के वितरण के संदर्भ में (और इसलिए, इसकी स्तर-मजबूती) - गैर-सामान्यता बड़े नमूनों में कम महत्वपूर्ण है (कम से कम महत्व स्तर के संबंध में, हालांकि शक्ति हो सकती है अभी भी एक मुद्दा हो सकता है यदि आपको छोटे प्रभाव खोजने की आवश्यकता होती है), जबकि समान भिन्नता धारणा के तहत असमान भिन्नताओं का प्रभाव वास्तव में बड़े नमूना आकार के साथ नहीं जाता है।

नमूना आकार "छोटा" होने पर सबसे उपयुक्त परीक्षण कौन सा है, यह चुनने के लिए कौन से राजसी तरीके की सिफारिश की जा सकती है?

परिकल्पना परीक्षणों के साथ, क्या मायने रखता है (कुछ शर्तों के तहत) मुख्य रूप से दो चीजें हैं:

  • वास्तविक प्रकार I त्रुटि दर क्या है?

  • शक्ति व्यवहार कैसा है?

हमें यह भी ध्यान रखना होगा कि यदि हम दो प्रक्रियाओं की तुलना कर रहे हैं, तो पहले को बदलने से दूसरा बदल जाएगा (यदि वे एक ही वास्तविक महत्व के स्तर पर संचालित नहीं होते हैं, तो आप उम्मीद करेंगे कि उच्च से संबंधित है उच्च शक्ति)।α

इन छोटे-नमूने के मुद्दों को ध्यान में रखते हुए, क्या टी और गैर-पैरामीट्रिक परीक्षणों के बीच निर्णय लेने के माध्यम से काम करने के लिए एक अच्छा - उम्मीद योग्य - चेकलिस्ट है?

मैं गैर-सामान्यता और असमान भिन्नताओं की संभावना को देखते हुए कई स्थितियों पर विचार करूंगा, जिसमें मैं कुछ सिफारिशें करूंगा। हर मामले में, वेल्च-टेस्ट को लागू करने के लिए टी-टेस्ट का उल्लेख करें:

  • n मध्यम-बड़ा

गैर-सामान्य (या अज्ञात), निकट-समान भिन्नता होने की संभावना:

यदि वितरण भारी-पूंछ वाला है, तो आप आमतौर पर मान-व्हिटनी के साथ बेहतर होंगे, हालांकि यदि यह केवल थोड़ा भारी है, तो टी-परीक्षण ठीक करना चाहिए। प्रकाश-पूंछ के साथ टी-परीक्षण (अक्सर) को प्राथमिकता दी जा सकती है। क्रमपरिवर्तन परीक्षण एक अच्छा विकल्प है (आप टी-स्टेटिस्टिक का उपयोग करके क्रमचय परीक्षण भी कर सकते हैं यदि आप बहुत इच्छुक हैं)। बूटस्ट्रैप परीक्षण भी उपयुक्त हैं।

गैर-सामान्य (या अज्ञात), असमान परिवर्तन (या अज्ञात संबंध):

यदि वितरण भारी-पूंछ वाला है, तो आप आम तौर पर मान-व्हिटनी के साथ बेहतर होंगे - यदि विचरण की असमानता केवल माध्य की असमानता से संबंधित है - अर्थात यदि H0 सत्य है तो प्रसार में अंतर भी अनुपस्थित होना चाहिए। GLMs अक्सर एक अच्छा विकल्प होते हैं, खासकर अगर इसमें तिरछापन और फैला हुआ मतलब से संबंधित है। एक क्रमपरिवर्तन परीक्षण एक अन्य विकल्प है, जिसमें रैंक-आधारित परीक्षणों के लिए समान कैवियट है। यहां बूटस्ट्रैप टेस्ट एक अच्छी संभावना है।

ज़िमरमैन और ज़ुम्बो (1993) रैंक पर एक वेल्च-टी-टेस्ट का सुझाव देते हैं जो वे कहते हैं कि बेहतर प्रदर्शन करता है कि विल्कोक्सन-मान-व्हिटनी उन मामलों में जहां variances असमान हैं।[1]

  • n मध्यम रूप से छोटा

यदि आप गैर-सामान्यता (फिर से ऊपर के साथ) की अपेक्षा करते हैं तो रैंक परीक्षण यहां उचित चूक हैं। यदि आपको आकार या भिन्नता के बारे में बाहरी जानकारी है, तो आप GLM पर विचार कर सकते हैं। यदि आप उम्मीद करते हैं कि चीजें सामान्य से बहुत दूर नहीं होंगी, तो टी-परीक्षण ठीक हो सकते हैं।

  • n बहुत छोटा

उपयुक्त महत्व के स्तर के साथ समस्या के कारण, न तो क्रमपरिवर्तन परीक्षण और न ही रैंक परीक्षण उपयुक्त हो सकते हैं, और सबसे छोटे आकारों में, एक टी-परीक्षण सबसे अच्छा विकल्प हो सकता है (इसमें थोड़ा मजबूत होने की संभावना है)। हालाँकि, छोटे नमूनों के साथ उच्च प्रकार I त्रुटि दरों का उपयोग करने के लिए एक अच्छा तर्क है (अन्यथा आप टाइप I त्रुटि दर स्थिर रखते हुए टाइप II त्रुटि दरों को बढ़ने दे रहे हैं)। डे विंटर (2013) ।[2]

सलाह को कुछ हद तक संशोधित किया जाना चाहिए जब वितरण दृढ़ता से तिरछा और बहुत असतत हो, जैसे कि लिकर्ट स्केल आइटम जहां अधिकांश अवलोकन अंतिम श्रेणियों में से एक हैं। फिर विलकॉक्सन-मैन-व्हिटनी टी-टेस्ट से बेहतर विकल्प नहीं है।

जब आप संभावित परिस्थितियों के बारे में कुछ जानकारी रखते हैं, तो सिमुलेशन आगे गाइड की पसंद में मदद कर सकता है।

मैं इसकी सराहना करता हूं कि यह एक बारहमासी विषय है, लेकिन अधिकांश प्रश्न प्रश्नकर्ता के विशेष डेटा सेट की चिंता करते हैं, कभी-कभी शक्ति की अधिक सामान्य चर्चा करते हैं, और कभी-कभी दो परीक्षण असहमत होने पर क्या करना है, लेकिन मैं सही परीक्षा लेने के लिए एक प्रक्रिया चाहूंगा प्रथम स्थान!

मुख्य समस्या यह है कि एक छोटे से डेटा सेट में सामान्यता धारणा की जांच करना कितना कठिन है:

यह है एक छोटा सा डेटा सेट में सामान्य जांच करने के लिए, और कुछ हद तक एक महत्वपूर्ण मुद्दा है कि करने के लिए मुश्किल है, लेकिन मुझे लगता है कि महत्व का एक और मुद्दा यह है कि हम इस पर विचार करने की आवश्यकता है। एक बुनियादी समस्या यह है कि परीक्षणों के बीच चयन के आधार के रूप में सामान्यता का आकलन करने की कोशिश करने से आपके द्वारा चुने जा रहे परीक्षणों के गुणों पर प्रतिकूल प्रभाव पड़ता है।

सामान्यता के किसी भी औपचारिक परीक्षण में कम शक्ति होगी ताकि उल्लंघन का अच्छी तरह से पता न चल सके। (व्यक्तिगत रूप से मैं इस उद्देश्य के लिए परीक्षण नहीं करूंगा, और मैं स्पष्ट रूप से अकेला नहीं हूं, लेकिन मैंने यह बहुत कम इस्तेमाल किया है जब ग्राहक एक सामान्यता परीक्षण की मांग करते हैं, क्योंकि यह उनकी पाठ्यपुस्तक या पुराने व्याख्यान नोट्स या किसी वेबसाइट पर एक बार पाया जाता है। घोषणा की जानी चाहिए। यह एक ऐसा बिंदु है जहां वजनदार दिखने वाले प्रशस्ति पत्र का स्वागत किया जाएगा।)

यहाँ एक संदर्भ का उदाहरण दिया गया है (अन्य हैं) जो असमान है (फे और प्रस्कान, 2010 ):[3]

T- और WMW DRs के बीच का चुनाव सामान्यता की परीक्षा पर आधारित नहीं होना चाहिए।

वे समान रूप से असमान हैं जो विचरण की समानता के लिए परीक्षण नहीं करते हैं।

मामलों को बदतर बनाने के लिए, केंद्रीय सीमा प्रमेय को सुरक्षा जाल के रूप में उपयोग करना असुरक्षित है: छोटे n के लिए हम परीक्षण सांख्यिकीय और टी वितरण के सुविधाजनक विषमता सामान्यता पर भरोसा नहीं कर सकते हैं।

न ही बड़े नमूनों में भी - अंश की विषमता सामान्यता का अर्थ यह नहीं है कि टी-स्टेटिस्टिक का टी-वितरण होगा। हालाँकि, यह इतना महत्वपूर्ण नहीं हो सकता है, क्योंकि आपके पास अभी भी स्पर्शोन्मुख सामान्यता होनी चाहिए (जैसे कि अंश के लिए CLT, और स्लटस्की के प्रमेय का सुझाव है कि अंततः टी-स्टेटिस्टिक सामान्य दिखना शुरू हो जाना चाहिए, अगर दोनों के लिए स्थितियां हैं)।

इसके लिए एक राजसी प्रतिक्रिया "सुरक्षा पहले" है: क्योंकि एक छोटे से नमूने पर सामान्यता धारणा को मज़बूती से सत्यापित करने का कोई तरीका नहीं है, इसके बजाय एक बराबर गैर पैरामीट्रिक परीक्षण चलाएं।

यह वास्तव में सलाह है कि जिन संदर्भों का मैं उल्लेख करता हूं (या उल्लेख के लिए लिंक) देता हूं।

एक अन्य दृष्टिकोण जो मैंने देखा है, लेकिन इसके साथ कम सहज महसूस करता है, एक दृश्य जांच करना है और एक टी-टेस्ट के साथ आगे बढ़ना है अगर कुछ भी अनहोनी नहीं हुई है ("इस चेक की कम शक्ति की अनदेखी करते हुए सामान्यता को अस्वीकार करने का कोई कारण नहीं")। मेरा व्यक्तिगत झुकाव इस बात पर विचार करना है कि क्या सामान्यता मानने के लिए कोई आधार हैं, सैद्धांतिक (जैसे चर कई यादृच्छिक घटकों और सीएलटी लागू होता है) या अनुभवजन्य है (उदाहरण के लिए बड़े n के साथ पिछले अध्ययनों में चर सामान्य है)।

वे दोनों अच्छे तर्क हैं, खासकर जब इस तथ्य का समर्थन किया जाता है कि टी-परीक्षण सामान्य से मध्यम विचलन के खिलाफ काफी मजबूत है। (एक को ध्यान में रखना चाहिए, हालांकि, "मध्यम विचलन" एक मुश्किल वाक्यांश है; सामान्यता से कुछ प्रकार के विचलन टी-टेस्ट के शक्ति प्रदर्शन को काफी प्रभावित कर सकते हैं, भले ही वे विचलन नेत्रहीन बहुत छोटे हों - टी- परीक्षण दूसरों की तुलना में कुछ विचलन के लिए कम मजबूत है। हमें सामान्य से छोटे विचलन पर चर्चा करते समय इसे ध्यान में रखना चाहिए।)

हालांकि, खबरदार, "सुझाव है कि चर सामान्य है"। सामान्य रूप से सामान्य रूप से सुसंगत होना सामान्यता जैसी बात नहीं है। हम अक्सर वास्तविक सामान्यता को अस्वीकार कर सकते हैं, यहां तक ​​कि डेटा को देखने की भी आवश्यकता नहीं है - उदाहरण के लिए, यदि डेटा नकारात्मक नहीं हो सकता है, तो वितरण सामान्य नहीं हो सकता है। सौभाग्य से, क्या मायने रखता है कि हम वास्तव में पिछले अध्ययनों के करीब हो सकते हैं या डेटा कैसे बना रहे हैं, इसके बारे में तर्क है, जो सामान्य से विचलन छोटा होना चाहिए।

यदि ऐसा है, तो मैं एक टी-परीक्षण का उपयोग करूंगा यदि डेटा दृश्य निरीक्षण पारित कर दिया, और अन्यथा गैर-पैरामीट्रिक्स से चिपके रहें। लेकिन कोई भी सैद्धांतिक या अनुभवजन्य आधार आमतौर पर केवल अनुमानित सामान्यता को सही ठहराता है, और स्वतंत्रता की कम डिग्री पर यह निर्धारित करना कठिन है कि टी-टेस्ट को अमान्य करने से बचने के लिए सामान्य होने की आवश्यकता है।

ठीक है, यह कुछ ऐसा है जो हम काफी आसानी से प्रभाव का आकलन कर सकते हैं (जैसे कि सिमुलेशन के माध्यम से, जैसा कि मैंने पहले उल्लेख किया है)। मैंने जो देखा है, उससे भारीपन की तुलना में तिरछापन ज्यादा मायने रखता है (लेकिन दूसरी तरफ मैंने इसके विपरीत के कुछ दावे देखे हैं - हालांकि मुझे नहीं पता कि यह किस पर आधारित है)।

उन लोगों के लिए जो शक्ति और मजबूती के बीच व्यापार-बंद के रूप में तरीकों की पसंद को देखते हैं, गैर-पैरामीट्रिक तरीकों की असममित दक्षता के बारे में दावे अनपेक्षित हैं। उदाहरण के लिए, अंगूठे का नियम है कि "विल्कोक्सन परीक्षणों में लगभग 95% टी-परीक्षण की शक्ति है यदि डेटा वास्तव में सामान्य हैं, और अक्सर अधिक शक्तिशाली होते हैं यदि डेटा नहीं है, तो बस एक विलकॉक्सन का उपयोग करें" कभी-कभी होता है सुना है, लेकिन अगर 95% केवल बड़े एन पर लागू होता है, तो यह छोटे नमूनों के लिए त्रुटिपूर्ण तर्क है।

लेकिन हम छोटे-सैंपल पावर को आसानी से जांच सकते हैं! यहाँ के रूप में पावर घटता प्राप्त करने के लिए अनुकरण करना काफी आसान है ।
(फिर से, डे विंटर (2013) ) भी देखें।[2]

विभिन्न प्रकार की परिस्थितियों में, दोनों-नमूना और एक-नमूना / युग्मित-अंतर वाले मामलों के लिए इस तरह के सिमुलेशन करने के बाद, दोनों मामलों में सामान्य पर छोटा नमूना दक्षता विषमता दक्षता से थोड़ा कम लगती है, लेकिन दक्षता हस्ताक्षरित रैंक और विलकॉक्सन-मान-व्हिटनी परीक्षण अभी भी बहुत छोटे नमूना आकारों में बहुत अधिक है।

कम से कम यदि परीक्षण समान वास्तविक महत्व के स्तर पर किए जाते हैं; आप बहुत छोटे नमूनों के साथ 5% परीक्षण नहीं कर सकते (और उदाहरण के लिए यादृच्छिक परीक्षण के बिना कम से कम नहीं), लेकिन अगर आप इसके बजाय शायद 5.5% या 3.2% परीक्षण करने के लिए तैयार हैं, तो रैंक परीक्षण उस महत्व के स्तर पर एक टी-टेस्ट की तुलना में वास्तव में बहुत अच्छी तरह से पकड़।

छोटे नमूने इसे बहुत कठिन या असंभव बना सकते हैं, यह आकलन करने के लिए कि क्या परिवर्तन डेटा के लिए उपयुक्त है क्योंकि यह बताना मुश्किल है कि परिवर्तित डेटा सामान्य (पर्याप्त) वितरण से संबंधित है या नहीं। इसलिए यदि कोई क्यूक्यू प्लॉट बहुत सकारात्मक रूप से तिरछा डेटा प्रकट करता है, जो लॉग लेने के बाद अधिक उचित दिखता है, तो क्या लॉग डेटा पर टी-टेस्ट का उपयोग करना सुरक्षित है? बड़े नमूनों पर यह बहुत लुभावना होगा, लेकिन छोटे एन के साथ मैं शायद तब तक विराम लगाऊंगा जब तक कि पहले स्थान पर लॉग-नॉर्मल वितरण की उम्मीद करने के लिए आधार नहीं था।

एक और विकल्प है: एक अलग पैरामीट्रिक धारणा बनाएं। उदाहरण के लिए, यदि तिरछा डेटा है, तो हो सकता है, उदाहरण के लिए, कुछ स्थितियों में यथोचित रूप से एक गामा वितरण, या कुछ अन्य तिरछे परिवार को एक बेहतर सन्निकटन माना जाए - बड़े नमूनों में, हम सिर्फ एक GLM का उपयोग कर सकते हैं, लेकिन बहुत छोटे नमूनों में यह एक छोटे-नमूने के परीक्षण को देखने के लिए आवश्यक हो सकता है - कई मामलों में सिमुलेशन उपयोगी हो सकता है।

वैकल्पिक 2: टी-टेस्ट को मजबूत करें (लेकिन मजबूत प्रक्रिया की पसंद के बारे में ध्यान रखना ताकि परीक्षण सांख्यिकीय के परिणामी वितरण को बहुत अधिक न समझें) - यह एक बहुत ही छोटे-से-गैर-गैर-पैरामीट्रिक प्रक्रिया जैसे क्षमता पर कुछ फायदे हैं। निम्न प्रकार I त्रुटि दर वाले परीक्षणों पर विचार करना।

यहां मैं सामान्यता से विचलन के खिलाफ सुचारू रूप से मजबूत करने के लिए टी-स्टेटिस्टिक में स्थान के एम-अनुमानक (और पैमाने के संबंधित अनुमानक) का उपयोग करने की तर्ज पर सोच रहा हूं। वेल्च के लिए कुछ समान है, जैसे:

xySp

जहां और , आदि क्रमशः स्थान और पैमाने के मजबूत अनुमान हैं।Sp2=sx2nx+sy2nyxsx

मैं लक्ष्यहीनता की किसी भी प्रवृत्ति को कम करने का लक्ष्य बनाऊंगा - इसलिए मैं ट्रिमिंग और विनसोराइजिंग जैसी चीजों से बचूंगा, क्योंकि यदि मूल डेटा असतत था, तो ट्रिमिंग आदि इसे बढ़ा देगा; एम-एसेसमेंट टाइप एप्रोच का उपयोग करके एक चिकने -function के साथ आप असंगति में योगदान किए बिना समान प्रभाव प्राप्त करते हैं। ध्यान रखें कि हम उस स्थिति से निपटने की कोशिश कर रहे हैं जहां वास्तव में बहुत छोटा है (प्रत्येक नमूने में 3-5 के आसपास, कहते हैं), इसलिए यहां तक ​​कि एम-अनुमान संभावित रूप से इसके मुद्दे हैं।ψn

उदाहरण के लिए, आप पी-मान प्राप्त करने के लिए सामान्य पर सिमुलेशन का उपयोग कर सकते हैं (यदि नमूना आकार बहुत छोटा है, तो मैं सुझाव दूंगा कि बूटस्ट्रैपिंग पर - यदि नमूना आकार इतना छोटा नहीं है, तो सावधानीपूर्वक लागू किया गया बूटस्ट्रैप काफी अच्छा कर सकता है , लेकिन तब हम विल्कोक्सन-मान-व्हिटनी पर वापस जा सकते हैं)। वहाँ एक स्केलिंग कारक के साथ-साथ एक df समायोजन है जो मुझे लगता है कि तब एक उचित टी-सन्निकटन होगा। इसका मतलब है कि हमें उस तरह के गुण प्राप्त करने चाहिए जो हम सामान्य के बहुत करीब चाहते हैं, और सामान्य के व्यापक आसपास के क्षेत्र में उचित मजबूती होनी चाहिए। ऐसे कई मुद्दे हैं जो वर्तमान प्रश्न के दायरे से बाहर होंगे, लेकिन मुझे लगता है कि बहुत छोटे नमूनों में लाभ लागत और अतिरिक्त प्रयास की आवश्यकता होनी चाहिए।

[मैंने इस सामान पर बहुत लंबे समय तक साहित्य नहीं पढ़ा है, इसलिए मेरे पास उस स्कोर की पेशकश करने के लिए उपयुक्त संदर्भ नहीं हैं।]

बेशक, यदि आप वितरण को कुछ हद तक सामान्य होने की उम्मीद नहीं करते हैं, बल्कि कुछ अन्य वितरण के समान है, तो आप एक अलग पैरामीट्रिक परीक्षण के उपयुक्त सुदृढ़ीकरण का कार्य कर सकते हैं।

क्या होगा यदि आप गैर-पैरामीट्रिक्स के लिए मान्यताओं की जांच करना चाहते हैं? कुछ स्रोत विलकॉक्सन टेस्ट लागू करने से पहले एक सममित वितरण की पुष्टि करने की सलाह देते हैं, जो सामान्यता की जांच करने के लिए समान समस्याएं लाता है।

वास्तव में। मुझे लगता है कि आप हस्ताक्षरित रैंक परीक्षण का मतलब है *। युग्मित डेटा पर इसका उपयोग करने के मामले में, यदि आप यह मानने के लिए तैयार हैं कि दो वितरण एक ही आकार हैं इसके अलावा स्थान परिवर्तन से आप सुरक्षित हैं, क्योंकि अंतर तब सममित होना चाहिए। वास्तव में, हमें इसकी उतनी आवश्यकता नहीं है; परीक्षण के लिए काम करने के लिए आपको नल के नीचे समरूपता की आवश्यकता है; यह विकल्प के तहत आवश्यक नहीं है (उदाहरण के लिए, सकारात्मक अर्ध-रेखा पर समान रूप से तिरछे दाएं तिरछे वितरण के साथ एक युग्मित स्थिति पर विचार करें, जहां तराजू वैकल्पिक के तहत भिन्न होते हैं, लेकिन शून्य के तहत नहीं; हस्ताक्षर किए गए रैंक परीक्षण आवश्यक रूप से अपेक्षित रूप से काम करना चाहिए; उस मामले में)। यदि विकल्प एक स्थान परिवर्तन है, तो परीक्षण की व्याख्या आसान है।

* (विलकॉक्सन का नाम एक और दो सैंपल रैंक टेस्ट - हस्ताक्षरित रैंक और रैंक राशि दोनों के साथ जुड़ा हुआ है। उनके यू टेस्ट के साथ, मान और व्हिटनी ने विल्कोक्सन द्वारा अध्ययन की गई स्थिति को सामान्य किया, और अशक्त वितरण के मूल्यांकन के लिए महत्वपूर्ण नए विचार पेश किए, लेकिन Wilcoxon-Mann-Whitney पर लेखकों के दो सेटों के बीच प्राथमिकता स्पष्ट रूप से Wilcoxon की है - इसलिए कम से कम अगर हम केवल Wilcoxon vs Mann & Whitney पर विचार करें, तो Wilcoxon मेरी पुस्तक में पहले स्थान पर है। हालाँकि, यह Stigler's Law ने मुझे अभी तक फिर से हराया है, और Wilcoxon। शायद उस प्राथमिकता में से कुछ को पहले योगदानकर्ताओं के साथ साझा करना चाहिए, और (मान और व्हिटनी के अलावा) को एक समकक्ष परीक्षण के कई खोजकर्ताओं के साथ क्रेडिट साझा करना चाहिए। [४] [५]]

संदर्भ

[१]: ज़िम्मरमैन डीडब्ल्यू और ज़ुम्बो बीएन, (१ ९९ ३),
रैंक परिवर्तन और नॉन-नॉर्मल पॉपुलेशन के लिए स्टूडेंट टी-टेस्ट और वेल्च टी-टेस्ट की ताकत,
कैनेडियन जर्नल एक्सपेरिमेंटल साइकोलॉजी, ४ 47 : ५२३-३९।

[२]: जेसीएफ डे विंटर (२०१३),
"अत्यंत छोटे नमूने आकारों के साथ छात्र के टी-टेस्ट का उपयोग करते हुए,"
व्यावहारिक मूल्यांकन, अनुसंधान और मूल्यांकन , 10: १०, अगस्त, आईएसएसएन १५३१- http:// http:// १४
http://pareonline.net/ getvn.asp? v = 18 & एन = 10

[३]: माइकल पी। फे और माइकल ए। प्रोचान (२०१०),
"विलकॉक्सन-मैन-व्हिटनी या टी-टेस्ट; परिकल्पना परीक्षणों और निर्णय नियमों की कई व्याख्याओं के लिए मान्यताओं पर,"
स्टेटस सर्वाइव ; 4 : 1-39।
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[४]: बेरी, केजे, मिल्के, पीडब्लू और जॉन्सटन, जेई (२०१२),
"द टू-सैंपल रैंक-सम टेस्ट: अर्ली डेवलपमेंट,"
इलेक्ट्रॉनिक जर्नल फॉर हिस्ट्री ऑफ प्रोबेबिलिटी एंड स्टैटिस्टिक्स , वॉल्यूम,, दिसंबर
पीडीएफ

[५]: क्रुस्कल, डब्लूएच (१ ९ ५]),
"विल्कोक्सन पर ऐतिहासिक नोट दो-नमूना परीक्षण,"
जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन , ५२ , ३५६-१००।


कुछ चीजें जो मैं स्पष्ट करना चाहूंगा। ऐसे कई बिंदु हैं जहाँ आप उल्लेख करते हैं जैसे "यदि वितरण भारी-पूंछ वाला है, ..." (या तिरछा आदि) - संभवतः इसे "इस तरह पढ़ा जाना चाहिए" यदि यह मान लेना उचित है कि वितरण भारी-पूंछ वाला होगा "(सिद्धांत से) / पिछले अध्ययन / जो कुछ भी) "नमूना भारी-पूंछ वाला है" के बजाय, अन्यथा हम फिर से मल्टी-स्टेप परीक्षण पर वापस आ गए हैं जो कि हम बचने की कोशिश कर रहे हैं? (मुझे ऐसा लगता है कि इस विषय में एक केंद्रीय मुद्दा यह है कि वितरण के बारे में विश्वासों या मान्यताओं को सही कैसे ठहराया जाए, नमूने में बहुत अधिक पढ़ने के बिना।)
सिल्वरफ़िश

हां, यह समझा जाना चाहिए कि "जनसंख्या को या तो भारी-पूंछ वाला कहा जाता है, या उससे भारी पूंछ होने की उम्मीद की जा सकती है"। यही कारण है कि निश्चित रूप से सिद्धांत (या स्थिति है कि काफी की स्थिति तक नहीं पहुंचता है के बारे में कभी कभी भी सामान्य तर्क जैसी चीज़ें शामिल सिद्धांत ), विशेषज्ञ ज्ञान, और पिछले अध्ययनों। यह भारी तनाव के लिए परीक्षण का सुझाव नहीं दे रहा है। ऐसी स्थितियों में जहां यह केवल अज्ञात है, यह जांच के लायक हो सकता है कि विभिन्न वितरणों के तहत बुरी चीजें कैसे हो सकती हैं जो आपके पास विशिष्ट स्थिति के लिए प्रशंसनीय हो सकती हैं।
Glen_b

कोई भी मौका जो इस पहले से ही उत्कृष्ट उत्तर को शामिल कर सकता है, टी-टेस्ट को "मजबूत" करने के लिए क्या विकल्प हो सकते हैं?
सिल्वरफिश नोव

सिल्वरफ़िश - मुझे यकीन नहीं है कि अगर मैंने आपके प्रश्न को मजबूत करने पर विस्तार से पूछा। अभी थोड़ा और जोड़ दूंगा।
Glen_b

इसके अलावा के लिए बहुत धन्यवाद, मैंने सोचा कि इस जवाब की गुणवत्ता में बहुत कुछ जोड़ा गया है। अब यह सवाल थोड़ा शांत हो गया है, और प्रतिक्रियाओं का एक अच्छा सेट उत्पन्न किया है, मैं मूल प्रश्न को एक अच्छा कॉपी-एडिट देना चाहता हूं और कुछ भी निकाल सकता हूं जो भ्रामक हो सकता है (पाठकों के लाभ के लिए जो अतीत में नहीं पढ़ते हैं प्रश्न!)। क्या यह ठीक है जब मैं आपके लिए अपनी प्रतिक्रिया के लिए उचित संपादन करने के लिए ऐसा करता हूं तो उद्धरण पुनर्गठित प्रश्न के साथ मेल खाते हैं?
सिल्वरफिश

22

मेरे विचार में राजसी दृष्टिकोण यह स्वीकार करता है कि (1) परीक्षणों और सामान्यता के चित्रमय आकलन में अपर्याप्त संवेदनशीलता है और ग्राफ़ व्याख्या अक्सर उद्देश्यपूर्ण नहीं होती है, (2) बहु-चरण प्रक्रियाओं में अनिश्चित परिचालन विशेषताएँ होती हैं, (3) कई गैर-पैरामीटर परीक्षणों में उत्कृष्ट परिचालन विशेषताएँ होती हैं जिन परिस्थितियों में पैरामीट्रिक परीक्षणों में इष्टतम शक्ति होती है, और (4) का उचित परिवर्तन आम तौर पर पहचान कार्य नहीं होता है, और गैर-पैरामीटर डेटाके टी पीYk-नमूना परीक्षण चुने गए परिवर्तन के लिए अपरिवर्तनीय हैं (ऐसा एक-नमूना परीक्षण जैसे कि विल्कोक्सन हस्ताक्षरित रैंक परीक्षण के लिए नहीं)। (2) के बारे में, बहु-चरण प्रक्रियाएँ विशेष रूप से ड्रग विकास जैसे क्षेत्रों में समस्याग्रस्त होती हैं जहाँ एफडीए जैसी निगरानी एजेंसियां ​​परिणामों के संभावित हेरफेर से चिंतित हैं। उदाहरण के लिए, एक बेईमान शोधकर्ता आसानी से सामान्यता के परीक्षण की रिपोर्ट करना भूल सकता है यदि - कम पीवल में परिणाम देता है ।tP

यह सब एक साथ रखकर, कुछ सुझाए गए मार्गदर्शन निम्नानुसार हैं:

  1. यदि डेटा की जांच करने से पहले गौसियन वितरण को मानने के लिए कोई बाध्यकारी कारण नहीं है, और कोई कोवरिएट समायोजन की आवश्यकता नहीं है, तो एक nonparametric परीक्षण का उपयोग करें।
  2. यदि कोवरिएट समायोजन की आवश्यकता होती है, तो आपके द्वारा पसंद किए जाने वाले रैंक परीक्षण के सेमीपैरमेट्रिक रिग्रेशन सामान्यीकरण का उपयोग करें। विल्कोक्सन परीक्षण के लिए यह आनुपातिक बाधाओं का मॉडल है और एक सामान्य स्कोर परीक्षण के लिए यह प्रोबेट ऑर्डिनल रिग्रेशन है।

ये सिफारिशें काफी सामान्य हैं, हालांकि कुछ छोटे नमूना आकारों के लिए आपका माइलेज भिन्न हो सकता है। लेकिन हम जानते हैं कि बड़े नमूने Wilcoxon 2-नमूना परीक्षण के रिश्तेदार दक्षता और हस्ताक्षर किए रैंक परीक्षण की तुलना में के लिए टेस्ट (यदि बराबर विचरण 2-नमूना मामले में रखती है) है और जब गॉसियन वितरण नहीं होता है, तो रैंक परीक्षणों की सापेक्ष दक्षता अक्सर 1.0 से अधिक होती है। मेरे लिए, के परिवर्तन को निर्दिष्ट करने से संभावित लाभ, मजबूती और स्वतंत्रता की तुलना में रैंक परीक्षणों का उपयोग करने में सूचना का नुकसान बहुत कम है ।3t3πY

यदि उनकी इष्टतम धारणाएं संतुष्ट नहीं हैं, तो भी गैर-समरूप परीक्षण अच्छा प्रदर्शन कर सकते हैं। के लिए नमूना समस्या, रैंक परीक्षण एक समूह के लिए वितरण के बारे में कोई अनुमान; वे केवल इस बात की धारणा बनाते हैं कि कैसे समूहों के वितरण एक दूसरे से जुड़े हैं, यदि आपको परीक्षण के लिए इष्टतम होने की आवश्यकता है। एक के लिए लिंक संचयी संभावना क्रमसूचक मॉडल वितरण आनुपातिक खतरों में माना जाता है। एक लॉग लिंक के लिए संचयी संभाव्यता मॉडल (आनुपातिक ऑड्स मॉडल), वितरण को आनुपातिक बाधाओं मान्यताओं से जुड़ा हुआ माना जाता है, अर्थात, संचयी वितरण कार्यों के लॉग समानांतर होते हैं। वितरण में से एक का आकार अप्रासंगिक है। विवरण में पाया जा सकता हैk - लॉग - लॉगkklogloghttp://biostat.mc.vanderbilt.edu/CourseBios330 हैंडआउट्स के अध्याय 15 में।

एक लगातार सांख्यिकीय पद्धति की दो प्रकार की धारणाएं हैं जिन्हें अक्सर माना जाता है। पहला तरीका यह है कि विधि को I टाइप करने के लिए सुरक्षित रखने के लिए आवश्यक है। दूसरा टाइप II त्रुटि (इष्टतमता; संवेदनशीलता) के संरक्षण से संबंधित है। मेरा मानना ​​है कि दूसरे के लिए आवश्यक धारणाओं को उजागर करने का सबसे अच्छा तरीका एक गैर-सममितीय परीक्षण को एक अर्ध-मापक मॉडल में एम्बेड करना है जैसा कि ऊपर किया गया है। दोनों के बीच वास्तविक संबंध अर्ध कुशल मॉडल से उत्पन्न होने वाले राव कुशल स्कोर परीक्षणों से है। दो-नमूना मामले के लिए आनुपातिक बाधाओं के मॉडल से स्कोर टेस्ट का अंश बिल्कुल रैंक-योग है।


1
इसके लिए धन्यवाद, मुझे इस उत्तर के दर्शन से बहुत सहानुभूति है - उदाहरण के लिए, बहुत सारे स्रोत बताते हैं कि मुझे परीक्षण पर निर्णय लेने से पहले सामान्यता के लिए कम से कम नेत्रगोलक की जांच करनी चाहिए। लेकिन इस प्रकार की बहु-चरण प्रक्रिया स्पष्ट रूप से, यद्यपि, प्रभावित करती है कि परीक्षण कैसे संचालित होते हैं।
सिल्वरफिश नोव

1
कुछ प्रश्न: (1) मान लीजिए कि गौसियन वितरण को प्राथमिकता देने का एक अच्छा कारण है (जैसे पिछले अध्ययन) तो हम एक टी-टेस्ट पसंद करते हैं। छोटे लिए सामान्यता का आकलन करने का कोई मतलब नहीं है - इसके उल्लंघन का पता लगाने का कोई तरीका नहीं होगा। लेकिन या तो के लिए, एक QQ साजिश अच्छी तरह से दिखा सकती है जैसे कि गंभीर तिरछा है। क्या बहु-चरण प्रक्रियाओं से बचने के दर्शन का मतलब है कि हमें अपनी सामान्य धारणा को सही ठहराना चाहिए, फिर अपने डेटा के स्पष्ट वितरण की जांच किए बिना आगे बढ़ना चाहिए? इसी प्रकार, k नमूना मामले में, क्या हमें डिफ़ॉल्ट रूप से इसे जाँचने की कोशिश करने के बजाय असमान भिन्नताओं को मान लेना चाहिए? n = 15nn=15
सिल्वरफिश

3
(+1) मैं सोच रहा हूं कि मान-व्हिटनी-विलकॉक्सन बनाम क्रमपरिवर्तन परीक्षणों पर आपका क्या लेना है (मैं मोंटे कार्लो के क्रमपरिवर्तन परीक्षण की बात कर रहा हूं, जब समूह के लेबल को बार फेरबदल किया जाता है और -value को सीधे गणना की जाती है। फेरबदल की संख्या एक बड़ा समूह अंतर के परिणामस्वरूप)? पी10000p
अमीबा

4
क्रमपरिवर्तन परीक्षण प्रकार I त्रुटि को नियंत्रित करने के तरीके हैं, लेकिन प्रकार II त्रुटि को संबोधित नहीं करते हैं। उपपरिवर्तनीय आँकड़ों के आधार पर एक क्रमपरिवर्तन परीक्षण (जैसे, सामान्य माध्य और विचरण जब डेटा एक लॉग-गौसियन वितरण से आता है) शक्ति के संदर्भ में भुगतना होगा।
फ्रैंक हरेल

3
हां अध्याय 15 हैंडआउट्स में मेरी पुस्तक के आगामी 2 संस्करण में एक नए अध्याय में विस्तारित किया गया है जिसे मैं अगले महीने प्रकाशक को प्रस्तुत करूंगा।
फ्रैंक हरेल

13

अपने प्रकाशनों और पुस्तकों में रैंड विलकॉक्स कुछ बहुत ही महत्वपूर्ण बिंदु बनाते हैं, जिनमें से कई फ्रैंक हार्ले और ग्लेन_ बी द्वारा पहले के पदों में सूचीबद्ध थे।

  1. मतलब जरूरी नहीं है कि हम जिस मात्रा के बारे में अनुमान लगाना चाहते हैं। शायद अन्य मात्राएँ जो बेहतर रूप से एक विशिष्ट अवलोकन का उदाहरण देती हैं ।
  2. टी-परीक्षणों के लिए, सामान्यता से छोटे प्रस्थान के लिए भी शक्ति कम हो सकती है।
  3. टी-परीक्षणों के लिए, मनाया गया संभाव्यता कवरेज नाममात्र की तुलना में काफी भिन्न हो सकता है।

कुछ प्रमुख सुझाव हैं:

  1. टी-टेस्ट का उपयोग करके ट्रिम किए गए साधनों या एम-आकलनकर्ताओं की तुलना करने के लिए एक मजबूत विकल्प है। विलकॉक्स सुझाव है कि 20% छंटनी का मतलब है।
  2. अनुभवजन्य संभावना तरीके सैद्धांतिक रूप से अधिक लाभप्रद हैं ( ओवेन, 2001 ), लेकिन जरूरी नहीं कि मध्यम से छोटे एन के लिए।
  3. यदि किसी को टाइप I त्रुटि को नियंत्रित करने की आवश्यकता है, तो क्रमपरिवर्तन परीक्षण बहुत अच्छा है, लेकिन कोई CI नहीं मिल सकता है।
  4. कई स्थितियों के लिए विल्कोक्स ने ट्रिम किए गए साधनों की तुलना करने के लिए बूटस्ट्रैप-टी प्रस्तावित किया है। आर में, यह कार्यान्वित में कार्य कर रहा है yuenbt , yhbt में WRS पैकेज।
  5. ट्रिमिंग की मात्रा> / = 20% होने पर प्रतिशत-टी की तुलना में प्रतिशतक बूटस्ट्रैप शायद बेहतर होगा। आर में इस समारोह में कार्यान्वित किया जाता pb2gen ऊपर उल्लिखित में WRS पैकेज।

दो अच्छे संदर्भ विलकॉक्स ( 2010 ) और विलकॉक्स ( 2012 ) हैं।


8

ब्रैडली, अपने काम में वितरण-मुक्त सांख्यिकीय टेस्ट (1968, पीपी। 17–24) , जिसे वह "शास्त्रीय" और "वितरण-मुक्त" परीक्षण कहते हैं, के बीच तेरह विरोधाभास लाता है। ध्यान दें कि ब्रैडली "गैर-पैरामीट्रिक" और "वितरण-मुक्त" के बीच अंतर करता है, लेकिन आपके प्रश्न के प्रयोजनों के लिए यह अंतर प्रासंगिक नहीं है। उन तेरह में शामिल तत्व ऐसे हैं जो न केवल परीक्षणों के व्युत्पन्नता से संबंधित हैं, बल्कि उनके अनुप्रयोग। इसमें शामिल है:

  • महत्व स्तर की पसंद: शास्त्रीय परीक्षणों में निरंतर महत्व स्तर होते हैं; वितरण-मुक्त परीक्षणों में आमतौर पर महत्व के स्तरों का असतत अवलोकन होता है, इसलिए शास्त्रीय परीक्षण उक्त स्तर की स्थापना में अधिक लचीलापन प्रदान करते हैं।
  • अस्वीकृति क्षेत्र की तार्किक वैधता: वितरण-मुक्त परीक्षण अस्वीकृति क्षेत्र कम सहज रूप से समझने योग्य हो सकते हैं (न तो आवश्यक रूप से चिकनी और न ही निरंतर) और जब परीक्षण को शून्य परिकल्पना को खारिज कर दिया जाना चाहिए तो भ्रम पैदा कर सकता है।
  • आँकड़ों के प्रकार जो परीक्षण योग्य हैं: सीधे ब्रैडली को उद्धृत करने के लिए: " अवलोकन परिमाण पर अंकगणितीय संचालन के संदर्भ में परिभाषित आँकड़ों का परीक्षण शास्त्रीय तकनीकों द्वारा किया जा सकता है, आदेश रिश्तों (श्रेणी) या श्रेणी-आवृत्तियों द्वारा परिभाषित व्हाट्सएप, आदि द्वारा परीक्षण किया जा सकता है। वितरण-मुक्त विधियाँ। मतलब और भिन्नताएं पूर्व और मध्ययुगीन और अंतःअर्थी पर्वतमाला के उदाहरण हैं, उत्तरार्द्ध। "विशेष रूप से जब गैर-सामान्य वितरण से निपटते हैं, तो अन्य आँकड़ों की जांच करने की क्षमता मूल्यवान हो जाती है, वितरण-मुक्त परीक्षणों के लिए वजन कम होता है।" ।
  • उच्च-क्रम इंटरैक्शन की परीक्षण क्षमता: वितरण-मुक्त परीक्षणों की तुलना में शास्त्रीय परीक्षणों के तहत बहुत आसान है।
  • नमूना आकार का प्रभाव:यह मेरी राय में एक नहीं बल्कि महत्वपूर्ण है। जब नमूना आकार छोटा होता है (ब्रैडली n = 10 के आसपास कहता है), यह निर्धारित करना बहुत मुश्किल हो सकता है कि शास्त्रीय परीक्षणों में अंतर्निहित पैरामीट्रिक मान्यताओं का उल्लंघन किया गया है या नहीं। वितरण-मुक्त परीक्षणों में इन मान्यताओं का उल्लंघन नहीं होता है। इसके अलावा, यहां तक ​​कि जब मान्यताओं का उल्लंघन नहीं किया गया है, तो वितरण-मुक्त परीक्षण अक्सर लागू करने के लिए लगभग आसान होते हैं और लगभग एक परीक्षण के कुशल होते हैं। इसलिए छोटे नमूने के आकार (10 से कम, संभव 30 तक) ब्रैडली वितरण-मुक्त परीक्षणों के लगभग नियमित अनुप्रयोग के पक्षधर हैं। बड़े नमूने के आकार के लिए, केंद्रीय सीमा प्रमेय में पैरामीट्रिक उल्लंघन का संकेत दिया जाता है कि नमूना माध्य और नमूना विचरण सामान्य हो जाएगा, और पैरामीट्रिक परीक्षण प्रभावकारिता के मामले में बेहतर हो सकते हैं।
  • अनुप्रयोग का दायरा: वितरण-मुक्त होकर, इस तरह के परीक्षण विशिष्ट वितरण को मानते हुए शास्त्रीय परीक्षणों की तुलना में आबादी के बहुत बड़े वर्ग पर लागू होते हैं।
  • निरंतर वितरण की धारणा के उल्लंघन की पहचान: वितरण-मुक्त परीक्षणों (उदाहरण के लिए बंधे हुए स्कोर का अस्तित्व) में आसान, पैरामीट्रिक परीक्षणों में कठिन।
  • एक निरंतर वितरण की धारणा के उल्लंघन का प्रभाव: यदि धारणा का उल्लंघन किया जाता है तो परीक्षण अक्षम हो जाता है। ब्रैडली ने यह समझाते हुए समय बिताया कि कैसे वितरण-मुक्त परीक्षणों के लिए अनुभवहीनता की सीमा का अनुमान लगाया जा सकता है, लेकिन शास्त्रीय परीक्षणों के लिए कोई नियमित दिनचर्या नहीं है।

1
प्रशस्ति पत्र के लिए धन्यवाद! ब्रैडली का काम काफी पुराना लग रहा है, इसलिए मुझे संदेह है कि आधुनिक सिमुलेशन अध्ययनों में दक्षता और तुलनात्मकताओं के प्रकार I / II की त्रुटि दर विभिन्न परिदृश्यों में बहुत अधिक नहीं है? मुझे इस बात में भी दिलचस्पी होगी कि वह ब्रूनर-मुन्जेल परीक्षणों के बारे में क्या सुझाव देता है - क्या उन्हें यू परीक्षण के बजाय उपयोग किया जाना चाहिए यदि दो समूहों में भिन्नताओं को समान नहीं जाना जाता है?
सिल्वर फिश

1
ब्रैडली क्षमता पर चर्चा करता है, हालांकि अधिकांश समय, यह विषम वैयक्तिक दक्षता के संदर्भ में है। वह कभी-कभी परिमित नमूना-आकार दक्षता के बारे में बयान के लिए स्रोत लाता है, लेकिन जैसा कि 1968 से काम है, मुझे यकीन है कि तब से बहुत बेहतर विश्लेषण किए गए हैं। जिसके बारे में बोलते हुए, अगर मेरे पास यह सही है, तो ब्रूनर और मुन्ज़ेल ने अपना लेख 2000 में लिखा , जो बताता है कि ब्रैडली में इसका कोई उल्लेख क्यों नहीं है।
अहरम नवम

हाँ, यह वास्तव में इसे समझाएगा! :) क्या आप जानते हैं कि क्या ब्रैडले की तुलना में अधिक तिथि तक सर्वेक्षण है?
सिल्वर फिश

एक संक्षिप्त खोज से पता चलता है कि गैर-पैरामीट्रिक आंकड़ों पर हाल ही में बहुत सारे ग्रंथ हैं। उदाहरण के लिए: Nonparametric सांख्यिकीय तरीके (हॉलैंडर एट अल, 2013), Nonparametric परिकल्पना परीक्षण: रैंक और अनुप्रयोग में आर (बोननी एट अल, 2014) के साथ क्रमचय विधियाँ, Nonparametric सांख्यिकीय इंजेक्शन, पांचवें संस्करण (गिबन्स और चक्रवर्ती, 2010)। कई अन्य हैं जो विभिन्न खोजों में आते हैं। जैसा कि मेरे पास कोई नहीं है, मैं कोई सिफारिश नहीं कर सकता। माफ़ करना।
अवराम

5

यह बहुत ही दिलचस्प सवाल का जवाब देने के लिए शुरू।

गैर-युग्मित डेटा के लिए:

मोर्टेन डब्ल्यू। फेजरलैंड, लेव सैंडविक ( पेवेल के पीछे) के असमान रूपांतरों के साथ तिरछे वितरण के लिए पांच दो-नमूना स्थान परीक्षणों का प्रदर्शन 5 अलग-अलग परीक्षणों (टी-परीक्षण, वेल्च यू, यूएन-वेल्च, विलकॉक्सन-मैन के साथ प्रयोगों की एक श्रृंखला करता है) -विटनी और ब्रूनर-मुन्जेल) नमूना आकार के विभिन्न संयोजनों के लिए, नमूना अनुपात, सामान्यता से प्रस्थान, और इसी तरह। सामान्य रूप से वेल्च यू का सुझाव देते हुए पेपर समाप्त होता है,

लेकिन कागज के परिशिष्ट ए नमूना आकार के प्रत्येक संयोजन के लिए परिणामों को सूचीबद्ध करता है। और छोटे नमूने के आकार के लिए (एम = 10 एन = 10 या 25) परिणाम अधिक भ्रामक हैं (जैसा कि अपेक्षित है) - परिणामों के मेरे अनुमान में (लेखक नहीं) वेल्च यू, ब्रूनर-मुन्ज़ेल समान रूप से अच्छा प्रदर्शन करते हैं, और टी परीक्षण भी अच्छी तरह से एम = 10 और एन = 10 मामले में।

यह मुझे अब तक पता है।

एक "तेज़" समाधान के लिए, मैं अनुसंधान परिणामों पर सांख्यिकी के प्रभाव के बढ़ते चिकित्सकों की जागरूकता का हवाला देता था : पैट्रिक ब्रिज और श्लोमो एस सविलोव्स्की द्वारा टी-टेस्ट और विलकॉक्सन रैंक-सम टेस्ट इन स्मॉल सैंपल एप्लाइड रिसर्च की तुलनात्मक शक्ति। (यह भी paywall पीछे) और Wilcoxon के लिए सीधे कोई बात नहीं नमूने का आकार है, लेकिन जाना चेतावनी एम्प्टर , उदाहरण के लिए हम हमेशा एक nonparametric परीक्षण जब दो जाहिरा तौर पर nonnormal वितरण की तुलना चुननी होगी? ईवा स्कोव्लंड और ग्राट यूफेनस्टा द्वारा

मुझे अभी तक युग्मित डेटा के लिए समान परिणाम नहीं मिले हैं


मैं प्रशंसा पत्र की सराहना करता हूं! स्पष्टीकरण के लिए, "वेल्च यू" को संदर्भित किया जा रहा है, वही परीक्षण जिसे "वेल्च टी" या "वेल्च-एस्पिन टी" के रूप में भी जाना जाता है (या जैसा कि मैंने शायद अनुचित तरीके से इसे प्रश्न में कहा गया है) "टी टेस्ट वेल्च सुधार के साथ" ?
सिल्वरफिश नोव

जहां तक ​​मैं कागज से समझता हूं, वेल्च यू सामान्य वेल्च-एस्पिन नहीं है - यह स्वतंत्रता की डिग्री के लिए वेल्च-स्टरथवेट समीकरण का उपयोग नहीं करता है, लेकिन एक सूत्र जिसमें घन और नमूने के वर्ग का अंतर होता है। आकार।
जैक्स वेनर

क्या यह अभी भी एक टी-टेस्ट है, इसके नाम के बावजूद? हर जगह मैं "वेल्च यू" खोजता हूं, मुझे लगता है कि यह वेल्च-एस्पिन का जिक्र है, जो निराशाजनक है।
सिल्वर फिश

3

निम्नलिखित कड़ियों को ध्यान में रखते हुए:

क्या सामान्यता परीक्षण 'अनिवार्य रूप से बेकार' है?

डेटा की सामान्यता निर्धारित करने के लिए आवश्यकता और सर्वोत्तम तरीका

चीजों को सरल बनाने के लिए, चूंकि गैर-पैरामीट्रिक परीक्षण सामान्य डेटा के लिए यथोचित रूप से अच्छे हैं, इसलिए उन्हें हमेशा छोटे नमूनों के लिए उपयोग न करें।


1

गामा आबादी के साधनों के अंतर का अनुकरण

टी-टेस्ट और मैन व्हिटनी टेस्ट की तुलना करना

परिणाम का सारांश

  • जब दो आबादी का विचरण एक समान होता है, तो मैन व्हिटनी परीक्षण में अधिक सच्ची शक्ति होती है, लेकिन टी-परीक्षण की तुलना में अधिक वास्तविक टाइप 1 त्रुटि भी होती है।
  • H0
  • जब दो आबादी का विचरण अलग-अलग होता है, तो मान व्हिटनी परीक्षण बड़ी टाइप 1 त्रुटि की ओर जाता है, भले ही साधन समान हों। यह मान व्हिटनी के वितरण में अंतर के लिए परीक्षण के बाद से अपेक्षित है, न कि साधनों में।
  • टी परीक्षण विचरण में अंतर के लिए मजबूत है लेकिन समान साधन है

प्रयोग 1) विभिन्न साधन, एक ही प्रकार

θ

  • X1k=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2k=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

X1X2X1X2

d=(.85.5)/.5=0.5

p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

P(reject|H0)P(reject|H1)H0H1

सूत्रों का कहना है:

जनसंख्या वितरण

यहाँ छवि विवरण दर्ज करें

अनुकरण परिणाम

यहाँ छवि विवरण दर्ज करें

विचार-विमर्श

  • N=10
  • सभी नमूना आकारों के लिए, मान व्हिटनी परीक्षण में टी-परीक्षण की तुलना में अधिक शक्ति है, और कुछ मामलों में 2 के कारक द्वारा
  • सभी नमूनों के आकार के लिए, मैन व्हिटनी परीक्षण में अधिक त्रुटि आई टाइप की है, और यह एक कारक या 2 - 3 से है
  • टी-परीक्षण में छोटे नमूने के आकार के लिए कम शक्ति है

चर्चा : जब दो आबादी का विचरण वास्तव में एक जैसा होता है, मान व्हिटनी परीक्षण छोटे नमूने के आकार के लिए शक्ति के संदर्भ में टी-टेस्ट को बहुत बेहतर बनाता है, लेकिन इसकी उच्च टाइप 1 त्रुटि दर होती है


प्रयोग 2: भिन्न भिन्न, समान माध्य

  • X1k=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2k=0.25θ=2 E[X2]=.5Var[X2]=1

H1Var[X1]=Var[X2]Var[X1]Var[X2]

सिमुलेशन से चर्चा के परिणाम बताते हैं कि अलग-अलग विचलन के लिए टी-टेस्ट बहुत मजबूत है, और प्रकार मैं त्रुटि सभी नमूना आकारों के लिए 5% के करीब है। जैसा कि अपेक्षित था, मान व्हिटनी परीक्षण इस मामले में खराब प्रदर्शन करता है क्योंकि यह साधनों में अंतर के लिए परीक्षण नहीं कर रहा है, लेकिन वितरण में अंतर के लिए

यहाँ छवि विवरण दर्ज करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.