दो समूहों के बीच अंतर के लिए परीक्षण कैसे करें जब डेटा सामान्य रूप से वितरित नहीं किया जाता है?


19

मैं सभी जैविक विवरणों और प्रयोगों को समाप्त करूँगा और केवल समस्या को हल करूँगा और जो मैंने सांख्यिकीय रूप से किया है। मैं जानना चाहूंगा कि क्या यह सही है, और यदि नहीं, तो कैसे आगे बढ़ें। यदि डेटा (या मेरी व्याख्या) पर्याप्त स्पष्ट नहीं है, तो मैं संपादन करके बेहतर व्याख्या करने का प्रयास करूंगा।

मान लीजिए कि मेरे दो समूह / अवलोकन हैं, X और Y, आकार और । मैं जानना चाहूंगा कि क्या इन दोनों टिप्पणियों के साधन समान हैं। मेरा पहला सवाल है:एनएक्स=215एनy=40

  1. यदि धारणाएं संतुष्ट हैं, तो क्या यहां पैरामीट्रिक दो-नमूना टी-परीक्षण का उपयोग करना प्रासंगिक है? मैं यह पूछता हूं क्योंकि मेरी समझ से इसका आकार आमतौर पर लागू होता है जब आकार छोटा होता है?

  2. मैंने एक्स और वाई दोनों के हिस्टोग्राम लगाए और उन्हें सामान्य रूप से वितरित नहीं किया गया, दो-नमूना टी-टेस्ट की मान्यताओं में से एक। मेरा भ्रम यह है कि, मैं उन्हें दो आबादी मानता हूं और इसीलिए मैंने सामान्य वितरण के लिए जाँच की। लेकिन फिर मैं टू-सेमपल टी-टेस्ट करने वाला हूं ... क्या यह सही है?

  3. केंद्रीय सीमा प्रमेय से, मैं समझता हूं कि यदि आप कई बार (अपनी जनसंख्या के आकार के आधार पर पुनरावृत्ति के साथ) नमूनाकरण करते हैं (प्रत्येक बार नमूनों के औसत की गणना करते हैं, तो यह लगभग सामान्य रूप से वितरित किया जाएगा। और, इस यादृच्छिक चर का मतलब जनसंख्या के माध्य का एक अच्छा अनुमान होगा। तो, मैंने एक्स और वाई दोनों पर ऐसा करने का फैसला किया, 1000 बार, और नमूने प्राप्त किए, और मैंने प्रत्येक नमूने के माध्यम से एक यादृच्छिक चर सौंपा। भूखंड बहुत अधिक सामान्य रूप से वितरित किया गया था। X और Y का माध्य 4.2 और 15.8 था (जो जनसंख्या + - 0.15 के समान थे) और विचरण 0.95 और 12.11 था।
    मैंने इन दो अवलोकनों (प्रत्येक में 1000 डेटा अंक) पर असमान रूपांतरों के साथ एक टी-परीक्षण किया, क्योंकि वे बहुत अलग हैं (0.95 और 12.11)। और शून्य परिकल्पना को खारिज कर दिया गया था।
    क्या यह बिल्कुल समझ में आता है? क्या यह सही / सार्थक दृष्टिकोण है या दो-नमूना z- परीक्षण पर्याप्त है या पूरी तरह से गलत है?

  4. मैंने यह भी सुनिश्चित करने के लिए एक गैर-पैरामीट्रिक विलकॉक्सन परीक्षण किया (मूल एक्स और वाई पर) और नल की परिकल्पना को स्पष्ट रूप से वहां भी अस्वीकार कर दिया गया था। इस घटना में कि मेरी पिछली पद्धति बिलकुल गलत थी, मुझे लगता है कि गैर-पैरामीट्रिक परीक्षण करना अच्छा है, सिवाय सांख्यिकीय शक्ति के?

दोनों मामलों में, साधन काफी अलग थे। हालाँकि, मैं जानना चाहूंगा कि क्या दोनों या दोनों दृष्टिकोण गलत हैं / पूरी तरह से गलत हैं और यदि हां, तो विकल्प क्या है?

जवाबों:


21

टी-टेस्ट केवल छोटे नमूनों के लिए एक ऐतिहासिक पकड़ है। हां यह मूल रूप से छोटे नमूनों के लिए विकसित किया गया था, लेकिन सिद्धांत में ऐसा कुछ भी नहीं है जो छोटे से बड़े को अलग करता है। आँकड़ों को करने से पहले कंप्यूटरों के दिनों में टी-टेबल अक्सर केवल स्वतंत्रता के लगभग 30 डिग्री तक चले गए थे और सामान्य का उपयोग टी वितरण के एक करीबी सन्निकटन के रूप में किया गया था। यह टी-टेबल के आकार को उचित रखने के लिए सुविधा के लिए था। अब कंप्यूटरों के साथ हम किसी भी नमूने के आकार के लिए टी-परीक्षण कर सकते हैं (हालांकि बहुत बड़े नमूनों के लिए जेड-टेस्ट और टी-टेस्ट के परिणामों के बीच का अंतर बहुत छोटा है)। अगर मुख्य मानक विचलन (बहुत दुर्लभ) ज्ञात हैं तो मानक विचलन और जेड-परीक्षण का अनुमान लगाने के लिए नमूना का उपयोग करते समय मुख्य विचार एक टी-परीक्षण का उपयोग करना है।

केंद्रीय सीमा प्रमेय हमें सामान्य सिद्धांत अनुमान (इस मामले में टी-परीक्षण) का उपयोग करने की अनुमति देता है, भले ही जनसंख्या सामान्य रूप से तब तक वितरित न हो जब तक कि नमूना आकार काफी बड़ा न हो। इसका मतलब यह है कि आपका परीक्षण अनुमानित है (लेकिन आपके नमूना आकारों के साथ, विनियोग बहुत अच्छा होना चाहिए)।

विलकॉक्सन परीक्षण साधनों का परीक्षण नहीं है (जब तक कि आप नहीं जानते कि आबादी पूरी तरह से सममित है और अन्य संभावनाएं नहीं हैं)। यदि साधन रुचि के मुख्य बिंदु हैं तो टी-टेस्ट शायद उद्धृत करने के लिए बेहतर है।

यह देखते हुए कि आपके मानक विचलन इतने भिन्न हैं, और आकार गैर-सामान्य हैं और संभवतः एक-दूसरे से भिन्न हैं, साधनों में अंतर यहां पर होने वाली सबसे दिलचस्प बात नहीं हो सकती है। विज्ञान के बारे में सोचें और आप अपने परिणामों के साथ क्या करना चाहते हैं। क्या निर्णय जनसंख्या स्तर या व्यक्तिगत स्तर पर किए जा रहे हैं? इस उदाहरण के बारे में सोचें: आप किसी दिए गए रोग के लिए 2 दवाओं की तुलना कर रहे हैं, दवा पर एक आधा नमूना तुरंत मर गया, लगभग आधा एक सप्ताह में बरामद हुआ; दवा बी पर सभी बच गए और बरामद हुए, लेकिन ठीक होने का समय एक सप्ताह से अधिक था। इस मामले में क्या आप वास्तव में इस बात की परवाह करेंगे कि रिकवरी का समय कम था? या ए में आधे मरने की जगह लेने के साथ बस ठीक होने में लंबा समय लगता है (बी समूह में किसी की तुलना में लंबे समय तक)।


धन्यवाद ग्रेग। मुझे लगता है कि वहाँ प्रक्रिया के साथ कुछ भी गलत नहीं है se? मैं समझता हूं कि मैं सही सवाल नहीं पूछ रहा हूं, लेकिन मेरी चिंता सांख्यिकीय परीक्षण / प्रक्रिया के बारे में समान है और खुद को दो नमूने दिए गए हैं। अगर मैं सही सवाल पूछ रहा हूँ और किसी भी सवाल के साथ वापस आऊंगा, तो मैं जाँच करूँगा। शायद अगर मैं जैविक समस्या की व्याख्या करता हूं, तो यह अधिक सुझावों के साथ मदद करेगा। एक बार फिर धन्यवाद।
अरुण

5

ग्रेग के पहले से ही बहुत व्यापक जवाब के अलावा एक।

अगर मैं आपको सही तरीके से समझता हूं, तो आपकी बात 3 में निम्नलिखित प्रक्रिया है:

  • वितरण नमूनों का निरीक्षण करें ।nएक्स
  • फिर, उन मानों का ड्रा करें और उनके माध्य की गणना करें।n
  • इस 1000 बार दोहराएं, संबंधित साधनों को सहेजें
  • अंत में, उन साधनों के माध्य की गणना करें और मान लें कि का माध्य इस तरह संकलित माध्य के बराबर है।एक्स

अब आपकी धारणा यह है कि इस मतलब के लिए केंद्रीय सीमा प्रमेय रखती है और इसी यादृच्छिक चर को सामान्य रूप से वितरित किया जाएगा।

हो सकता है कि त्रुटि की पहचान करने के लिए अपने गणना के पीछे के गणित पर एक नज़र डालते हैं:

हम आपके , या, सांख्यिकीय शब्दावली में, आपके पास । अब, हम आकार नमूने बनाते हैं और उनके माध्य की गणना करते हैं। उन साधनों की मई के इस तरह किसी भी तरह दिखता है:एक्स एक्स1,...,एक्सnएक्स1,...,एक्सn~एक्स

Y=1Σमैं=1एक्सμमैं

जहाँ 1 और बीच के मान को दर्शाता है जो ड्रा पर खींचा गया है । उन सभी साधनों के माध्य की गणना इस प्रकार होती हैμमैंnमैं

11000Σ=110001Σमैं=1एक्सμमैं

आपको सटीक गणितीय शब्दावली से अलग करने के लिए बस इस राशि पर एक नज़र डालें। क्या होता है कि को योग में कई बार जोड़ा जाता है। सभी के सभी, आप संख्या जोड़ते हैं और उन्हें विभाजित करते हैं । वास्तव में, आप यादृच्छिक भार के साथ का एक भारित मतलब गणना कर रहे हैं ।एक्समैं10001000एक्समैं

अब, हालांकि, केंद्रीय सीमा प्रमेय में कहा गया है कि बहुत सारे स्वतंत्र यादृच्छिक चर का योग लगभग सामान्य है। (जिसके परिणामस्वरूप औसत लगभग सामान्य होता है)।

आपके योग से ऊपर स्वतंत्र नमूने नहीं बनते हैं। आपके पास शायद यादृच्छिक वजन है, लेकिन यह आपके नमूनों को स्वतंत्र नहीं बनाता है। इस प्रकार, 3 में लिखी गई प्रक्रिया कानूनी नहीं है।

हालांकि, जैसा कि ग्रेग ने पहले ही कहा था, अपने मूल डेटा पर -est का उपयोग करना लगभग सही हो सकता है - यदि आप वास्तव में इस अर्थ में रुचि रखते हैं।टी


धन्यवाद। ऐसा लगता है कि टी-टेस्ट पहले से ही सीएलटी का उपयोग करके समस्या का ध्यान रखता है (जीजीआर के उत्तर से जिसे मैंने अनदेखा कर दिया था)। उस ओर इशारा करने के लिए धन्यवाद और 3 की स्पष्ट व्याख्या के लिए) जो कि मैं वास्तव में जानना चाहता था। मुझे इन अवधारणाओं को समझने के लिए अधिक समय का निवेश करना होगा।
अरुण

2
ध्यान रखें कि सीएलटी हाथ में वितरण के आधार पर अलग-अलग तरह से अच्छा प्रदर्शन करता है (या, इससे भी बदतर, अपेक्षित मूल्य या वितरण का विचलन मौजूद नहीं है - फिर सीएलटी भी मान्य नहीं है)। यदि संदेह में, यह हमेशा वितरण के लिए एक अच्छा विचार है जो आपके द्वारा देखे गए के समान दिखता है और फिर इस वितरण का उपयोग करके कुछ सौ बार अपने परीक्षण का अनुकरण करें। आपको सन्निकटन सीएलटी आपूर्ति की गुणवत्ता पर एक भावना मिलेगी।
थिलो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.