-est और -est के बीच चुनना


20

पृष्ठभूमि: मैं परिकल्पना परीक्षण पर काम करने वाले सहयोगियों को एक प्रस्तुति दे रहा हूं, और इसमें से अधिकांश को ठीक समझता हूं, लेकिन एक पहलू यह है कि मैं खुद को गांठ बांध रहा हूं और साथ ही दूसरों को समझाने की कोशिश कर रहा हूं।

यह वही है जो मुझे लगता है कि मुझे पता है (कृपया गलत होने पर सही करें!)

  • ऐसे आंकड़े जो सामान्य होंगे यदि विचरण ज्ञात था, यदि विचलन अज्ञात है तो -distribution का अनुसरण करेंt
  • CLT (केंद्रीय सीमा प्रमेय): नमूना माध्य का नमूना वितरण पर्याप्त रूप से बड़े लिए लगभग सामान्य है ( हो सकता है, अत्यधिक तिरछा वितरण के लिए तक हो सकता है )30 300n30300
  • -distribution स्वतंत्रता की डिग्री के लिए सामान्य माना जा सकता है> 30t>30

आप -est का उपयोग करते हैं यदि:z

  1. ज्ञात सामान्य और भिन्नता (किसी भी नमूना आकार के लिए)
  2. जनसंख्या सामान्य, विचरण अज्ञात और (CLT के कारण)n>30
  3. जनसंख्या द्विपद, ,n q > 10np>10nq>10

आप -est का उपयोग करते हैं यदि:t

  1. जनसंख्या सामान्य, विचरण अज्ञात औरn<30
  2. जनसंख्या या भिन्नता और बारे में कोई जानकारी नहीं है , लेकिन नमूना डेटा सामान्य / पास परीक्षण आदि दिखता है, इसलिए जनसंख्या को सामान्य माना जा सकता हैn<30

तो मैं साथ रह गया:

  • नमूने के लिए और (?), ज्ञात और अज्ञात जनसंख्या के बारे में कोई ज्ञान नहीं।< 300>30<≈300

तो मेरे सवाल हैं:

  1. नमूना आकार पर आप क्या मान सकते हैं (जहां जनसंख्या वितरण या भिन्नता के बारे में कोई ज्ञान नहीं है) कि नमूना वितरण गैर-सामान्य होने पर माध्य का नमूना वितरण सामान्य होता है (यानी सीएलटी ने लात मारी है)? मुझे पता है कि कुछ वितरणों को आवश्यकता होती है , लेकिन कुछ संसाधनों का कहना है कि जब भी उपयोग करें तो -est का उपयोग करें ...z n > 30n>300zn>30

  2. जिन मामलों के बारे में मैं अनिश्चित हूं, मुझे लगता है कि मैं सामान्यता के डेटा को देखता हूं। अब, यदि नमूना डेटा सामान्य दिखता है तो क्या मैं -est का उपयोग करता हूं (क्योंकि जनसंख्या सामान्य मानती है, और बाद से )?n > 30zn>30

  3. उन मामलों के बारे में जहां मैं अनिश्चित हूं, उन मामलों के लिए नमूना डेटा सामान्य नहीं दिखता है? क्या ऐसी कोई परिस्थितियाँ हैं जहाँ आप अभी भी एक -est या -est का उपयोग करते हैं या क्या आप हमेशा गैर-पैरामीट्रिक परीक्षणों को रूपांतरित / उपयोग करते हैं? मुझे पता है कि, CLT के कारण, के कुछ मूल्य पर , माध्य के सैंपल वितरण सामान्य रूप से अनुमानित होंगे, लेकिन नमूना डेटा मुझे यह नहीं बताएगा कि का वह मान क्या है; नमूना डेटा गैर-सामान्य हो सकता है जबकि नमूना का मतलब सामान्य / अनुसरण करता है । क्या ऐसे मामले हैं जहां आप एक गैर-पैरामीट्रिक परीक्षण का उपयोग कर रहे हैं / उपयोग कर रहे हैं जब वास्तव में माध्य का नमूना वितरण सामान्य / लेकिन आप नहीं बताएंगे? z n n t ttznntt


4
" अत्यधिक तिरछे वितरण के लिए 300 तक हो सकता है " ... कुछ मामलों में, यह बहुत अधिक की एक बिल्ली हो सकता है; या यह कभी नहीं हो सकता है। कोई भी चुनें , और मैं आपको एक मामला दिखाऊँगा जहाँ यह पर्याप्त नहीं है। n
Glen_b -Reinstate Monica

धन्यवाद Glen_b - तो हमेशा नमूना डेटा की जाँच करें पैरामीट्रिक का उपयोग करने के लिए सामान्य लग रहा है?
हट्टी

@ हट्टी नप! जब डेटा गैर-सामान्य दिखाई देता है तो टी-परीक्षण मान्य होता है।
एडमो

जवाबों:


24

@ अदमो सही है, आप हमेशा - test का उपयोग करते हैं यदि आपको जनसंख्या मानक विचलन-प्राथमिकता नहीं पता है। -est में कब स्विच करना है, इसके बारे में आपको चिंता करने की ज़रूरत नहीं है , क्योंकि -distribution आपके लिए 'स्विच' करता है। विशेष रूप से, -distribution converges सामान्य करने के लिए, इस प्रकार यह हर पर उपयोग करने के लिए सही वितरण है । tzttN

पर पारंपरिक रेखा के अर्थ के बारे में भी यहाँ एक भ्रम है । दो प्रकार के अभिसरण हैं जिनके बारे में लोग बात करते हैं: N=30

  1. पहला यह है कि नमूना परीक्षण आंकड़ा (यानी, का वितरण है के रूप में एक सामान्य वितरण के लिए) सामान्य रूप से वितरित (समूह के भीतर) से गणना की कच्चे डेटा और converges तथ्य के बावजूद कि एसडी डेटा से अनुमान लगाया गया है। ( -distribution आपके लिए इस बात का ध्यान रखता है, जैसा कि ऊपर उल्लेख किया गया है।) tNt
  2. दूसरा यह है कि गैर-सामान्य रूप से वितरित (समूह के भीतर) कच्चे डेटा के माध्य का नमूना वितरण एक सामान्य वितरण (ऊपर से धीरे-धीरे) के रूप में रूप में परिवर्तित हो जाता है । लोग उनके लिए इस बात का ध्यान रखने के लिए केंद्रीय सीमा प्रमेय पर भरोसा करते हैं। हालांकि, इस बात की कोई गारंटी नहीं है कि यह किसी भी उचित नमूने के आकार में परिवर्तित हो जाएगा - निश्चित रूप से (या ) को जादू की संख्या मानने का कोई कारण नहीं है। गैर-सामान्यता के परिमाण और प्रकृति के आधार पर, इसमें बहुत लंबा समय लग सकता है (cf. @ Macro's answer here: प्रतिगमन जब OLS अवशिष्ट सामान्य रूप से वितरित नहीं होते हैंN30 300 यू यू टी30300)। यदि आप मानते हैं कि आपके (समूह के भीतर) कच्चे डेटा बहुत सामान्य नहीं हैं, तो एक अलग प्रकार के परीक्षण का उपयोग करना बेहतर हो सकता है, जैसे कि मैन-व्हिटनी -टेस्टU । ध्यान दें कि गैर-सामान्य डेटा के साथ, मान-व्हिटनी -टेस्ट -टेस्ट की तुलना में अधिक शक्तिशाली होने की संभावना है , और ऐसा तब भी हो सकता है जब सीएलटी ने किक किया हो। (यह भी सामान्य रूप से परीक्षण के लिए इंगित करने के लायक है। संभव है कि आप भटक नेतृत्व करने के लिए है, देखें: सामान्य परीक्षण 'अनिवार्य रूप से बेकार' है? )Ut

किसी भी दर पर, आपके प्रश्नों का उत्तर देने के लिए और अधिक स्पष्ट रूप से, यदि आपको लगता है कि आपके (समूह के भीतर) कच्चे डेटा को सामान्य रूप से वितरित नहीं किया गया है, तो मान-व्हिटनी -टेस्ट का उपयोग करें ; यदि आपको लगता है कि आप डेटा सामान्य रूप से वितरित कर रहे हैं, लेकिन आप SD-प्राथमिकताओं को नहीं जानते हैं, -est का उपयोग करें ; और यदि आपको लगता है कि आपका डेटा सामान्य रूप से वितरित किया गया है और आप एसडी-प्राथमिकता को जानते हैं, तो -est का उपयोग करें । Utz

यहाँ पर आपको ग्रेग्वेन के हालिया उत्तर को पढ़ने में मदद मिल सकती है: इन मुद्दों के संबंध में आर में दो छोटे समूहों के बीच अनुपात की तुलना में पी-मान की व्याख्या


धन्यवाद, यह वास्तव में मददगार था, मुझे पता था कि मैं इसे अधिक जटिल बना रहा हूं क्योंकि बड़े एन के लिए टी-टेस्ट सामान्य है। इतनी सख्ती से बोलना, भले ही n 1000 था टी-टेस्ट का इस्तेमाल किया जाना चाहिए अगर एसडी को प्राथमिकता नहीं पता है?
हत्ती

आपका स्वागत है। कड़ाई से बोलना, हाँ , लेकिन ध्यान दें कि उस बिंदु पर distribution और सामान्य वितरण के बीच का अंतर बताना बहुत मुश्किल होगा । t
गूँज - मोनिका

हाँ बिलकुल। क्षमा करें कि यह बहुत कठिन है, बस यह सोचने की कोशिश करना मुश्किल है कि इसे दूसरों को काफी काले और सफेद तरीके से कैसे समझाया जाए। आपकी मदद के लिए धन्यवाद!
हत्ती

यह भी ध्यान दें कि टी-टेस्ट के परिणामों की गणना आजकल के अतिरिक्त कम्प्यूटेशनल लागत के बिना सभी इरादों और उद्देश्यों के लिए है। अब हम कुछ कागज़ तालिकाओं में परीक्षण आँकड़ों को नहीं देख रहे हैं जो सभी मामलों को कवर नहीं कर सकते, हम सिर्फ कंप्यूटर से पूछ रहे हैं। तो, क्यों परेशान और चिंता करें कि क्या आप शायद जेड-टेस्ट का उपयोग करके समान परिणाम प्राप्त कर सकते हैं?
ब्योर्न

11

t

ttz

tz

zt


साधनों में अंतर के एक गैर-परीक्षणात्मक परीक्षण के लिए हमेशा एक टी-टेस्ट का उपयोग करें .. आपका मतलब पैरामीट्रिक है न?
जेवियर बोरेट सिसिलोट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.