यदि नमूना आकार छोटा है, तो क्या मुझे टी-टेस्ट के महत्वपूर्ण परिणाम पर भरोसा कर सकता हूं?


17

यदि मेरा एक तरफा टी-परीक्षण परिणाम महत्वपूर्ण है, लेकिन नमूना आकार छोटा है (उदाहरण के लिए 20 या उससे नीचे), तो क्या मैं अभी भी इस परिणाम पर भरोसा कर सकता हूं? यदि नहीं, तो मुझे इस परिणाम का सौदा और / या व्याख्या कैसे करनी चाहिए?



8
बस एक टिप्पणी, मैं नीचे अद्भुत टिप्पणियों में जोड़ना नहीं चाहता; आप एक टी-टेस्ट के परिणाम पर भरोसा नहीं करते हैं, आप प्रक्रिया पर भरोसा करते हैं। एक व्यक्तिगत परिणाम सही या गलत है, लेकिन आगे की जांच के बिना, आपको कभी पता नहीं चलेगा कि कौन सा है। फिशर की कार्यप्रणाली या पियरसन और नेमन की कार्यप्रणाली में से एक का परीक्षण विश्वसनीय है यदि मान्यताओं को पूरा किया जाता है। यदि आप सेट करते हैं, तो यह आपको धोखा देगा, अनंत पुनरावृत्ति पर, 5% से अधिक नहीं, संभवतः काफी कम। आपको जो प्रश्न पूछना चाहिए वह है "क्या मान्यताएँ पूरी हुई हैं?" α<.05
डेव हैरिस

जवाबों:


15

सिद्धांत रूप में, यदि टी-टेस्ट की सभी धारणाएं सच हैं, तो एक छोटे नमूने के आकार के साथ कोई समस्या नहीं है।

व्यवहार में, कुछ नहीं-काफी-सही धारणाएं हैं जो हम बड़े नमूना आकारों के साथ दूर कर सकते हैं लेकिन वे छोटे नमूना आकार के लिए समस्याएं पैदा कर सकते हैं। क्या आप जानते हैं कि यदि अंतर्निहित वितरण सामान्य रूप से वितरित किया जाता है? क्या सभी नमूने स्वतंत्र और समान रूप से वितरित किए गए हैं?

यदि आप परीक्षण की वैधता पर संदेह करते हैं तो एक विकल्प जिसे आप बूटस्ट्रैपिंग का उपयोग कर सकते हैं। बूटस्ट्रैपिंग में आपके नमूने से पुन: नमूना लेना शामिल है, ताकि यह देखा जा सके कि कितनी बार अशक्त परिकल्पना सही या गलत है। शायद आपकी अशक्त परिकल्पना और आपका पी-मान 0.05 है, लेकिन बूटस्ट्रैपिंग से पता चलता है कि नमूना का मतलब शून्य से 10% कम है। यह इंगित करेगा कि यह एक अस्थायी था जिसने 0.05 का पी-मूल्य पैदा किया और आपको कम विश्वास होना चाहिए कि अशक्त परिकल्पना झूठी है।μ<0


1
उदाहरण के लिए, यदि आप जानते हैं कि अंतर्निहित वितरण मोटे तौर पर एक सामान्य वितरण है और आपके सभी 10 नमूने एक विशेष मूल्य से कम हैं, तो स्पष्ट रूप से जनसंख्या की बाधाओं का मतलब है कि मूल्य 2 ^ 10 में सबसे अधिक है, या एक हजार में एक। यह स्पष्ट रूप से 1 से 2 ^ 10 मौका है कि सामान्य रूप से वितरित आबादी के सभी दस नमूने मीन के एक ही तरफ होंगे। समस्या यह होगी कि आपको भरोसेमंद परिणाम मिलेंगे, लेकिन वे बहुत कमजोर होंगे - जैसे "औसत वयस्क पुरुष की ऊंचाई लगभग निश्चित रूप से 5 और 7 फीट के बीच है"।
डेविड श्वार्ट्ज

स्पष्टीकरण और वैकल्पिक दृष्टिकोण के लिए बहुत बहुत धन्यवाद। मैं वास्तव में उनकी सराहना करता हूं! बहुत धन्यवाद!
एरिक

मुझे आपका बूटस्ट्रैपिंग सुझाव नहीं मिला। यदि आप सैंपल से रिस्पॉन्स करते हैं (जिसमें p <0.05 है) तो आप बूटस्ट्रैप के अधिकांश रिजल्ट्स की उम्मीद करेंगे कि उनका रिजल्ट लगभग 95% न होकर 5 या 10% हो। क्या आप कृपया विस्तार से बता सकते हैं? Cc से @Eric।
अमीबा का कहना है कि मोनिका

3
अधिक सामान्य टिप्पणी के रूप में, बूटस्ट्रैप बड़े नमूनों में अच्छी तरह से काम करता है लेकिन छोटे नमूनों के साथ कवरेज नाममात्र से काफी भिन्न हो सकती है। इसके अलावा, बहुत कम नमूना आकार के साथ, शक्ति कम है। इसलिए यह जरूरी नहीं है कि एक "बूटस्ट्रैप टेस्ट" हमेशा टी-टेस्ट से बेहतर होता है।
अमीबा का कहना है कि मोनिका

3
@amoeba मुझे वास्तव में आपकी सुधार की शैली पसंद है। आपने मुझे यह नहीं बताया कि सही / गलत क्या था, आपने मेरे विचारों का एक अजीब परिणाम बताया और मुझे अपना उत्तर बताने और मेरी गलती का स्रोत समझने में मदद की। तो इसके लिए आपका शुक्रिया! अतीत में व्हीबर ने मेरे साथ भी ऐसा किया है
ह्यूग

21

आपको किसी एक महत्वपूर्ण परिणाम पर शायद ही भरोसा करना चाहिए। आपने यह नहीं कहा कि आप दो-पूंछ वाले परीक्षण के बजाय एक-पूंछ का उपयोग क्यों कर रहे थे, इसलिए उम्मीद है कि आपके पास सांख्यिकीय रूप से महत्वपूर्ण परिणाम का दावा करने में सक्षम होने के लिए संघर्ष करने के अलावा ऐसा करने का एक अच्छा कारण है!

उस तरफ स्थापित करना, पी से निम्नलिखित पर विचार करें। सौरो, जे।, और लुईस, जेआर (2016) के 261। उपयोगकर्ता अनुभव की मात्रा: उपयोगकर्ता अनुसंधान के लिए व्यावहारिक सांख्यिकी, 2 एड .. कैम्ब्रिज, एमए: मॉर्गन-कॉफमैन।


रोनाल्ड फिशर ने पी-वैल्यू का उपयोग करने की सिफारिश कैसे की

जब कार्ल पियर्सन आँकड़ों के भव्य बूढ़े थे और रोनाल्ड फिशर एक रिश्तेदार नवागंतुक, पियर्सन थे, जो स्पष्ट रूप से फिशर के विचारों और गणितीय क्षमता से खतरे में थे, ने फिशर को समय की प्रमुख सांख्यिकीय पत्रिकाओं में प्रकाशित होने से रोकने के लिए अपने प्रभाव का इस्तेमाल किया, बायोमेट्रिक और जर्नल रॉयल स्टेटिस्टिकल सोसायटी का। नतीजतन, फिशर ने कृषि और मौसम संबंधी पत्रिकाओं जैसे कई अन्य स्थानों में अपने विचारों को प्रकाशित किया, जिसमें मनोवैज्ञानिक अनुसंधान के लिए सोसायटी की कार्यवाही के लिए कई पत्र शामिल थे। यह इस बाद की पत्रिका के लिए एक पत्र में था कि उन्होंने उस सेटिंग के उल्लेख का उल्लेख किया जिसे अब हम स्वीकार्य टाइप I त्रुटि (अल्फा) को 0.05 कहते हैं और, गंभीर रूप से, एक अप्रत्याशित महत्वपूर्ण परिणाम का सामना करते समय प्रतिलिपि प्रस्तुत करने के महत्व का भी उल्लेख किया है।

एक अवलोकन को महत्वपूर्ण माना जाता है, अगर यह शायद ही कभी उत्पादित किया गया हो, जिस तरह की वास्तविक मांग के अभाव में हम चाहते हैं। किसी परिणाम को आंकने के लिए यह एक आम बात है, अगर यह ऐसी परिमाण की है कि इसे बीस परीक्षणों में एक से अधिक बार संयोग से उत्पन्न नहीं किया गया है। यह व्यावहारिक अन्वेषक के लिए एक मनमाना, लेकिन सुविधाजनक, महत्व का स्तर है, लेकिन इसका मतलब यह नहीं है कि वह हर बीस प्रयोगों में एक बार खुद को धोखा देने की अनुमति देता है। महत्व की परीक्षा ही उसे बताती है कि क्या उपेक्षा करना, अर्थात्, सभी प्रयोग जिसमें महत्वपूर्ण परिणाम प्राप्त नहीं होते हैं। उसे केवल यह दावा करना चाहिए कि एक घटना प्रयोगात्मक रूप से प्रदर्शन योग्य है जब वह जानता है कि एक प्रयोग कैसे करना है ताकि यह एक महत्वपूर्ण परिणाम देने में शायद ही कभी विफल हो। इसके फलस्वरूप, पृथक महत्वपूर्ण परिणाम जिन्हें वह नहीं जानता कि कैसे पुन: पेश किया जा सकता है, आगे की जांच के लिए निलंबित कर दिया गया है। (फिशर, 1929, पी। 191)

संदर्भ

फिशर, आरए (1929)। मनोवैज्ञानिक अनुसंधान में सांख्यिकीय विधि। मनोवैज्ञानिक अनुसंधान के लिए सोसायटी की कार्यवाही, 39, 189-192।


2
फिशर ने द एनल्स ऑफ यूजनिक्स में अधिकतम संभावना अनुमान के साथ कई महत्वपूर्ण पत्र भी प्रकाशित किए। कार्ल पियर्सन द्वारा उपयोग किए जाने वाले क्षणों की विधि की तुलना में उनकी विधि अक्सर बेहतर थी। फिशर ने अपने तरीके को फिड्यूशियल इनविक्शन कहा। इसे बाद में जेरज़ी नेमन और एगॉन पियर्सन (कार्ल पियर्सन के बेटे) द्वारा औपचारिक रूप दिया गया।
बजे माइकल आर। चेरिक

3
नेमन और पियर्सन ने फिशर के फिड्यूशियल इंट्रेंस को औपचारिक रूप नहीं दिया। उन्होंने एक वैकल्पिक तरीका विकसित किया।
माइकल ल्यू -

5
फिशर के दिन में, "महत्वपूर्ण" का अर्थ था कि यह किसी चीज़ को दर्शाता है, न कि यह कि यह महत्वपूर्ण है।
डेविड लेन

1
अत्यधिक विस्तृत जानकारी के लिए आपका बहुत-बहुत धन्यवाद! यह वास्तव में मुझे बहुत मदद करता है!
एरिक

16

अपने आप को एक ऐसी स्थिति में होने की कल्पना करें जहां आप कई समान परीक्षण कर रहे हैं, ऐसी परिस्थितियों में जहां कुछ अंश शून्य हैं।

टी

(1-β)β

nn

आपके अस्वीकारों का क्या अनुपात "सही" होगा?

nटीα+n(1-टी)(1-β)
n(1-टी)(1-β)

(1-टी)(1-β)टीα+(1-टी)(1-β)

टीαटीα+(1-टी)(1-β)

(1-टी)(1-β)«टीα

1-βα

इसलिए जब आपका नमूना आकार छोटा होता है (और इसलिए शक्ति कम होती है), यदि हमारे नल का एक उचित अंश सत्य था, तो हम अस्वीकार करने पर अक्सर त्रुटि कर रहे होंगे।

स्थिति बहुत बेहतर नहीं है अगर हमारे लगभग सभी नल सख्ती से झूठे हैं - जबकि हमारे अधिकांश अस्वीकार सही होंगे (तुच्छ रूप से, चूंकि छोटे प्रभाव अभी भी सख्ती से झूठे हैं), अगर शक्ति उच्च नहीं है, तो उन का एक बड़ा अंश अस्वीकृति "गलत दिशा में" होगी - हम निष्कर्ष निकालेंगे कि अशक्त अक्सर गलत है क्योंकि संयोग से नमूना गलत पक्ष पर निकला है (यह एक तरफा परीक्षणों का उपयोग करने के लिए एक तर्क हो सकता है - जब एक तरफा परीक्षण करते हैं भावना - कम से कम अस्वीकार से बचने के लिए जो बड़े नमूने के आकार को प्राप्त करने के लिए कठिन हैं, तो कोई मतलब नहीं है)।

हम देख सकते हैं कि छोटे नमूने के आकार निश्चित रूप से एक समस्या हो सकते हैं।

[गलत अस्वीकृति के इस अनुपात को झूठी खोज दर कहा जाता है ]


यदि आपके पास संभावित प्रभाव आकार की धारणा है, तो आप यह समझने के लिए बेहतर स्थिति में हैं कि पर्याप्त नमूना आकार क्या हो सकता है। बड़े प्रत्याशित प्रभावों के साथ, एक छोटे नमूने के आकार के साथ अस्वीकृति जरूरी एक बड़ी चिंता नहीं होगी।


आपका बहुत बहुत धन्यवाद! यह एक ऐसा बिंदु है जिसे मैं बहुत आसानी से याद कर सकता हूं। पिन इंगित करने के लिए बहुत धन्यवाद!
एरिक

1
अच्छा कार्य। यह स्वीकृत उत्तर हो सकता है।
रिचर्ड हार्डी

@ मूल उत्तर के बीच में थोड़ा गड़बड़ हो गया; मैंने इसे सुधारा है।
Glen_b -Reinstate मोनिका

9

गॉसेट के कुछ मूल काम (उर्फ स्टूडेंट), जिसके लिए उन्होंने टी टेस्ट विकसित किया, जिसमें n = 4 और 5 के खमीर के नमूने शामिल थे। परीक्षण विशेष रूप से बहुत छोटे नमूनों के लिए तैयार किया गया था। अन्यथा, सामान्य सन्निकटन ठीक होगा। उस ने कहा, गॉसेट डेटा पर बहुत सावधानी से, नियंत्रित प्रयोगों को कर रहा था, जिसे वह बहुत अच्छी तरह से समझता था। एक शराब की भठ्ठी का परीक्षण करने के लिए चीजों की संख्या की एक सीमा होती है, और गॉसेट ने गिनीज में अपना कामकाजी जीवन बिताया। उसे अपना डेटा पता था।

मुझे एकतरफा परीक्षण पर आपके जोर का संदेह है। परीक्षण का तर्क वही है जो भी परिकल्पना है, लेकिन मैंने देखा है कि जब लोग दो-तरफा गैर-महत्वपूर्ण थे, तो एक महत्वपूर्ण एकतरफा परीक्षण के साथ लोगों को जाते हैं।

यह वह है जो (ऊपरी) एक तरफा परीक्षण का अर्थ है। आप परीक्षण कर रहे हैं कि एक माध्य 0. है। आप गणित करते हैं और T> 2.5 होने पर अस्वीकार करने के लिए तैयार रहते हैं। आप अपना प्रयोग चलाते हैं और उस T = -50,000 का निरीक्षण करते हैं। आप कहते हैं, "फहुत", और जीवन चलता है। जब तक कि टेस्ट स्टेटिस्टिक के लिए हाइपोथिसाइज्ड पैरामीटर वैल्यू से नीचे की तरफ सिंक करना शारीरिक रूप से असंभव नहीं है, और जब तक आप टेस्ट स्टेटिस्टिक की अपेक्षा से विपरीत दिशा में नहीं जाते हैं, तब तक आप कभी भी कोई निर्णय नहीं लेंगे।


6

मुख्य बात जिसकी आपको चिंता करने की ज़रूरत है वह है आपके परीक्षण की शक्ति। विशेष रूप से, आप एक उचित आकार के सही महत्वपूर्ण प्रभाव की पहचान करने के लिए, अपने नमूना आकार को देखते हुए, यह निर्धारित करने के लिए कि आप कितने संभावित हैं, पोस्ट-हॉक शक्ति विश्लेषण करना चाहते हैं। यदि ठेठ प्रभाव बहुत बड़े हैं, तो 8 का एक एन पूरी तरह से पर्याप्त हो सकता है (आणविक जीव विज्ञान में कई प्रयोगों के साथ)। प्रभाव में रुचि रखते हैं आम तौर पर, सूक्ष्म लेकिन (कई सामाजिक मनोविज्ञान प्रयोगों में के रूप में) कर रहे हैं, एक n हजारों की अभी भी underpowered हो सकता है।

यह महत्वपूर्ण है क्योंकि कमज़ोर परीक्षण बहुत भ्रामक परिणाम दे सकते हैं। उदाहरण के लिए, यदि आपका परीक्षण कम है, भले ही आप एक महत्वपूर्ण परिणाम प्राप्त करते हैं, तो आपके पास यह बनाने की अपेक्षाकृत अधिक संभावना है कि एंड्रयू जेलमैन "टाइप एस" त्रुटि को क्या कहते हैं, अर्थात, एक वास्तविक प्रभाव है लेकिन विपरीत दिशा में, या एक "टाइप एम" त्रुटि, यानी, एक वास्तविक प्रभाव है लेकिन सही परिमाण डेटा से अनुमान लगाया गया है की तुलना में बहुत कमजोर है।

जेलमैन और कार्लिन ने पोस्ट-हॉक शक्ति विश्लेषण करने के बारे में एक उपयोगी पेपर लिखा था जो मुझे लगता है कि आपके मामले में लागू होता है। महत्वपूर्ण रूप से, वे एक प्रशंसनीय वास्तविक प्रभाव आकार का अनुमान लगाने के लिए स्वतंत्र डेटा (यानी आपके द्वारा परीक्षण किए गए डेटा नहीं, बल्कि समीक्षा, मॉडलिंग, समान प्रयोगों के परिणाम आदि) का उपयोग करने की सलाह देते हैं। उस प्रशंसनीय अनुमानित सच्चे प्रभाव के आकार का उपयोग करके और अपने परिणामों की तुलना करके, शक्ति विश्लेषण करके, आप टाइप एस त्रुटि और ठेठ "अतिशयोक्ति अनुपात" बनाने की संभावना निर्धारित कर सकते हैं और इस तरह अपने साक्ष्य वास्तव में कितने मजबूत हैं इसके लिए एक बेहतर समझ प्राप्त करते हैं।


4

कोई कह सकता है कि सांख्यिकीय महत्व का पूरा बिंदु प्रश्न का उत्तर देने के लिए है "क्या मैं इस परिणाम पर भरोसा कर सकता हूं, नमूना आकार दिया गया है?"। दूसरे शब्दों में, पूरे बिंदु को इस तथ्य के लिए नियंत्रित करना है कि छोटे नमूना आकारों के साथ, आप फ़्लुक प्राप्त कर सकते हैं, जब कोई वास्तविक प्रभाव मौजूद नहीं होता है। सांख्यिकीय महत्व, जिसे पी-मान कहना है, इस सवाल का सटीक उत्तर है, "यदि कोई वास्तविक प्रभाव मौजूद नहीं है, तो मुझे इस के रूप में फ़्लूक प्राप्त करने की कितनी संभावना होगी?"। यदि यह बहुत संभावना नहीं है, तो यह इंगित करता है कि यह एक अस्थायी नहीं है।

तो इसका उत्तर "हाँ" है, यदि पी-मान कम है, और यदि आपने सही सांख्यिकीय प्रक्रियाओं का पालन किया है और प्रासंगिक मान्यताओं को संतुष्ट कर रहे हैं, तो हाँ, यह अच्छा सबूत है, और इसका उतना ही वजन है जितना कि आप चाहते हैं एक बहुत बड़े नमूना आकार के साथ एक ही पी-मूल्य प्राप्त किया।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.