यदि मेरा एक तरफा टी-परीक्षण परिणाम महत्वपूर्ण है, लेकिन नमूना आकार छोटा है (उदाहरण के लिए 20 या उससे नीचे), तो क्या मैं अभी भी इस परिणाम पर भरोसा कर सकता हूं? यदि नहीं, तो मुझे इस परिणाम का सौदा और / या व्याख्या कैसे करनी चाहिए?
यदि मेरा एक तरफा टी-परीक्षण परिणाम महत्वपूर्ण है, लेकिन नमूना आकार छोटा है (उदाहरण के लिए 20 या उससे नीचे), तो क्या मैं अभी भी इस परिणाम पर भरोसा कर सकता हूं? यदि नहीं, तो मुझे इस परिणाम का सौदा और / या व्याख्या कैसे करनी चाहिए?
जवाबों:
सिद्धांत रूप में, यदि टी-टेस्ट की सभी धारणाएं सच हैं, तो एक छोटे नमूने के आकार के साथ कोई समस्या नहीं है।
व्यवहार में, कुछ नहीं-काफी-सही धारणाएं हैं जो हम बड़े नमूना आकारों के साथ दूर कर सकते हैं लेकिन वे छोटे नमूना आकार के लिए समस्याएं पैदा कर सकते हैं। क्या आप जानते हैं कि यदि अंतर्निहित वितरण सामान्य रूप से वितरित किया जाता है? क्या सभी नमूने स्वतंत्र और समान रूप से वितरित किए गए हैं?
यदि आप परीक्षण की वैधता पर संदेह करते हैं तो एक विकल्प जिसे आप बूटस्ट्रैपिंग का उपयोग कर सकते हैं। बूटस्ट्रैपिंग में आपके नमूने से पुन: नमूना लेना शामिल है, ताकि यह देखा जा सके कि कितनी बार अशक्त परिकल्पना सही या गलत है। शायद आपकी अशक्त परिकल्पना और आपका पी-मान 0.05 है, लेकिन बूटस्ट्रैपिंग से पता चलता है कि नमूना का मतलब शून्य से 10% कम है। यह इंगित करेगा कि यह एक अस्थायी था जिसने 0.05 का पी-मूल्य पैदा किया और आपको कम विश्वास होना चाहिए कि अशक्त परिकल्पना झूठी है।
आपको किसी एक महत्वपूर्ण परिणाम पर शायद ही भरोसा करना चाहिए। आपने यह नहीं कहा कि आप दो-पूंछ वाले परीक्षण के बजाय एक-पूंछ का उपयोग क्यों कर रहे थे, इसलिए उम्मीद है कि आपके पास सांख्यिकीय रूप से महत्वपूर्ण परिणाम का दावा करने में सक्षम होने के लिए संघर्ष करने के अलावा ऐसा करने का एक अच्छा कारण है!
उस तरफ स्थापित करना, पी से निम्नलिखित पर विचार करें। सौरो, जे।, और लुईस, जेआर (2016) के 261। उपयोगकर्ता अनुभव की मात्रा: उपयोगकर्ता अनुसंधान के लिए व्यावहारिक सांख्यिकी, 2 एड .. कैम्ब्रिज, एमए: मॉर्गन-कॉफमैन।
रोनाल्ड फिशर ने पी-वैल्यू का उपयोग करने की सिफारिश कैसे की
जब कार्ल पियर्सन आँकड़ों के भव्य बूढ़े थे और रोनाल्ड फिशर एक रिश्तेदार नवागंतुक, पियर्सन थे, जो स्पष्ट रूप से फिशर के विचारों और गणितीय क्षमता से खतरे में थे, ने फिशर को समय की प्रमुख सांख्यिकीय पत्रिकाओं में प्रकाशित होने से रोकने के लिए अपने प्रभाव का इस्तेमाल किया, बायोमेट्रिक और जर्नल रॉयल स्टेटिस्टिकल सोसायटी का। नतीजतन, फिशर ने कृषि और मौसम संबंधी पत्रिकाओं जैसे कई अन्य स्थानों में अपने विचारों को प्रकाशित किया, जिसमें मनोवैज्ञानिक अनुसंधान के लिए सोसायटी की कार्यवाही के लिए कई पत्र शामिल थे। यह इस बाद की पत्रिका के लिए एक पत्र में था कि उन्होंने उस सेटिंग के उल्लेख का उल्लेख किया जिसे अब हम स्वीकार्य टाइप I त्रुटि (अल्फा) को 0.05 कहते हैं और, गंभीर रूप से, एक अप्रत्याशित महत्वपूर्ण परिणाम का सामना करते समय प्रतिलिपि प्रस्तुत करने के महत्व का भी उल्लेख किया है।
एक अवलोकन को महत्वपूर्ण माना जाता है, अगर यह शायद ही कभी उत्पादित किया गया हो, जिस तरह की वास्तविक मांग के अभाव में हम चाहते हैं। किसी परिणाम को आंकने के लिए यह एक आम बात है, अगर यह ऐसी परिमाण की है कि इसे बीस परीक्षणों में एक से अधिक बार संयोग से उत्पन्न नहीं किया गया है। यह व्यावहारिक अन्वेषक के लिए एक मनमाना, लेकिन सुविधाजनक, महत्व का स्तर है, लेकिन इसका मतलब यह नहीं है कि वह हर बीस प्रयोगों में एक बार खुद को धोखा देने की अनुमति देता है। महत्व की परीक्षा ही उसे बताती है कि क्या उपेक्षा करना, अर्थात्, सभी प्रयोग जिसमें महत्वपूर्ण परिणाम प्राप्त नहीं होते हैं। उसे केवल यह दावा करना चाहिए कि एक घटना प्रयोगात्मक रूप से प्रदर्शन योग्य है जब वह जानता है कि एक प्रयोग कैसे करना है ताकि यह एक महत्वपूर्ण परिणाम देने में शायद ही कभी विफल हो। इसके फलस्वरूप, पृथक महत्वपूर्ण परिणाम जिन्हें वह नहीं जानता कि कैसे पुन: पेश किया जा सकता है, आगे की जांच के लिए निलंबित कर दिया गया है। (फिशर, 1929, पी। 191)
संदर्भ
फिशर, आरए (1929)। मनोवैज्ञानिक अनुसंधान में सांख्यिकीय विधि। मनोवैज्ञानिक अनुसंधान के लिए सोसायटी की कार्यवाही, 39, 189-192।
अपने आप को एक ऐसी स्थिति में होने की कल्पना करें जहां आप कई समान परीक्षण कर रहे हैं, ऐसी परिस्थितियों में जहां कुछ अंश शून्य हैं।
आपके अस्वीकारों का क्या अनुपात "सही" होगा?
इसलिए जब आपका नमूना आकार छोटा होता है (और इसलिए शक्ति कम होती है), यदि हमारे नल का एक उचित अंश सत्य था, तो हम अस्वीकार करने पर अक्सर त्रुटि कर रहे होंगे।
स्थिति बहुत बेहतर नहीं है अगर हमारे लगभग सभी नल सख्ती से झूठे हैं - जबकि हमारे अधिकांश अस्वीकार सही होंगे (तुच्छ रूप से, चूंकि छोटे प्रभाव अभी भी सख्ती से झूठे हैं), अगर शक्ति उच्च नहीं है, तो उन का एक बड़ा अंश अस्वीकृति "गलत दिशा में" होगी - हम निष्कर्ष निकालेंगे कि अशक्त अक्सर गलत है क्योंकि संयोग से नमूना गलत पक्ष पर निकला है (यह एक तरफा परीक्षणों का उपयोग करने के लिए एक तर्क हो सकता है - जब एक तरफा परीक्षण करते हैं भावना - कम से कम अस्वीकार से बचने के लिए जो बड़े नमूने के आकार को प्राप्त करने के लिए कठिन हैं, तो कोई मतलब नहीं है)।
हम देख सकते हैं कि छोटे नमूने के आकार निश्चित रूप से एक समस्या हो सकते हैं।
[गलत अस्वीकृति के इस अनुपात को झूठी खोज दर कहा जाता है ]
यदि आपके पास संभावित प्रभाव आकार की धारणा है, तो आप यह समझने के लिए बेहतर स्थिति में हैं कि पर्याप्त नमूना आकार क्या हो सकता है। बड़े प्रत्याशित प्रभावों के साथ, एक छोटे नमूने के आकार के साथ अस्वीकृति जरूरी एक बड़ी चिंता नहीं होगी।
गॉसेट के कुछ मूल काम (उर्फ स्टूडेंट), जिसके लिए उन्होंने टी टेस्ट विकसित किया, जिसमें n = 4 और 5 के खमीर के नमूने शामिल थे। परीक्षण विशेष रूप से बहुत छोटे नमूनों के लिए तैयार किया गया था। अन्यथा, सामान्य सन्निकटन ठीक होगा। उस ने कहा, गॉसेट डेटा पर बहुत सावधानी से, नियंत्रित प्रयोगों को कर रहा था, जिसे वह बहुत अच्छी तरह से समझता था। एक शराब की भठ्ठी का परीक्षण करने के लिए चीजों की संख्या की एक सीमा होती है, और गॉसेट ने गिनीज में अपना कामकाजी जीवन बिताया। उसे अपना डेटा पता था।
मुझे एकतरफा परीक्षण पर आपके जोर का संदेह है। परीक्षण का तर्क वही है जो भी परिकल्पना है, लेकिन मैंने देखा है कि जब लोग दो-तरफा गैर-महत्वपूर्ण थे, तो एक महत्वपूर्ण एकतरफा परीक्षण के साथ लोगों को जाते हैं।
यह वह है जो (ऊपरी) एक तरफा परीक्षण का अर्थ है। आप परीक्षण कर रहे हैं कि एक माध्य 0. है। आप गणित करते हैं और T> 2.5 होने पर अस्वीकार करने के लिए तैयार रहते हैं। आप अपना प्रयोग चलाते हैं और उस T = -50,000 का निरीक्षण करते हैं। आप कहते हैं, "फहुत", और जीवन चलता है। जब तक कि टेस्ट स्टेटिस्टिक के लिए हाइपोथिसाइज्ड पैरामीटर वैल्यू से नीचे की तरफ सिंक करना शारीरिक रूप से असंभव नहीं है, और जब तक आप टेस्ट स्टेटिस्टिक की अपेक्षा से विपरीत दिशा में नहीं जाते हैं, तब तक आप कभी भी कोई निर्णय नहीं लेंगे।
मुख्य बात जिसकी आपको चिंता करने की ज़रूरत है वह है आपके परीक्षण की शक्ति। विशेष रूप से, आप एक उचित आकार के सही महत्वपूर्ण प्रभाव की पहचान करने के लिए, अपने नमूना आकार को देखते हुए, यह निर्धारित करने के लिए कि आप कितने संभावित हैं, पोस्ट-हॉक शक्ति विश्लेषण करना चाहते हैं। यदि ठेठ प्रभाव बहुत बड़े हैं, तो 8 का एक एन पूरी तरह से पर्याप्त हो सकता है (आणविक जीव विज्ञान में कई प्रयोगों के साथ)। प्रभाव में रुचि रखते हैं आम तौर पर, सूक्ष्म लेकिन (कई सामाजिक मनोविज्ञान प्रयोगों में के रूप में) कर रहे हैं, एक n हजारों की अभी भी underpowered हो सकता है।
यह महत्वपूर्ण है क्योंकि कमज़ोर परीक्षण बहुत भ्रामक परिणाम दे सकते हैं। उदाहरण के लिए, यदि आपका परीक्षण कम है, भले ही आप एक महत्वपूर्ण परिणाम प्राप्त करते हैं, तो आपके पास यह बनाने की अपेक्षाकृत अधिक संभावना है कि एंड्रयू जेलमैन "टाइप एस" त्रुटि को क्या कहते हैं, अर्थात, एक वास्तविक प्रभाव है लेकिन विपरीत दिशा में, या एक "टाइप एम" त्रुटि, यानी, एक वास्तविक प्रभाव है लेकिन सही परिमाण डेटा से अनुमान लगाया गया है की तुलना में बहुत कमजोर है।
जेलमैन और कार्लिन ने पोस्ट-हॉक शक्ति विश्लेषण करने के बारे में एक उपयोगी पेपर लिखा था जो मुझे लगता है कि आपके मामले में लागू होता है। महत्वपूर्ण रूप से, वे एक प्रशंसनीय वास्तविक प्रभाव आकार का अनुमान लगाने के लिए स्वतंत्र डेटा (यानी आपके द्वारा परीक्षण किए गए डेटा नहीं, बल्कि समीक्षा, मॉडलिंग, समान प्रयोगों के परिणाम आदि) का उपयोग करने की सलाह देते हैं। उस प्रशंसनीय अनुमानित सच्चे प्रभाव के आकार का उपयोग करके और अपने परिणामों की तुलना करके, शक्ति विश्लेषण करके, आप टाइप एस त्रुटि और ठेठ "अतिशयोक्ति अनुपात" बनाने की संभावना निर्धारित कर सकते हैं और इस तरह अपने साक्ष्य वास्तव में कितने मजबूत हैं इसके लिए एक बेहतर समझ प्राप्त करते हैं।
कोई कह सकता है कि सांख्यिकीय महत्व का पूरा बिंदु प्रश्न का उत्तर देने के लिए है "क्या मैं इस परिणाम पर भरोसा कर सकता हूं, नमूना आकार दिया गया है?"। दूसरे शब्दों में, पूरे बिंदु को इस तथ्य के लिए नियंत्रित करना है कि छोटे नमूना आकारों के साथ, आप फ़्लुक प्राप्त कर सकते हैं, जब कोई वास्तविक प्रभाव मौजूद नहीं होता है। सांख्यिकीय महत्व, जिसे पी-मान कहना है, इस सवाल का सटीक उत्तर है, "यदि कोई वास्तविक प्रभाव मौजूद नहीं है, तो मुझे इस के रूप में फ़्लूक प्राप्त करने की कितनी संभावना होगी?"। यदि यह बहुत संभावना नहीं है, तो यह इंगित करता है कि यह एक अस्थायी नहीं है।
तो इसका उत्तर "हाँ" है, यदि पी-मान कम है, और यदि आपने सही सांख्यिकीय प्रक्रियाओं का पालन किया है और प्रासंगिक मान्यताओं को संतुष्ट कर रहे हैं, तो हाँ, यह अच्छा सबूत है, और इसका उतना ही वजन है जितना कि आप चाहते हैं एक बहुत बड़े नमूना आकार के साथ एक ही पी-मूल्य प्राप्त किया।