दो-पूंछ वाले परीक्षण ... मैं अभी आश्वस्त नहीं हूं। क्या बात है?


59

निम्नलिखित अंश प्रविष्टि से है, एक-पूंछ और दो-पूंछ परीक्षण के बीच अंतर क्या हैं? UCLA के सांख्यिकी सहायता साइट पर।

... दूसरी दिशा में एक प्रभाव को याद करने के परिणामों पर विचार करें। कल्पना कीजिए कि आपने एक नई दवा विकसित की है जो आपको लगता है कि मौजूदा दवा पर एक सुधार है। आप सुधार का पता लगाने के लिए अपनी क्षमता को अधिकतम करना चाहते हैं, इसलिए आप एक-पूंछ वाले परीक्षण का विकल्प चुनते हैं। ऐसा करने में, आप इस संभावना के लिए परीक्षण करने में विफल रहते हैं कि नई दवा मौजूदा दवा की तुलना में कम प्रभावी है।

परिकल्पना परीक्षण की पूर्ण मूल बातें सीखने और एक बनाम दो पूंछ वाले परीक्षणों के बारे में जानने के बाद ... मैं मूल गणित को समझता हूं और एक पूंछ परीक्षण, आदि की बढ़ती पहचान क्षमता ... लेकिन मैं अभी अपने सिर के चारों ओर लपेट नहीं सकता एक बात के आसपास ... क्या बात है? मैं वास्तव में यह समझने में विफल रहा हूं कि आपको अपने अल्फा को दो चरम सीमाओं के बीच क्यों विभाजित करना चाहिए जब आपका नमूना परिणाम केवल एक या दूसरे में हो सकता है, या न ही हो सकता है।

ऊपर दिए गए पाठ से उदाहरण परिदृश्य लें। विपरीत दिशा में परिणाम के लिए आप संभवतः "परीक्षण करने में विफल" कैसे हो सकते हैं? आप अपने नमूना मतलब है। आप अपनी आबादी का मतलब है। सरल अंकगणित आपको बताता है जो अधिक है। विपरीत दिशा में परीक्षण करने या असफल होने के लिए क्या है? क्या आप रोक रहा है बस विपरीत परिकल्पना के साथ खरोंच से शुरू अगर आप स्पष्ट रूप से देखते हैं कि नमूना मतलब दूसरी दिशा में रास्ता बंद है?

उसी पृष्ठ से एक और उद्धरण:

दो-पूंछ वाले परीक्षण को चलाने के बाद एक-पूंछ वाले परीक्षण का चयन करना जो अशक्त परिकल्पना को अस्वीकार करने में विफल रहा, यह उचित नहीं है, भले ही दो-पूंछ परीक्षण महत्वपूर्ण "करीब" कैसे हो।

मुझे लगता है कि यह आपके एक-पूंछ वाले परीक्षण की ध्रुवीयता को बदलने के लिए भी लागू होता है। लेकिन इस "सिद्धांत" का परिणाम कैसे होता है, यदि आपने पहले से ही सही एक-पूंछ वाले परीक्षण को चुना है, तो इससे कम वैध कोई परिणाम नहीं है?

स्पष्ट रूप से मुझे यहां तस्वीर का एक बड़ा हिस्सा याद आ रहा है। यह सब सिर्फ मनमाना लगता है। जो यह है, मुझे लगता है, इस अर्थ में कि "सांख्यिकीय रूप से महत्वपूर्ण" को दर्शाता है - 95%, 99%, 99.9% ... के साथ शुरू करने के लिए मनमाना है।


18
यह मेरे लिए एक अच्छा सवाल की तरह लगता है, +1।
गुंग - फिर से बहाल करें मोनिका

5
हालांकि यह पूरी तरह से स्पष्ट है कि आपको डेटा एकत्र करने से पहले अपने प्रयोग और अपने परीक्षणों को डिज़ाइन करना चाहिए, मैं दवाओं पर उनका उदाहरण ढूंढता हूं, बल्कि इस तथ्य को ध्यान में रखते हुए कि नई दवाओं को अक्सर बिना किसी चिल्लाहट के 1-पक्षीय परीक्षण के साथ परीक्षण किया जाता है ।
P-Gn

3
@ user1735003 कई मनोदशा / व्यवहार पर विचार करने के लिए एक विडंबनापूर्ण लेख जो दवा परीक्षणों को विनियमित कर रहा है, पर्यवेक्षक पूर्वाग्रह के लिए बढ़ती जांच के तहत आ रहा है। Ritalin पर एक दिलचस्प कोचरन यहाँ । "प्लेसीबो की दावा की गई श्रेष्ठता" वह है जिसे कोई भी परीक्षणकर्ता "नुकसान" कहेगा, इसलिए मुझे यह कम से कम समझ में नहीं आता है। लेकिन इन परीक्षणों में, अगर नुकसान के लिए अध्ययन बंद हो जाता है, तो संकेत प्रतिकूल घटनाओं से है।
एडमो

10
"आप अपने नमूना मतलब है। आप अपनी आबादी का मतलब है ... क्या आप सिर्फ विपरीत परिकल्पना के साथ खरोंच से शुरू रोक रहा है अगर आप स्पष्ट रूप से देखते हैं कि नमूना मतलब दूसरी दिशा में रास्ता बंद है?" । नहीं, परिकल्पना परीक्षण की पूरी बात यह है कि आपके पास जनसंख्या का मतलब नहीं है, और आप नमूना का उपयोग आबादी के मतलब (शून्य परिकल्पना) के बारे में धारणा का परीक्षण करने के लिए कर रहे हैं। इसलिए कोई "स्पष्ट रूप से नहीं है कि नमूना मतलब रास्ता बंद है" , क्योंकि यह ठीक है कि आप क्या परीक्षण कर रहे हैं, एक दिया नहीं।
StAtS

1
मुसीबत जो अक्सर आप ध्रुवीयता को नहीं जानते हैं, इसलिए आपको दो पूंछ वाले परीक्षण चलाने होंगे। डीसी पावर सप्लाई में वाल्टमीटर की प्लगिंग की कल्पना करें जब आपको पता न हो कि कौन सा प्लग पॉज़िटिव है
अक्सकल

जवाबों:


46

डेटा को हिमशैल की नोक के रूप में सोचें - आप सभी पानी के ऊपर देख सकते हैं हिमशैल की नोक है लेकिन वास्तव में आप पूरे हिमखंड के बारे में कुछ सीखने में रुचि रखते हैं।

सांख्यिकीविद, डेटा वैज्ञानिक और डेटा के साथ काम करने वाले अन्य लोगों को सावधान रहना चाहिए कि वे वाटर लाइन प्रभाव के ऊपर क्या देखें और पानी की रेखा के नीचे क्या छिपा हुआ है, उनके आकलन को पूर्वाग्रहित करें। इस कारण से, एक परिकल्पना परीक्षण की स्थिति में, वे हिमशैल की नोक को देखने से पहले अपनी अशक्त और वैकल्पिक परिकल्पना तैयार करते हैं , उनकी अपेक्षाओं (या इसके अभाव) के आधार पर यदि वे हिमशैल को अपनी संपूर्णता में देख सकते हैं तो क्या हो सकता है। ।

अपने परिकल्पना को तैयार करने के लिए डेटा को देखना एक खराब अभ्यास है और इसे टाला जाना चाहिए - यह घोड़े के आगे गाड़ी लगाने जैसा है। याद रखें कि डेटा लक्षित जनसंख्या / रुचि के ब्रह्मांड से चयनित एकल नमूना (उम्मीद है कि एक यादृच्छिक चयन तंत्र का उपयोग करके) से आता है। नमूने की अपनी स्वयं की पहचान है, जो अंतर्निहित आबादी का चिंतनशील हो भी सकती है और नहीं भी। आप अपनी परिकल्पनाओं को पूरी आबादी के बजाय आबादी के संकीर्ण स्लाइस को क्यों दिखाना चाहेंगे?

इसके बारे में सोचने का एक और तरीका यह है कि, हर बार जब आप अपनी लक्षित आबादी (यादृच्छिक चयन तंत्र का उपयोग करके) से एक नमूना का चयन करते हैं, तो नमूना आपके डेटा का उत्पादन करेगा। यदि आप नल और वैकल्पिक परिकल्पनाओं के अपने विनिर्देश का मार्गदर्शन करने के लिए डेटा (जो आपको नहीं चाहिए !!!) का उपयोग करते हैं, तो आपके परिकल्पना सभी मानचित्र पर होंगे, अनिवार्य रूप से प्रत्येक नमूने के आइडिओसोनिक सुविधाओं से संचालित होंगे। बेशक, व्यवहार में हम केवल एक नमूना बनाते हैं, लेकिन यह जानना बहुत ही अयोग्य होगा कि अगर किसी और ने एक ही आकार के एक अलग नमूने के साथ एक ही अध्ययन किया, तो उन्हें अपनी वास्तविकताओं को प्रतिबिंबित करने के लिए अपनी परिकल्पना को बदलना होगा। उनका नमूना।

मेरे स्नातक स्कूल के प्रोफेसरों में से एक ने बहुत बुद्धिमान कहा था: "हम नमूने के बारे में परवाह नहीं करते हैं, सिवाय इसके कि यह हमें आबादी के बारे में कुछ बताता है" । हम लक्ष्य आबादी के बारे में कुछ सीखने के लिए अपनी परिकल्पना तैयार करना चाहते हैं, न कि उस जनसंख्या से चयन करने के लिए हमारे द्वारा किए गए एक नमूने के बारे में।


1
@ subhashc.davar: सिर्फ इसलिए कि आप मेरे जवाब की प्रासंगिकता नहीं देखते हैं, इसका मतलब यह नहीं है कि कोई और नहीं होगा। कृपया ध्यान रखें कि उत्तर पूरे समुदाय के लिए हैं न कि केवल उस व्यक्ति के लिए जिसने प्रश्न पूछा था। यदि आप इस बारे में दृढ़ता से महसूस करते हैं तो मुझे अपना उत्तर हटाकर खुशी होगी।
इसाबेला घीम

7
@ subhashc.davar एक उदाहरण मदद कर सकता है: यदि कोई स्नैक प्रदर्शन को प्रभावित करता है, तो आप कहेंगे। आप प्रयोग चलाते हैं और स्नैक्स में मामूली स्कोर हासिल करते हैं। महान! स्नैकर्स> नॉन-स्नैकर्स देखने के लिए एक टेल्ड टेस्ट चलाएं। समस्या: अगर आपने स्नैक्स खराब प्रदर्शन किया है तो आप एक नमूना पेश करेंगे तो आपने क्या किया होगा? क्या आपने स्नैकर्स <नॉन-स्नैकर्स के लिए वन-टेल टेस्ट किया होगा? यदि ऐसा है, तो आप एक त्रुटि कर रहे हैं और नमूना idiosyncracies को आपके परीक्षण का मार्गदर्शन करने दे रहे हैं।
आरएम

21
मेरे प्रोफेसर का एक किस्सा: "हमने प्रसूति वार्ड में एक मित्र की नवजात बेटी का दौरा किया। 20 में से 20 बच्चे और 18 ने गुलाबी टोपी पहन रखी थी। इसलिए मैंने वही किया जो कोई भी सांख्यिकीविद् करेगा: वास्तव में लिंग के लिए एक p- मान की गणना 50 की जा रही है। / 50. यह बहुत सांख्यिकीय रूप से महत्वपूर्ण था। इसलिए कौन मेरे साथ इस पत्र को लिखना चाहता है? कोई नहीं? क्यों? आप डेटा का उपयोग नहीं कर सकते हैं जिसने एक परिकल्पना का परीक्षण करने के लिए एक परिकल्पना उत्पन्न की। "
एडमो

4
@ अदमो मुझे आपकी टिप्पणी का जवाब से बेहतर स्पष्टीकरण मिला। मैं अंतिम वाक्य को फिर से लिखूंगा कि 'आपको अपनी परिकल्पना का परीक्षण करने के लिए उसी डेटा का उपयोग नहीं करना चाहिए जिसके साथ आपने अपनी परिकल्पना उत्पन्न की थी।' एक संबंधित निहितार्थ यह है कि आपने पहले जो भी परीक्षण चुना था, उसके परिणाम के आधार पर अपनी परिकल्पना को बदलना ठीक है । लेकिन फिर आपको नए डेटा के साथ अपनी नई परिकल्पना का परीक्षण करना चाहिए।
केनी एविट

3
@KennyEvitt हाँ बिल्कुल सही। आकस्मिक निष्कर्ष महत्वपूर्ण हैं और उन्हें रिपोर्ट किया जाना चाहिए, लेकिन उन्हें पूर्व निर्धारित परिकल्पना के रूप में नहीं बेचा जाना चाहिए।
एडमो

18

मुझे लगता है कि आपके प्रश्न पर विचार करते समय यह मदद करता है यदि आप शून्य-परिकल्पना महत्व परीक्षण (एनएचएसटी) के लक्ष्य / बिक्री बिंदुओं को ध्यान में रखते हैं; सांख्यिकीय अनुमान के लिए यह सिर्फ एक प्रतिमान है (बहुत लोकप्रिय एक के रूप में), और दूसरों के पास अपनी ताकत भी है (उदाहरण के लिए, बेयसियन निष्कर्ष के सापेक्ष एनएचएसटी की चर्चा के लिए यहां देखें )। NHST का बड़ा कारण क्या है ?: लंबे समय तक चलने वाला त्रुटि नियंत्रण । यदि आप एनएचएसटी के नियमों का पालन करते हैं (और कभी-कभी यह बहुत बड़ा है अगर), तो आपको इस बात की अच्छी जानकारी होनी चाहिए कि आपके द्वारा किए जाने वाले अनुमानों के साथ गलत होने की कितनी संभावना है, लंबे समय में।

NHST के सबसे कठोर नियमों में से एक यह है कि आपकी परीक्षण प्रक्रिया में और बदलाव किए बिना, आपको केवल अपनी रुचि के परीक्षण पर एक नज़र डालना है। व्यवहार में शोधकर्ता अक्सर इस नियम की अनदेखी करते हैं (या नहीं जानते हैं) (सिमंस एट अल।, 2012 देखें), डेटा की तरंगों को जोड़ने के बाद कई परीक्षणों का संचालन करते हुए, उनके जांच करते हैं।pअपने मॉडल आदि में चरों को जोड़ने / हटाने के बाद-अंतराल, इसके साथ समस्या यह है कि शोधकर्ताओं ने एनएचएसटी के परिणाम के संबंध में शायद ही कभी तटस्थ हैं; वे इस बात से सचेत हैं कि महत्वपूर्ण परिणाम प्रकाशित होने की संभावना गैर-महत्वपूर्ण परिणामों की तुलना में अधिक है (ऐसे कारणों के लिए जो गुमराह और वैध दोनों हैं। रोसेन्थल, 1979)। इसलिए शोधकर्ताओं को अक्सर डेटा / संशोधन मॉडल / आउटलेयर जोड़ने और बार-बार परीक्षण करने के लिए प्रेरित किया जाता है जब तक कि वे एक महत्वपूर्ण प्रभाव को "उजागर" न करें (जॉन एट अल।, 2011, एक अच्छा परिचय देखें)।

α=.05β=.20H0

ααp

अंत में (और व्यक्तिगत प्राथमिकता के रूप में), मुझे एक समस्या कम होगी यदि आपने पहली बार दो-पूंछ वाला परीक्षण किया था, तो यह गैर-महत्वपूर्ण पाया गया, फिर पहली परीक्षा में दिशा में एक-पूंछ वाला परीक्षण हुआ, और यह पाया जाना महत्वपूर्ण है अगर (और केवल अगर) तो आपने एक अन्य नमूने में उस प्रभाव की सख्त पुष्टि की है, और उसी पेपर में प्रतिकृति प्रकाशित की है। व्याख्यात्मक डेटा विश्लेषण - त्रुटि दर के साथ लचीला विश्लेषण अभ्यास को फुलाया - ठीक है, जब तक आप उसी विश्लेषणात्मक लचीलेपन के बिना एक नए नमूने में अपने प्रभाव को दोहराने में सक्षम होते हैं।

संदर्भ

डायनेस, जेड (2008)। मनोविज्ञान को एक विज्ञान के रूप में समझना: वैज्ञानिक और सांख्यिकीय निष्कर्ष के लिए एक परिचय । पालग्रेव मैकमिलन।

जॉन, एलके, लोवेनस्टीन, जी।, और प्रीलेक, डी। (2012)। सत्य कथन के लिए प्रोत्साहन के साथ संदिग्ध अनुसंधान प्रथाओं की व्यापकता को मापना। मनोवैज्ञानिक विज्ञान , 23 (5), 524-532।

रोसेन्थल, आर। (1979)। फ़ाइल परिणाम समस्या और अशक्त परिणामों के लिए सहिष्णुता। मनोवैज्ञानिक बुलेटिन , 86 (3), 638।

सीमन्स, जेपी, नेल्सन, एलडी, और सिमोनसोहन, यू (2011)। गलत-सकारात्मक मनोविज्ञान: डेटा संग्रह और विश्लेषण में अज्ञात लचीलापन महत्वपूर्ण के रूप में कुछ भी पेश करने की अनुमति देता है। मनोवैज्ञानिक विज्ञान , 22 (11), 1359-1366।


बहुत अच्छा जवाब। शोध पत्रों में अपने हालिया पड़ाव (एक आम आदमी के रूप में) के दौरान मुझे कुछ चिंताओं को एक साथ खींचने में मदद मिली, इस विचार की पुष्टि करते हुए कि एक-पूंछ वाले पी-मान केवल "विश्वसनीय" हो सकते हैं यदि आपके पास "नकारात्मक" में आश्वस्त होने का मौजूदा कारण है सहसंबंध "दिशा झूठी है।
वेनरिक्स

10

दुर्भाग्य से, दवा विकास का प्रेरक उदाहरण एक अच्छा नहीं है क्योंकि यह वह नहीं है जो हम ड्रग्स विकसित करने के लिए करते हैं। हम अध्ययन को रोकने के लिए विभिन्न, अधिक कठोर नियमों का उपयोग करते हैं यदि रुझान नुकसान के पक्ष में हैं। यह रोगियों की सुरक्षा के लिए है और इसलिए भी क्योंकि दवा से सार्थक लाभ की दिशा में जादुई स्विंग की संभावना नहीं है।

तो दो पूंछे टेस्ट क्यों ? (जब ज्यादातर मामलों में हमारे पास मॉडल की कोशिश कर रहे प्रभाव की संभावित दिशा की कुछ प्राथमिकताएं होती हैं)

अशक्त परिकल्पना को प्रशंसनीय, सूचित और न्यायसंगत होने के अर्थ में विश्वास के लिए कुछ समानता का सामना करना चाहिए । ज्यादातर मामलों में, लोग "प्रभावहीन परिणाम" पर सहमत होते हैं, जब 0 प्रभाव होता है, जबकि एक नकारात्मक या सकारात्मक प्रभाव समान ब्याज का होता है। एक समग्र शून्य परिकल्पना को स्पष्ट करना बहुत कठिन है, उदाहरण के लिए, जहां हम जानते हैं कि सांख्यिकीय समान या हो सकता है।एक निश्चित राशि से कम। किसी को अपने वैज्ञानिक निष्कर्षों का बोध कराने के लिए अशक्त परिकल्पना के बारे में बहुत स्पष्ट होना चाहिए। यह इंगित करने के लायक है कि जिस तरह से एक समग्र परिकल्पना परीक्षण आयोजित करता है वह यह है कि अशक्त परिकल्पना के तहत सांख्यिकीय अवलोकन डेटा की सीमा के भीतर सबसे सुसंगत मूल्य मानता है। इसलिए यदि प्रभाव आशा के अनुरूप सकारात्मक दिशा में है, तो शून्य मान को 0 तक ले जाया जाता है, और हमने अनावश्यक रूप से लूट लिया है।

एक दो पूंछ परीक्षण मात्रा कई तुलनाओं के लिए नियंत्रण के साथ दो तरफा परीक्षणों का संचालन करने के लिए! दो पूंछ वाला परीक्षण वास्तव में आंशिक रूप से मूल्यवान है क्योंकि यह लंबे समय में अधिक रूढ़िवादी होने का अंत करता है। जब हम प्रभाव की दिशा के बारे में अच्छी धारणा रखते हैं, तो दो पूंछ वाले परीक्षण झूठी सकारात्मकता उत्पन्न करेंगे, जो अक्सर शक्ति पर बहुत कम समग्र प्रभाव के साथ होती है।

एक यादृच्छिक नियंत्रित परीक्षण में एक उपचार का मूल्यांकन करने के मामले में, अगर आपने मुझे एक-पक्षीय परीक्षण बेचने की कोशिश की, तो मैं आपसे पूछना बंद कर दूंगा, "अच्छा रुको, हम क्यों मानते हैं कि उपचार वास्तव में हानिकारक है? क्या वास्तव में कोई सबूत है?" इस का समर्थन करने के लिए? वहाँ भी लैस है [एक लाभदायक प्रभाव प्रदर्शित करने की क्षमता]? " एकतरफा परीक्षण के पीछे की तार्किक असंगतता पूरे शोध को प्रश्न में बदल देती है। अगर वास्तव में कुछ भी ज्ञात नहीं है, तो 0 के अलावा किसी भी मूल्य को दिलचस्प माना जाता है और दो पूंछ वाला परीक्षण केवल एक अच्छा विचार नहीं है, यह आवश्यक है।


8

इसे अपनाने का एक तरीका अस्थायी रूप से परिकल्पना परीक्षण के बारे में भूलना और इसके बजाय आत्मविश्वास अंतराल के बारे में सोचना है। एक-पक्षीय परीक्षण एक-पक्षीय विश्वास अंतराल और दो-पक्षीय परीक्षण दो-पक्षीय विश्वास अंतराल के अनुरूप हैं।

मान लीजिए कि आप आबादी के मतलब का अनुमान लगाना चाहते हैं। स्वाभाविक रूप से, आप एक नमूना लेते हैं और एक नमूना माध्य की गणना करते हैं। फेस वैल्यू पर पॉइंट-एस्टीमेट लेने का कोई कारण नहीं है, इसलिए आप अपना जवाब एक अंतराल के संदर्भ में व्यक्त करते हैं कि आप सही तरीके से आश्वस्त हैं जिसमें सही अर्थ है। आप किस प्रकार का अंतराल चुनते हैं? एक दो-पक्षीय अंतराल कहीं अधिक प्राकृतिक विकल्प है। एकतरफा अंतराल केवल तभी समझ में आता है जब आप केवल अपने ऊपरी अनुमान या अपने अनुमान के निचले हिस्से को खोजने के बारे में परवाह नहीं करते हैं (क्योंकि आप मानते हैं कि आप पहले से ही एक दिशा में एक उपयोगी बाध्य जानते हैं)। कितनी बार आप वास्तव में स्थिति के बारे में निश्चित हैं?

शायद सवाल को आत्मविश्वास के अंतराल पर स्विच करना वास्तव में इसे कम नहीं करता है, लेकिन यह एक-पूंछ वाले परीक्षणों को पसंद करने के लिए विधिपूर्वक असंगत है लेकिन दो-तरफा विश्वास अंतराल है।


4

परिकल्पना परीक्षण की पूर्ण मूल बातें सीखने और एक बनाम दो पूंछ वाले परीक्षणों के बारे में जानने के बाद ... मैं मूल गणित को समझता हूं और एक पूंछ परीक्षण, आदि की बढ़ती पहचान क्षमता ... लेकिन मैं अभी अपने सिर के चारों ओर लपेट नहीं सकता एक बात के आसपास ... क्या बात है? मैं वास्तव में यह समझने में विफल रहा हूं कि आपको अपने अल्फा को दो चरम सीमाओं के बीच क्यों विभाजित करना चाहिए जब आपका नमूना परिणाम केवल एक या दूसरे में हो सकता है, या न ही हो सकता है।

समस्या यह है कि आप जनसंख्या का मतलब नहीं जानते हैं। मुझे कभी भी वास्तविक दुनिया के परिदृश्य का सामना नहीं करना पड़ा है कि मुझे सही आबादी का मतलब पता है।

ऊपर दिए गए पाठ से उदाहरण परिदृश्य को लें। विपरीत दिशा में परिणाम के लिए आप संभवतः "परीक्षण करने में विफल" कैसे हो सकते हैं? आप अपने नमूना मतलब है। आप अपनी आबादी का मतलब है। सरल अंकगणित आपको बताता है जो अधिक है। विपरीत दिशा में परीक्षण करने या असफल होने के लिए क्या है? यदि आप स्पष्ट रूप से विपरीत परिकल्पना के साथ खरोंच से शुरू होने से रोक रहे हैं, यदि आप स्पष्ट रूप से देखते हैं कि नमूना का मतलब दूसरी दिशा में है?

मैंने आपके पैराग्राफ को कई बार पढ़ा, लेकिन मुझे अभी भी आपके तर्कों पर यकीन नहीं है। क्या आप इसे फिर से लिखना चाहते हैं? यदि आपका डेटा आपके चुने हुए महत्वपूर्ण क्षेत्रों में नहीं आता है तो आप "परीक्षण" करने में विफल रहते हैं।

मुझे लगता है कि यह आपके एक-पूंछ वाले परीक्षण की ध्रुवीयता को बदलने के लिए भी लागू होता है। लेकिन इस "सिद्धांत" का परिणाम कैसे होता है, यदि आपने पहले से ही सही एक-पूंछ वाले परीक्षण को चुना है, तो इससे कम वैध कोई परिणाम नहीं है?

उद्धरण सही है क्योंकि पी-मूल्य को हैक करना अनुचित है। हम "जंगली में" पी-हैकिंग के बारे में कितना जानते हैं? अधिक विवरण है।

स्पष्ट रूप से मुझे यहां तस्वीर का एक बड़ा हिस्सा याद आ रहा है। यह सब सिर्फ मनमाना लगता है। जो यह है, मुझे लगता है, इस अर्थ में कि "सांख्यिकीय रूप से महत्वपूर्ण" को दर्शाता है - 95%, 99%, 99.9% ... के साथ शुरू करने के लिए मनमाना है। मदद?

यह मनमाना है। इसीलिए डेटा वैज्ञानिक आमतौर पर पी-वैल्यू के परिमाण (केवल महत्वपूर्ण या महत्वहीन) की रिपोर्ट नहीं करते हैं, और प्रभाव का आकार भी।


स्पष्ट होने के लिए, मैं सांख्यिकीय निष्कर्ष की बहुत नींव को चुनौती देने की कोशिश नहीं कर रहा हूं। जैसा कि मैंने कहा, मैंने केवल बहुत मूल बातें सीखी हैं और यह समझने में परेशानी हो रही है कि सही परीक्षण का उपयोग करने में विफल रहने से किसी भी संभावित निष्कर्ष को कैसे याद किया जा सकता है।
FromAshes

अपने मित्र, जो कहते हैं, एक नए उत्पाद का दावा करता है, जो दावा करता है कि पौधे की वृद्धि को बढ़ाता है। साज़िश, आप एक नियंत्रण समूह और उपचार समूह के साथ एक मजबूत अध्ययन तैयार करते हैं। आपका अशक्त पाखंड यह है कि विकास में कोई बदलाव नहीं होगा, आपका वैकल्पिक हाइप। यह है कि जो का जादू स्प्रे विकास को काफी बढ़ाता है - इसलिए एक-पूंछ वाला परीक्षण। 2 सप्ताह बाद, आप अपने अंतिम अवलोकन करते हैं और परिणामों का विश्लेषण करते हैं। उपचार समूह की औसत वृद्धि 5 मानक त्रुटियों से अधिक हो जाती है जो नियंत्रण के नीचे है। आपकी पसंद के परीक्षण के कारण यह बहुत महत्वपूर्ण है कि कोई कम स्पष्ट या मान्य कैसे हो?
FromAshes

2
अगर मैं आपसे सिक्का उछालने के लिए सिर या पूंछ बुलाने के लिए कहता हूं, तो परिणाम की भविष्यवाणी करने की संभावना 50/50 है (एक संतुलित सिक्का और एक ईमानदार फ्लिपर मानकर)। हालांकि, अगर मैं पहले सिक्के को फड़फड़ाता हूं और आपको इसे देखता हूं और फिर अपनी भविष्यवाणी करता हूं, तो यह 50/50 नहीं होगा। यदि आप .01 के अल्फा स्तर के साथ एक-पूंछ वाले परीक्षण का आयोजन कर रहे हैं, लेकिन फिर परिणाम देखने के बाद परीक्षण की दिशा को फ्लिप करें क्योंकि पी <.01 दूसरी दिशा में है, तो टाइप I त्रुटि का आपका जोखिम कोई लंबा नहीं है ।01 लेकिन बहुत अधिक है। ध्यान दें कि मनाया गया पी-मान और टाइप I त्रुटि दर एक ही बात नहीं है।
dbwilson

@FromTheAshes बहुत ही नींव को चुनौती देने की कोशिश के साथ कुछ भी गलत नहीं है। सांख्यिकीय परिकल्पना परीक्षण बेकार नहीं है, लेकिन इसमें बड़े पैमाने पर तार्किक खामियां हैं, और उन्हें चुनौती देना बिल्कुल उचित है!
फ्लाउंडर

3

खैर, सभी अंतर उस प्रश्न पर निर्भर करता है जिसका आप जवाब देना चाहते हैं। यदि प्रश्न यह है: "क्या मूल्यों का एक समूह दूसरे से बड़ा है?" आप एक पूंछ परीक्षण का उपयोग कर सकते हैं। प्रश्न का उत्तर देने के लिए: "क्या ये मान भिन्न हैं?" आप दो पूंछ परीक्षण का उपयोग करें। ध्यान रखें कि डेटा का एक सेट सांख्यिकीय रूप से किसी अन्य की तुलना में अधिक हो सकता है, लेकिन सांख्यिकीय रूप से अलग नहीं है ... और यह आंकड़े हैं।


1
'यदि प्रश्न यह है: "क्या मूल्यों का एक समूह दूसरे से बड़ा है?" आप एक पूंछ वाले परीक्षण का उपयोग कर सकते हैं। ' अधिक सटीक रूप से, यदि प्रश्न "है * यह विशेष समूह दूसरों की तुलना में बड़ा है", तो आपको दो-पूंछ वाले परीक्षण का उपयोग करना चाहिए।
संचय

यह ध्यान दिया जाना चाहिए कि यह एक तरह से निहित है कि यदि आप यह सवाल पूछ रहे हैं कि "और वैसे अगर यह ऐसा लगता है कि अन्य समूह वास्तव में बड़ा है, तो मुझे परवाह नहीं है"। यदि आप इसके विपरीत देखेंगे कि आप क्या उम्मीद करेंगे और फिर परिकल्पना परीक्षण की दिशा को पलटने के लिए आगे बढ़ें तो आप बस अपने आप से झूठ बोल रहे थे और शुरू करने के लिए दो-पूंछ वाला परीक्षण करना चाहिए था।
18'18

2

लेकिन इस "सिद्धांत" का परिणाम कैसे होता है, यदि आपने पहले से ही सही एक-पूंछ वाले परीक्षण को चुना है, तो इससे कम वैध कोई परिणाम नहीं है?

अल्फा मान संभावना है कि आप शून्य को अस्वीकार कर देंगे, यह देखते हुए कि शून्य सही है। मान लीजिए कि आपका नल यह है कि नमूना माध्य सामान्यतः शून्य के साथ वितरित किया जाता है। यदि P (नमूना का मतलब> 1 | H0) = .05 है, तो नियम "एक नमूना लीजिए, और नल को अस्वीकार कर दें यदि नमूना मतलब 1 से अधिक है" में संभावना है, यह देखते हुए कि शून्य सही है, 5% का नमूना अशक्त को अस्वीकार करना। नियम "एक नमूना एकत्र करें, और यदि नमूना मतलब सकारात्मक है, तो नल को अस्वीकार कर दें यदि नमूना मतलब 1 से अधिक है, और यदि नमूना मतलब नकारात्मक है, तो नमूना अस्वीकार करें यदि नमूना मतलब 1 से कम है" संभावना, यह देखते हुए कि अशक्त सत्य है, शून्य को अस्वीकार करने का 10%। तो पहले नियम में 5% का अल्फा है, और दूसरे नियम में 10% का अल्फा है। यदि आप दो-पूंछ वाले परीक्षण से शुरू करते हैं, और फिर इसे डेटा के आधार पर एक-पूंछ वाले परीक्षण में बदल दें, फिर आप दूसरे नियम का पालन कर रहे हैं, इसलिए यह आपके अल्फा को 5% के रूप में रिपोर्ट करना गलत होगा। अल्फ़ा मान न केवल इस पर निर्भर करता है कि डेटा क्या है, बल्कि आप इसका विश्लेषण करने में किन नियमों का पालन कर रहे हैं। यदि आप पूछ रहे हैं कि एक मीट्रिक का उपयोग क्यों करें जिसके पास यह संपत्ति है, बजाय इसके कि डेटा पर निर्भर करता है, तो यह एक अधिक जटिल प्रश्न है।


2

द्वितीय बिंदु के संबंध में

दो-पूंछ वाले परीक्षण को चलाने के बाद एक-पूंछ वाले परीक्षण का चयन करना जो अशक्त परिकल्पना को अस्वीकार करने में विफल रहा, यह उचित नहीं है, भले ही दो-पूंछ परीक्षण महत्वपूर्ण "करीब" कैसे हो।

α

αα100%

P(two-sided rejects or one-sided does, but two sided doesn't)
P(two-sided rejects(one-sided doestwo sided doesn't))
P(two-sided rejects)+P(one-sided doestwo sided doesn't)
α/21α1α/2
P(one-sided doestwo sided doesn't)=α/2
α+α2>α
α/21α1α/21α/2

यहाँ थोड़ा संख्यात्मक चित्रण है:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

1

p<α=0.05

α0.05α

α=0.05α=0.025

α=0.05


फिर, निश्चित रूप से, इस बात को शोधकर्ताओं ने स्वतंत्रता की डिग्री कहा है । आप किसी भी प्रकार के डेटा में महत्व पा सकते हैं, यदि आपके पास पर्याप्त डेटा है और आप इसे अपनी इच्छानुसार कई तरह से जांचने के लिए स्वतंत्र हैं। यही कारण है कि आप डेटा को देखने से पहले आपके द्वारा किए जाने वाले परीक्षण पर निर्णय लेने के लिए हैं। बाकी सब कुछ irreproducible परीक्षा परिणाम की ओर जाता है। मैं YouTube पर जाने और एंड्रयू जेलमेन से बात करने की सलाह देता हूं "उस पर अधिक के लिए डेटा पर अपराध।


1
हम्म, अशक्त परिकल्पना यह नहीं है कि परिणाम यादृच्छिक हैं। यह उन चिकित्सकों और वैज्ञानिकों के लिए भ्रामक होगा जो एक निश्चित परिणाम प्राप्त करने के रूप में अपने काम के परिणामों को बहुत देखते हैं।
एडमो

1
आपका "एक बार जब आप ... के साथ एकतरफा परीक्षण करना शुरू करते हैं, " बिंदु महत्वपूर्ण है। कारण इतना आम है कि कम से आरए फिशर का व्यावहारिक अनुभव है Rothamsted कि अधिक से अधिक किया जा रहा था उम्मीद मूल्य से मानक विचलन आम तौर पर लायक आगे की जांच पड़ताल था, और इस से वह एक दो-पुच्छीय चुना है अंगूठे के अपने नियम के रूप में परीक्षण , दूसरा रास्ता नहीं। इस प्रकार एक-पूंछ वाला समतुल्य0.05 2 5 % 2.5 %α=0.050.0525%2.5%
हेनरी

1

पहली नज़र में, इन बयानों में से कोई भी यह दावा नहीं करता है कि एकतरफा अध्ययन के लिए दो-पक्षीय परीक्षण 'श्रेष्ठ' है। वहाँ केवल शोध परिकल्पना से एक तार्किक संबंध होना चाहिए जिसे परीक्षण किए जा रहे सांख्यिकीय अनुमान से जोड़ा जा रहा है।

उदाहरण के लिए:

... दूसरी दिशा में एक प्रभाव को याद करने के परिणामों पर विचार करें। कल्पना कीजिए कि आपने एक नई दवा विकसित की है जो आपको लगता है कि मौजूदा दवा पर एक सुधार है। आप सुधार का पता लगाने की क्षमता को अधिकतम करना चाहते हैं, इसलिए आप एक-पूंछ वाले परीक्षण का विकल्प चुनते हैं। ऐसा करने में, आप इस संभावना के लिए परीक्षण करने में विफल रहते हैं कि नई दवा मौजूदा दवा की तुलना में कम प्रभावी है।

सबसे पहले यह एक दवा का अध्ययन है। इसलिए विपरीत दिशा में गलत होना सांख्यिकी के ढांचे से परे सामाजिक महत्व है। तो कई ने कहा है कि स्वास्थ्य सामान्यीकरण करने के लिए सबसे अच्छा नहीं है।

उपरोक्त उद्धरण में, यह एक दवा के परीक्षण के बारे में प्रतीत होता है जब एक और पहले से मौजूद है। तो मेरे लिए, इसका मतलब है कि आपकी दवा पहले से ही प्रभावी है। कथन इसके बाद दो प्रभावी दवाओं की तुलना के संबंध में है। इन वितरणों की तुलना करते समय यदि आप अपने तुलनात्मक परिणामों में सुधार के लिए जनसंख्या के एक पक्ष की उपेक्षा कर रहे हैं? यह न केवल एक पक्षपातपूर्ण निष्कर्ष है, बल्कि तुलना करने के लिए तुलना करने के लिए तुलनात्मक वैधता नहीं है: आप सेब की तुलना संतरे से कर रहे हैं।

इसी तरह, बहुत अच्छी तरह से अनुमान लगाया जा सकता है कि सांख्यिकीय अनुमान के लिए निष्कर्ष पर कोई फर्क नहीं पड़ता है, लेकिन सामाजिक महत्व के बहुत अधिक हैं। ऐसा इसलिए है क्योंकि हमारा नमूना लोगों के जीवन का प्रतिनिधित्व करता है: ऐसा कुछ जो "पुन: घटित" नहीं हो सकता और वह अमूल्य है।

वैकल्पिक रूप से, कथन का अर्थ है कि शोधकर्ता के पास एक प्रोत्साहन है: "आप सुधार का पता लगाने के लिए अपनी क्षमता को अधिकतम करने की इच्छा रखते हैं ..." यह धारणा इस मामले के लिए गैर-तुच्छ है कि एक खराब प्रोटोकॉल के रूप में अलग किया जा रहा है।

दो-पूंछ वाले परीक्षण को चलाने के बाद एक-पूंछ वाले परीक्षण का चयन करना जो अशक्त परिकल्पना को अस्वीकार करने में विफल रहा, यह उचित नहीं है, भले ही दो-पूंछ परीक्षण महत्वपूर्ण "करीब" कैसे हो।

यहाँ फिर से इसका अर्थ है कि शोधकर्ता अपने परीक्षण को 'स्विचिंग' कर रहा है: दो-तरफा से एकतरफा। यह कभी उचित नहीं है। परीक्षण से पहले एक शोध का उद्देश्य होना अनिवार्य है। हमेशा दो-तरफा दृष्टिकोण की सुविधा के लिए डिफ़ॉल्ट रूप से - शोधकर्ताओं ने घटना को सख्ती से समझने में अधिक आसानी से विफल कर दिया।

यहां इस विषय पर एक पेपर दिया गया है, वास्तव में, यह मामला बनाते हुए कि दो तरफा परीक्षणों का अत्यधिक उपयोग किया गया है।

यह एक की कमी पर दो तरफा परीक्षण के अति-उपयोग को दोषी ठहराता है:

अनुसंधान की परिकल्पना और इसकी सांख्यिकीय परिकल्पना के बीच स्पष्ट अंतर और एक तार्किक जुड़ाव

यह स्थिति और रुख लेता है कि शोधकर्ताओं:

दो अभिव्यंजक मोड के बीच अंतर या तार्किक प्रवाह के बारे में पता नहीं हो सकता है जिसमें अनुसंधान परिकल्पना को सांख्यिकीय परिकल्पना में अनुवाद किया जाना चाहिए। अनुसंधान और सांख्यिकीय परिकल्पना का एक सुविधा-उन्मुख मिश्रण दो-पूंछ परीक्षण के अति प्रयोग का कारण हो सकता है यहां तक ​​कि उन स्थितियों में भी, जहां दो-पूंछ परीक्षण का उपयोग अनुचित है।

सांख्यिकीय परीक्षण परिणामों की व्याख्या करने में सटीक आँकड़ों को समझाना आवश्यक है। रूढ़िवादी होने के नाम के तहत अक्षम होना अनुशंसित नहीं है। उस लिहाज से, लेखक सोचते हैं कि केवल "जैसे कि यह 0.05 के स्तर पर सांख्यिकीय रूप से महत्वपूर्ण पाया गया था (यानी, पी <0.05)"।

यद्यपि दो-पूंछ परीक्षण सिद्धांत में अधिक रूढ़िवादी है, यह दिशात्मक अनुसंधान की परिकल्पना और इसकी सांख्यिकीय परिकल्पना के बीच की कड़ी को कम करता है, संभवतः दोगुना फुलाए हुए पी मानों के लिए अग्रणी है।

लेखकों ने यह भी दिखाया है कि विपरीत दिशा में महत्वपूर्ण परिणाम खोजने का तर्क औचित्य के संदर्भ में केवल खोज के संदर्भ में अर्थ
रखता है । अनुसंधान की परिकल्पना और उसके अंतर्निहित सिद्धांत के परीक्षण के मामले में, शोधकर्ताओं को एक साथ खोज के संदर्भ और औचित्य के संबंध में एक साथ नहीं होना चाहिए।

https://www.sciencedirect.com/science/article/pii/S0148296312000550


1

अक्सर वैकल्पिक परिकल्पना के खिलाफ अशक्त परिकल्पना के लिए एक महत्व परीक्षण किया जाता है । यह तब होता है जब एक-पूंछ बनाम दो-पूंछ में अंतर होता है।


  • पी-वैल्यू के लिए यह (दो या एक तरफा) कोई फर्क नहीं पड़ता! मुद्दा यह है कि आप एक मानदंड का चयन करते हैं जो केवल उस समय का अंश होता है जब अशक्त परिकल्पना सच होती है। यह या तो दोनों पूंछों के दो छोटे टुकड़े हैं, या एक पूंछ का एक बड़ा टुकड़ा, या कुछ और है।α

    टाइप I त्रुटि दर एक या दो तरफा परीक्षणों के लिए अलग नहीं है।

  • दूसरी ओर, शक्ति के लिए यह मायने रखता है

    यदि आपकी वैकल्पिक परिकल्पना असममित है, तो आप केवल इस पूंछ / छोर पर अशक्त परिकल्पना को अस्वीकार करने के लिए मानदंड पर ध्यान केंद्रित करना चाहते हैं; इस तरह कि जब वैकल्पिक परिकल्पना सच होती है, तो आप अशक्त परिकल्पना को अस्वीकार ("स्वीकार") नहीं करते हैं।

    यदि आपकी वैकल्पिक परिकल्पना सममित है (आप एक विशिष्ट पक्ष पर अधिक या कम शक्ति लगाने की परवाह नहीं करते हैं), और दोनों पक्षों पर विक्षेपण / प्रभाव समान रूप से अपेक्षित है (या बस अज्ञात / असिंचित), तो इसका उपयोग करना अधिक शक्तिशाली है दो-तरफा परीक्षण (आप पूंछ के लिए 50% शक्ति नहीं खो रहे हैं कि आप परीक्षण नहीं कर रहे हैं और जहां आप कई प्रकार की II गलतियां करेंगे)।

    टाइप II त्रुटि दर एक और दो तरफा परीक्षणों के लिए अलग है और वैकल्पिक परिकल्पना पर भी निर्भर करती है।

यह अब बायेसियन अवधारणा की तरह एक सा हो रहा है जब हम इस बारे में पूर्व धारणाओं को शामिल करना शुरू करते हैं कि क्या हम एक तरफ या दोनों तरफ गिरने के प्रभाव की उम्मीद करते हैं या नहीं, और जब हम परीक्षण का उपयोग करना चाहते हैं (यह देखने के लिए कि क्या हम कुछ गलत कर सकते हैं अशक्त-परिकल्पना) 'की पुष्टि' या प्रभाव की तरह अधिक संभावित कुछ बनाने के लिए।


0

तो एक और उत्तर का प्रयास:

मुझे लगता है कि एक-पूंछ या दो-पूंछ लेना वैकल्पिक परिकल्पना पर पूरी तरह से निर्भर करता है।

एक परीक्षण में परीक्षण के अर्थ के निम्नलिखित उदाहरण पर विचार करें:

H0:μ=0

Ha:μ0

अब यदि आप एक बहुत ही नकारात्मक नमूना माध्य या बहुत सकारात्मक नमूना माध्य का निरीक्षण करते हैं, तो आपकी परिकल्पना सच होने की संभावना नहीं है।

दूसरी ओर, आप अपनी परिकल्पना को स्वीकार करने के लिए तैयार होंगे यदि आपका नमूना मतलब करीब है चाहे नकारात्मक या सकारात्मक । अब आपको उस अंतराल को चुनने की आवश्यकता है, जिसमें यदि आपका नमूना मतलब गिर जाएगा, तो आप अपनी अशक्त परिकल्पना को अस्वीकार नहीं करेंगे। जाहिर है आप एक ऐसा अंतराल चुनेंगे जिसमें आसपास नकारात्मक और सकारात्मक दोनों पक्ष हों । इसलिए आप टू साइड टेस्ट चुनें।0 0

लेकिन क्या होगा यदि आप का परीक्षण नहीं करना चाहते हैं , बल्कि । अब सहज रूप से हम यहां जो करना चाहते हैं वह यह है कि यदि नमूना का अर्थ बहुत नकारात्मक आता है, तो हम निश्चित रूप से अपने अशक्तता को अस्वीकार कर सकते हैं। इसलिए हम केवल नमूना के नकारात्मक मूल्यों के लिए शून्य को अस्वीकार करना चाहते हैं।μ=0μ0

लेकिन रुकें! अगर यह मेरी अशक्त परिकल्पना है तो मैं अपना अशक्त वितरण कैसे निर्धारित करूंगा। नमूना माध्य का अशक्त वितरण जनसंख्या पैरामीटर के कुछ मान के लिए जाना जाता है (यहाँ )। लेकिन वर्तमान अशक्त के तहत यह कई मान ले सकता है।0

मान लीजिए कि हम अनंत अशक्त परिकल्पना कर सकते हैं। का एक सकारात्मक मूल्य संभालने के लिए प्रत्येक । लेकिन इस बारे में सोचें: की हमारी पहली परिकल्पना में , यदि हम केवल बहुत दूर के नकारात्मक नमूने का अर्थ करने पर शून्य को अस्वीकार करते हैं, तो साथ प्रत्येक अगली परिकल्पना भी इसे अस्वीकार कर देगी। क्योंकि उनके लिए, नमूना मतलब जनसंख्या पैरामीटर से भी अधिक दूर है। इसलिए मूल रूप से हम सभी को वास्तव में केवल एक परिकल्पना करनी चाहिए, लेकिन एक-पूंछμH0:μ=0H0:μ>0

तो आपका समाधान बन जाता है:

H0:μ=0

Ha:μ<0

सबसे अच्छा उदाहरण स्टेशनरी के लिए डिकी-फुलर परीक्षण है।

उम्मीद है की यह मदद करेगा। (डायग्राम शामिल करना चाहते हैं लेकिन मोबाइल से उत्तर देना)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.