क्या बड़े डेटा सेट परिकल्पना परीक्षण के लिए अनुपयुक्त हैं?


129

अम्स्टैट न्यूज़ के एक हालिया लेख में , लेखकों (मार्क वैन डेर लान और शीरी रोज़) ने कहा कि "हम जानते हैं कि बड़े पर्याप्त नमूने के आकार के लिए, प्रत्येक अध्ययन - जिसमें कोई प्रभाव नहीं है की शून्य परिकल्पना सच है - की घोषणा करेगा सांख्यिकीय रूप से महत्वपूर्ण प्रभाव। "

खैर, मैं एक के लिए नहीं जानता था कि। क्या ये सच है? क्या इसका मतलब है कि बड़े डेटा सेट के लिए परिकल्पना परीक्षण बेकार है?


10
+1: यह प्रश्न आमतौर पर कुछ दिलचस्प दृष्टिकोणों को उजागर करता है।
user603

7
बड़े डेटा सेट पर अधिक चर्चा आँकड़े.स्टैकएक्सचेंज . com / q / 7815 / 919 पर दिखाई देती है । (फोकस प्रतिगमन मॉडलिंग पर है।)
whuber


8
यदि एक बड़ा नमूना आपको लगता है कि परिकल्पना परीक्षण गलत उपकरण था, तो परिकल्पना परीक्षण वास्तव में छोटे नमूनों पर सही प्रश्न का उत्तर नहीं दे रहा था - यह गलत था कि केवल बड़े नमूना आकार में अधिक स्पष्ट हो गया , लेकिन समान विचार प्रासंगिक हैं । यदि एक बहुत छोटे प्रभाव के आकार में एक महत्वपूर्ण परिणाम आपको "अच्छी तरह से कहता है, तो यही वह है जो मैं चाहता था, मैं चाहता था कि वह मुझे बताए कि क्या यह महत्वपूर्ण था" तो परिकल्पना परीक्षण केवल गलत उपकरण था जिसके साथ शुरू करना था। उस तरह की समस्या के लिए अधिक उपयुक्त उपकरण (जैसे आत्मविश्वास अंतराल, तुल्यता परीक्षण, आदि) हैं।
Glen_b

जवाबों:


91

यह सच नहीं है। यदि अशक्त परिकल्पना सच है, तो इसे छोटे की तुलना में बड़े नमूना आकारों में अधिक बार अस्वीकार नहीं किया जाएगा। एक गलत अस्वीकृति दर है जो आमतौर पर 0.05 (अल्फा) पर सेट है लेकिन यह नमूना आकार से स्वतंत्र है। इसलिए, शाब्दिक रूप से लिया गया कथन गलत है। फिर भी, यह संभव है कि कुछ स्थितियों में (यहां तक ​​कि पूरे क्षेत्र में) सभी नल झूठे हैं और इसलिए सभी को अस्वीकार कर दिया जाएगा यदि एन पर्याप्त है। लेकिन क्या यह बुरी बात है?

यह सच है कि तुच्छ छोटे प्रभाव बहुत बड़े नमूना आकारों के साथ "महत्वपूर्ण" हो सकते हैं। यह सुझाव नहीं देता है कि आपके पास इतने बड़े नमूने आकार नहीं होने चाहिए। इसका मतलब यह है कि जिस तरह से आप अपनी खोज की व्याख्या करते हैं वह परीक्षण के प्रभाव के आकार और संवेदनशीलता पर निर्भर है। यदि आपके पास एक बहुत छोटा प्रभाव आकार और अत्यधिक संवेदनशील परीक्षण है, तो आपको यह पहचानना होगा कि सांख्यिकीय रूप से महत्वपूर्ण खोज सार्थक या उपयोगी नहीं हो सकती है।

यह देखते हुए कि कुछ लोग यह नहीं मानते हैं कि अशक्त परिकल्पना का एक परीक्षण, जब अशक्त सत्य है , हमेशा किसी भी नमूने के आकार के लिए चयनित कटऑफ बिंदु के बराबर त्रुटि दर होती है, यहां Rबिंदु साबित करने में एक सरल अनुकरण है । N को आप जितना चाहें उतना बड़ा बना लें और टाइप I त्रुटियों की दर स्थिर रहेगी।

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.

8
+1: वास्तव में, यहां सभी तीन उत्तर तार्किक रूप से एक दूसरे के अनुरूप हैं।
user603

1
अंत में मुझे कुछ (गैर-सांख्यिकी) प्रोफेसर की डिबगिंग मिली है जो मुझे बहुत समय पहले बताई गई थी।
जस

1
@ सिम्पा, नहीं। सिर्फ इसलिए कि एसई नीचे चला जाता है क्योंकि एन ऊपर जाता है इसका मतलब यह नहीं है कि आपको हमेशा बड़े एन (सिमुलेशन देखें) के साथ एक प्रभाव मिलेगा। ध्यान रखें कि जैसा कि एसई नीचे जा रहा है, प्रभाव के अनुमान की गुणवत्ता बढ़ रही है। यदि कोई जनसंख्या प्रभाव नहीं है, तो यह 0 के करीब होने और कोई अंतर नहीं दिखाने की अधिक संभावना है। वास्तव में, पी-वैल्यू का वितरण समतल आकार की परवाह किए बिना सपाट होता है जब भी नल सत्य होता है (उसके लिए अपना खुद का सिमुलेशन लिखें)। उत्तर में कोई विरोधाभास नहीं है।
जॉन

4
तब आप गलत होंगे। आप यहाँ अन्य उत्तरों को पढ़ने पर भी विचार करना चाह सकते हैं। चूंकि आप सिमुलेशन और परिकल्पना परीक्षण के बीच के रिश्ते का पालन नहीं कर सकते हैं, मुझे लगता है कि मैं केवल आपके प्राथमिक दावे को इंगित कर सकता हूं कि जैसे ही मानक त्रुटि नीचे जाती है, टी ऊपर जाता है, और पी नीचे जाता है। यह केवल सच है कि प्रभाव स्थिर रहना चाहिए। लेकिन प्रभाव एक यादृच्छिक नमूना है और जब वास्तविक प्रभाव 0 होता है, तो जैसा कि एन बढ़ जाता है मनाया प्रभाव कम हो जाता है। इसलिए, भले ही, N बढ़ता हुआ SE नीचे जाता है, यह t-मान नहीं बढ़ाएगा क्योंकि t-value में अंश भी कम होगा।
जॉन

1
तथ्य यह है कि rnorm एक तर्कहीन संख्या का उत्पादन नहीं कर सकता है उदाहरण में अप्रासंगिक है। भले ही यह 0 के मतलब से सामान्य रूप से सामान्य रूप से आकर्षित नहीं करता है और 1 के sd में है, यह दोनों नमूनों के लिए सामान्य नहीं है। टाइप I त्रुटि दर कभी भी .05 से थोड़ी दूर हो सकती है, लेकिन इसे एन की परवाह किए बिना स्थिर रहना चाहिए। और यह सभी सिमुलेशन के सच नहीं है क्योंकि मैं एक असतत को चुन सकता था जहां यह एक मुद्दा नहीं है। (यदि आप वास्तव में एक गूढ़ मुद्दा उठाना चाहते थे, तो आपको छद्म यादृच्छिकता को संबोधित करना चाहिए था।)
जॉन

31

मैं उन उत्तरों से सहमत हूं जो सामने आए हैं, लेकिन जोड़ना चाहते हैं कि शायद प्रश्न को पुनर्निर्देशित किया जा सकता है। एक परिकल्पना का परीक्षण करना है या नहीं, यह एक शोध प्रश्न है जो कम से कम सामान्य रूप से, कितना डेटा है, से स्वतंत्र होना चाहिए। यदि आपको वास्तव में एक परिकल्पना का परीक्षण करने की आवश्यकता है, तो ऐसा करें, और छोटे प्रभावों का पता लगाने की अपनी क्षमता से डरो मत। लेकिन पहले पूछें कि क्या यह आपके शोध उद्देश्यों का हिस्सा है।

अब कुछ क्विबल्स के लिए:

  • कुछ अशक्त परिकल्पनाएँ निर्माण द्वारा बिल्कुल सत्य हैं। जब आप उदाहरण के लिए, समीकरण के लिए एक छद्म आयामी संख्या जनरेटर का परीक्षण कर रहे हैं, और यह कि पीआरजी वास्तव में समान है (जो एक गणितीय प्रमेय होगा), तो अशक्त धारण करता है। संभवतः आप में से अधिकांश अधिक दिलचस्प वास्तविक दुनिया के उदाहरणों के बारे में सोच सकते हैं जो प्रयोगों में यादृच्छिककरण से उत्पन्न होते हैं जहां उपचार का वास्तव में कोई प्रभाव नहीं पड़ता है। (मैं जासूसी पर पूरे साहित्य को एक उदाहरण के रूप में पकड़ूंगा। ;-)

  • एक स्थिति है जहाँ एक "सरल" अशक्त क्लासिक टी परीक्षण या z-परीक्षण में के रूप में एक "मिश्रित" विकल्प के खिलाफ परीक्षण किया जाता है, में, यह आम तौर पर एक नमूना आकार के लिए आनुपातिक लेता है का प्रभाव आकार का पता लगाने के । किसी भी अध्ययन में इसके लिए एक व्यावहारिक ऊपरी सीमा होती है, जिसका अर्थ है कि एक डिटेक्टिव प्रभाव आकार पर एक व्यावहारिक निचला बाउंड है। इसलिए, एक सैद्धांतिक बात के रूप में der Laan और Rose सही हैं, लेकिन हमें उनके निष्कर्ष को लागू करने में ध्यान रखना चाहिए। ϵ1/ϵ2ϵ


क्या यह सब प्रकार I त्रुटि बनाम प्रकार II त्रुटि (या शक्ति) का मामला नहीं है? यदि कोई फिक्स टाइप I त्रुटि संभावना ( ) 0.05 पर टाइप करता है , तो, जाहिर है (असतत मामले को छोड़कर), यह 0.05 होगा कि नमूना बड़ा है या नहीं। लेकिन दिए गए प्रकार I त्रुटि की संभावना के लिए, 0.05 उदाहरण के लिए, शक्ति, या संभावना है कि जब आप प्रभाव का पता लगाएंगे, तब यह बड़े नमूना आकारों के लिए बड़ा है। α

@fcop आपकी टिप्पणी, हालांकि सही है, अन्य उत्तरों पर निर्देशित लगती है। वे इस एक बिंदु को याद करते हैं, जो यह सुझाव देता है कि सभी सांख्यिकीय विश्लेषणों को परिकल्पना परीक्षणों की आवश्यकता नहीं है। टाइप I और II की त्रुटियों का अर्थ केवल औपचारिक परिकल्पना परीक्षणों का आयोजन करना है।
whuber

ओपी एक बयान को संदर्भित करता है: '' हम जानते हैं कि बड़े पर्याप्त नमूना आकारों के लिए, प्रत्येक अध्ययन-जिसमें वे शामिल हैं जिनमें बिना किसी प्रभाव के शून्य परिकल्पना सच है - एक सांख्यिकीय रूप से महत्वपूर्ण प्रभाव की घोषणा करेगा। '' इसलिए, यदि आप परीक्षण करते हैं जैसे कि बनाम तब बड़े नमूनों में शक्ति इतनी अधिक होती है कि आप 1 से भी छोटे विचलन का 'पता लगा लेते हैं' तो मुझे लगता है कि उनका कथन सही नहीं है, लेकिन बड़े नमूनों में वह शक्ति आपको अनुमति देती है बहुत छोटे अंतर का पता लगाने के लिए। एच 1 : μ 1H0:μ=1H1:μ1

@fcop समझाने के लिए धन्यवाद। मैं आपके तर्क से सहमत हूं: जब अशक्त सत्य है, तो निर्माण से भी बड़े अध्ययनों में उनके परीक्षण के आकार के बराबर एक मौका के साथ एक महत्वपूर्ण प्रभाव मिलेगा - अर्थात, वे एक महत्वपूर्ण प्रभाव को खोजने की संभावना नहीं रखेंगे।
whuber

19

जब पारंपरिक रूप से अल्फा 0.05 से कम होता है, तो एक प्रमुख कमजोरी होती है, परम्परागत रूप से सांख्यिकीय महत्व प्राप्त करने के लिए पी मूल्यों पर ध्यान केंद्रित करने वाली परिकल्पना का परीक्षण। और, यह है कि एक बड़े पर्याप्त नमूना आकार के साथ कोई भी प्रयोग अंततः शून्य परिकल्पना को अस्वीकार कर सकता है और तुच्छ रूप से छोटे अंतरों का पता लगा सकता है जो सांख्यिकीय रूप से महत्वपूर्ण हैं।

यही कारण है कि दवा कंपनियों ने बहुत बड़े नमूनों के साथ एफडीए अनुमोदन प्राप्त करने के लिए नैदानिक ​​परीक्षणों की संरचना की। बड़ा नमूना शून्य के करीब मानक त्रुटि को कम करेगा। यह बदले में टी स्टेट को कृत्रिम रूप से बढ़ाएगा और कम से कम 0% के करीब पी मूल्य को कम करेगा।

मैं वैज्ञानिक समुदायों के भीतर इकट्ठा होता हूं जो आर्थिक प्रोत्साहन से भ्रष्ट नहीं हैं और ब्याज की परिकल्पना परीक्षण के संबंधित संघर्ष प्रभाव आकार माप की दिशा में किसी भी पी मूल्य माप से दूर जा रहे हैं। ऐसा इसलिए है क्योंकि प्रभाव आकार विश्लेषण में सांख्यिकीय दूरी या भेदभाव की इकाई मानक त्रुटि के बजाय मानक विचलन है। और, मानक विचलन पूरी तरह से नमूना आकार से स्वतंत्र है। दूसरी ओर मानक त्रुटि पूरी तरह से नमूना आकार से निर्भर है।

तो, किसी को भी, जो बड़े नमूनों और पी मूल्य से संबंधित कार्यप्रणालियों के आधार पर सांख्यिकीय रूप से महत्वपूर्ण परिणामों तक पहुंचने की परिकल्पना परीक्षण पर संदेह है, संदेहपूर्ण होना सही है। उन्हें एक ही डेटा का उपयोग करके विश्लेषण करना चाहिए लेकिन इसके बजाय प्रभाव आकार सांख्यिकीय परीक्षणों का उपयोग करना चाहिए। और, फिर निरीक्षण करें कि क्या प्रभाव आकार सामग्री माना जाता है या नहीं। ऐसा करके, आप देख सकते हैं कि सांख्यिकीय रूप से महत्वपूर्ण मतभेदों का एक गुच्छा प्रभाव आकार के साथ जुड़ा हुआ है जो कि सारहीन हैं। यही कारण है कि कभी-कभी नैदानिक ​​परीक्षण शोधकर्ताओं का मतलब होता है जब कोई परिणाम सांख्यिकीय रूप से महत्वपूर्ण होता है, लेकिन "नैदानिक ​​रूप से महत्वपूर्ण नहीं"। उनका मतलब है कि एक उपचार प्लेसबो से बेहतर हो सकता है, लेकिन अंतर इतना मामूली है कि इससे रोगी को नैदानिक ​​संदर्भ में कोई फर्क नहीं पड़ेगा।


1
एक व्यक्ति का बड़ा नमूना दूसरे का छोटा नमूना है। :)
Iterator 14

3
क्या आपने गलत प्रश्न नहीं पूछा? हो सकता है कि एफडीए अनुमोदन प्रक्रिया को केवल सांख्यिकीय महत्व की आवश्यकता के बजाय एक बड़ा लाभ बनाम प्लेसेबो (शायद दवा की लागत से संबंधित, इसके प्रतिकूल प्रभाव सहित) निर्दिष्ट करना चाहिए? क्योंकि वहाँ बहुत अच्छी तरह से एक वास्तविक अंतर हो सकता है, भले ही बहुत छोटा है, और यह अंतर सांख्यिकीय रूप से महत्वपूर्ण है, लेकिन यह बहुत छोटा है।
एमिल विक्रोत्तम

FDA को "सिर्फ सांख्यिकीय महत्व" की आवश्यकता नहीं है। वह बेतुका होगा। उद्योग में हर कोई समझता है कि "चिकित्सकीय रूप से महत्वपूर्ण" क्या है। एफडीए ने चिकित्सीय समापन बिंदुओं द्वारा मापी गई दवा की प्रभावकारिता के सांख्यिकीय प्रमाणों का वजन किया है , जैसे कि छूट, स्वास्थ्य और सुरक्षा चिंताओं के खिलाफ। आधारहीन दावे करने से पहले कृपया एफडीए दिशानिर्देश पढ़ें।
क्यूर

15

ए (अक्सर) परिकल्पना परीक्षण, ठीक है, मनाया डेटा की संभावना के सवाल को संबोधित करते हैं या कुछ अधिक चरम संभावना होगी कि अनुमान परिकल्पना सच है। यह व्याख्या नमूना आकार के प्रति उदासीन है। यह व्याख्या मान्य है कि क्या नमूना 5 या 1,000,000 आकार का है।

एक महत्वपूर्ण चेतावनी यह है कि परीक्षण केवल नमूना त्रुटियों के लिए प्रासंगिक है। माप, नमूना समस्याओं, कवरेज, डेटा प्रविष्टि त्रुटियों, आदि की कोई भी त्रुटि नमूनाकरण त्रुटि के दायरे से बाहर है। जैसा कि नमूना आकार बढ़ता है, गैर-नमूनाकरण त्रुटियां अधिक प्रभावशाली हो जाती हैं क्योंकि छोटे प्रस्थान यादृच्छिक नमूने मॉडल से महत्वपूर्ण प्रस्थान का उत्पादन कर सकते हैं। नतीजतन, महत्व के परीक्षण कम उपयोगी हो जाते हैं।

यह किसी भी तरह से महत्व परीक्षण का संकेत नहीं है। हालांकि, हमें अपने अटेंशन के बारे में सावधान रहने की जरूरत है। एक परिणाम सांख्यिकीय रूप से महत्वपूर्ण हो सकता है। हालाँकि, हमें इस बारे में सतर्क रहने की आवश्यकता है कि नमूना आकार बड़ा होने पर हम किस तरह से अटेंशन बनाते हैं। क्या हमारी परिकल्पित जनन प्रक्रिया के कारण यह अंतर एक विज़न सैंपलिंग त्रुटि है या क्या यह संभव गैर-सैंपलिंग त्रुटियों में से किसी एक का परिणाम है जो टेस्ट स्टेटिस्टिक (जो स्टैटिस्टिक के लिए खाता नहीं है) को प्रभावित कर सकता है?

बड़े नमूनों के साथ एक और विचार एक परिणाम का व्यावहारिक महत्व है। एक महत्वपूर्ण परीक्षण सुझाव दे सकता है (भले ही हम गैर-नमूना त्रुटि को नियंत्रित कर सकते हैं) एक अंतर जो व्यावहारिक अर्थों में तुच्छ है। यहां तक ​​कि अगर उस परिणाम को नमूनाकरण मॉडल दिए जाने की संभावना नहीं है, तो क्या यह समस्या के संदर्भ में महत्वपूर्ण है? एक बड़े पर्याप्त नमूने को देखते हुए, दो समूहों के बीच आय की तुलना करते समय कुछ डॉलर में अंतर एक परिणाम के लिए पर्याप्त हो सकता है जो सांख्यिकीय रूप से महत्वपूर्ण है। क्या यह किसी भी सार्थक अर्थ में महत्वपूर्ण है? सांख्यिकीय महत्व अच्छे निर्णय और विषय ज्ञान के लिए कोई प्रतिस्थापन नहीं है।

एक तरफ के रूप में, नल न तो सच है और न ही झूठ है। यह एक मॉडल है। यह एक धारणा है। हम मानते हैं कि अशक्त सही है और उस धारणा के संदर्भ में हमारे नमूने का आकलन करते हैं। यदि हमारे नमूने को इस धारणा की संभावना नहीं होगी, तो हम अपने विकल्प पर अधिक भरोसा करते हैं। यह सवाल करने के लिए कि क्या एक अशक्त व्यवहार में कभी सच है या नहीं, महत्व परीक्षण के तर्क की गलतफहमी है।


3
यह बढ़ी हुई मॉडल जटिलता के लिए एक तर्क का समर्थन करता है क्योंकि नमूना आकार बड़े हो जाते हैं - बड़े नमूना मामले में नमूना त्रुटि अब अनिश्चितता का प्रमुख स्रोत नहीं है। निश्चित रूप से यह केवल एक बेशियन ढांचे में "समझ में" आता है, जो नमूना त्रुटि के अलावा अनिश्चितता के अन्य स्रोतों के लिए अनुमति देता है।
probabilityislogic

13

एक अन्य बिंदु में सीधे नहीं बनाया गया एक सरल बिंदु यह है कि यह केवल सच नहीं है कि "सभी अशक्त परिकल्पनाएं झूठी हैं।"

साधारण परिकल्पना है कि एक भौतिक सिक्के के सिर की संभावना 0.5 के बराबर है, ठीक है, यह गलत है।

लेकिन यौगिक परिकल्पना है कि एक भौतिक सिक्के की प्रमुखता 0.499 से अधिक है और 0.501 से कम सच है। यदि ऐसा है, तो कोई परिकल्पना परीक्षण नहीं - चाहे इसमें कितने भी सिक्के झड़ जाएं - इस परिकल्पना को अस्वीकार करने में सक्षम होने जा रहा है जिसमें (झूठे सकारात्मक पर परीक्षणों की बाध्यता) से अधिक संभावना है ।α

α


9

एक निश्चित अर्थ में, [सभी] कई शून्य परिकल्पना कर रहे हैं [हमेशा] झूठी (विषम संख्या के साथ घरों में रहने वाले कभी नहीं करता है लोगों के समूह वास्तव में के रूप में लोगों का समूह भी संख्या के साथ घरों में रहने वाले औसतन एक ही कमाने)।

Tαn0.5Tααn

यह सांख्यिकीय परीक्षणों का दोष नहीं है। इस तथ्य का एक परिणाम है कि आगे की जानकारी के बिना (पूर्व) हमारे पास यह है कि अशक्त के साथ बड़ी संख्या में छोटे विसंगतियों को शून्य के खिलाफ सबूत के रूप में लेना होगा। कोई फर्क नहीं पड़ता कि ये विसंगतियां कितनी तुच्छ हैं।

P^(|μ¯1μ¯2|2>η|η,X)


यह अजीब है ... सहज रूप से, यह बड़ी संख्या के कानून के विपरीत लगता है।
कार्लोस एक्सीओली

कार्लोस:> क्या आप अधिक विशिष्ट हो सकते हैं?
user603

n

1
@ करलोस - लेकिन अभिसरण का मतलब समानता नहीं है; यह केवल अनन्तता की अगम्य सीमा के लिए गारंटी है। इसलिए कोई विरोधाभास नहीं है ;-)

5

संक्षिप्त जवाब नहीं है"। अनंत प्रेक्षणों और कई परिकल्पनाओं के स्पर्शोन्मुख शासन में परिकल्पना परीक्षण पर शोध पिछले 15-20 वर्षों में बहुत सक्रिय रहा है, क्योंकि माइक्रोएरे डेटा और वित्तीय डेटा अनुप्रयोगों के कारण। लंबा जवाब स्टेट 329 के कोर्स पेज में है, "लार्ज-स्केल सिमुलेंटी इन्वेंशन", जो 2010 में ब्रैड अल्फ्रॉन द्वारा पढ़ाया गया था। एक पूर्ण अध्याय बड़े पैमाने पर परिकल्पना परीक्षण के लिए समर्पित है।


7
मेरा मानना ​​है कि एफ्रॉन की पुस्तक बड़ी संख्या में चर (और इसके परिणामस्वरूप उत्पन्न होने वाले कई परीक्षण मुद्दे) पर केंद्रित है, न कि नमूना आकार पर।
गालिट श्मुइली

4

बड़े डेटा के लिए परिकल्पना परीक्षण में वांछित अंतर का स्तर होना चाहिए, बजाय इसके कि कोई अंतर है या नहीं। आप H0 में रुचि नहीं रखते हैं कि अनुमान ठीक 0. है। एक सामान्य दृष्टिकोण यह जांचने के लिए होगा कि क्या शून्य परिकल्पना और देखे गए मूल्य के बीच का अंतर किसी दिए गए कट-ऑफ मूल्य से बड़ा है या नहीं।

X1¯>X2¯

T=X1¯X2¯δS2n+δS2nN(δS2n,1)
T=X1¯X2¯S2nN(δS2n,1)

H0:X1¯X2¯=δ

X1¯X2¯δS2nN(0,1)

HAX1¯X2¯>δ

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

जो देता है :

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100 

क्या पहले समीकरण में कोई कॉपी / पास्ट टाइपो नहीं है?
1960 में user603

मैं इसे नहीं देखता?
जोरिस मेय्स

4

"क्या इसका मतलब है कि परिकल्पना परीक्षण बड़े डेटा सेट के लिए बेकार है?"

नहीं, इसका मतलब यह नहीं है। सामान्य संदेश यह है कि एक परिकल्पना परीक्षण करने के बाद किए गए निर्णय हमेशा अनुमानित प्रभाव आकार को ध्यान में रखना चाहिए , न कि केवल पी-मूल्य। विशेष रूप से, बहुत बड़े नमूना आकारों के प्रयोगों में, प्रभाव आकार पर विचार करने की यह आवश्यकता नाटकीय हो जाती है। बेशक, सामान्य तौर पर, उपयोगकर्ता इसे पसंद नहीं करते क्योंकि प्रक्रिया कम "स्वचालित" हो जाती है।

इस सिमुलेशन उदाहरण पर विचार करें। मान लीजिए कि आपके पास मानक सामान्य वितरण से 1 मिलियन टिप्पणियों का यादृच्छिक नमूना है,

n <- 10^6
x <- rnorm(n)

0.01

y <- rnorm(n, mean = 0.01)

95%2.5×1014

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

95%[0.013,0.008]

क्या हम जो अध्ययन कर रहे हैं या नहीं, उस विशेष समस्या के लिए प्रासंगिक परिमाण के इस क्रम के दो जनसंख्या के बीच अंतर है ?


मैं उस पहले वाक्य को छोड़कर आपके उत्तर की हर बात से सहमत हूँ, जिसे मैं "हाँ में बदलूंगा, इसका आमतौर पर मतलब होता है," क्योंकि एक लाख या तो प्रभाव के बड़े नमूने के साथ एसओ छोटे होते हैं।
zbicyclist

α

3

HST:d1=1.23,d2=1.11,di

लेकिन एक आम तौर पर इन निश्चित बात परिकल्पना में कोई दिलचस्पी नहीं है। यदि आप इस बारे में सोचते हैं कि आप वास्तव में परिकल्पना परीक्षण के साथ क्या करना चाहते हैं, तो आप जल्द ही पहचान लेंगे कि आपको अशक्त परिकल्पना को अस्वीकार करना चाहिए यदि आपके पास इसे बदलने के लिए कुछ बेहतर है। यहां तक ​​कि अगर आपका नल डेटा की व्याख्या नहीं करता है, तो इसे बाहर फेंकने का कोई फायदा नहीं है, जब तक कि आपके पास प्रतिस्थापन न हो। अब क्या आप हमेशा "सुनिश्चित बात" परिकल्पना के साथ अशक्त को प्रतिस्थापित करेंगे? शायद नहीं, क्योंकि आप अपने डेटा सेट से परे सामान्यीकरण करने के लिए इन "सुनिश्चित चीज़" परिकल्पना का उपयोग नहीं कर सकते हैं। यह आपके डेटा को प्रिंट करने से ज्यादा नहीं है।

इसलिए, आपको जो करना चाहिए वह उस परिकल्पना को निर्दिष्ट करता है जिसे आप वास्तव में अभिनय में रुचि रखते हैं यदि वे सच थे। फिर उन विकल्पों की एक-दूसरे से तुलना करने के लिए उचित परीक्षण करें - और परिकल्पना के कुछ अप्रासंगिक वर्ग के लिए नहीं, जिसे आप गलत या अनुपयोगी जानते हैं।

H0:μ=0H1:μ{±1,±2,±3,±4,±5,±6}0.5100

यह निष्कर्ष मूल रूप से है कि आपको अपनी परिकल्पना के स्थान को निर्दिष्ट करने की आवश्यकता है - उन परिकल्पनाओं को जिन्हें आप वास्तव में रुचि रखते हैं। ऐसा लगता है कि बड़े डेटा के साथ, यह करना एक बहुत ही महत्वपूर्ण बात हो जाती है, बस क्योंकि आपके डेटा में बहुत अधिक संकल्प शक्ति है। यह भी लगता है कि यह परिकल्पना की तरह महत्वपूर्ण है - बिंदु के साथ बिंदु, यौगिक के साथ यौगिक - अच्छी तरह से व्यवहार किए गए परिणाम प्राप्त करने के लिए।


3

यह सच है, कि सभी उपयोगी बिंदु परिकल्पना परीक्षण सुसंगत हैं और इस प्रकार एक महत्वपूर्ण परिणाम दिखाई देगा यदि केवल नमूना आकार काफी बड़ा है और कुछ अप्रासंगिक प्रभाव मौजूद हैं। सांख्यिकीय परिकल्पना परीक्षण (पहले से ही गायन शेर के उत्तर द्वारा उल्लिखित) की इस खामी को दूर करने के लिए प्रासंगिकता परीक्षण हैं। ये समतुल्यता परीक्षण के समान हैं लेकिन कम सामान्य भी हैं। प्रासंगिकता परीक्षण के लिए, न्यूनतम प्रासंगिक प्रभाव का आकार निर्धारित है। एक प्रासंगिकता परीक्षण प्रभाव के लिए एक आत्मविश्वास अंतराल पर आधारित हो सकता है: यदि विश्वास अंतराल और प्रासंगिकता क्षेत्र असंतुष्ट हैं, तो आप अशक्तता को अस्वीकार कर सकते हैं।

हालांकि, वैन डेर लान और रोज अपने बयान में मानते हैं, कि पढ़ाई में भी सच्चे अशक्त परिकल्पनाओं का परीक्षण किया जाता है। यदि एक अशक्त परिकल्पना सत्य है, तो अस्वीकार करने की प्रवृत्ति अल्फा से बड़ी नहीं है, विशेष रूप से बड़े नमूनों के मामले में और यहां तक ​​कि गलत वर्तनी के कारण मैं केवल यह देख सकता हूं कि नमूना वितरण जनसंख्या वितरण से व्यवस्थित रूप से अलग है,


3

आपके द्वारा उल्लिखित लेख में एक मान्य बिंदु है, जहाँ तक मानक बार-बार होने वाले परीक्षण का संबंध है। इसीलिए किसी दिए गए प्रभाव के आकार का परीक्षण बहुत महत्वपूर्ण है। समझाने के लिए, यहां 3 समूहों के बीच एक एनोवा है, जहां ग्रुप बी ग्रुप ए और सी की तुलना में थोड़ा अलग है, आर में यह प्रयास करें:

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

जैसा कि अपेक्षित था, प्रति परीक्षण नमूनों की अधिक संख्या के साथ, परीक्षण का सांख्यिकीय महत्व बढ़ जाता है: यहां छवि विवरण दर्ज करें


2

मुझे लगता है कि उनका मतलब यह है कि एक अक्सर अशक्त परिकल्पना की संभावना घनत्व के बारे में एक धारणा बना देता है जिसका एक 'सरल' रूप होता है, लेकिन सही संभावना घनत्व के अनुरूप नहीं होता है।

अब छोटे डेटा सेट के साथ, आपको इस प्रभाव को देखने के लिए पर्याप्त संवेदनशीलता नहीं हो सकती है, लेकिन एक बड़े पर्याप्त डेटा सेट के साथ आप अशक्त परिकल्पना को अस्वीकार कर देंगे और निष्कर्ष निकालेंगे कि यह निष्कर्ष निकालने के बजाय एक नया प्रभाव है कि अशक्त परिकल्पना के बारे में आपकी धारणा गलत है।


1
मुझे नहीं पता कि क्या मार्क और शर्न के दिमाग में आपका विचार था लेकिन सिर्फ अपनी बात फिर से कहने के लिए- अगर अशक्त के तहत डेटा के लिए मॉडल 'गलत' है तो आप एक बड़े पर्याप्त डेटा के लिए अशक्त परिकल्पना को खारिज कर देंगे।

1

α

H0H1

सैंपल साइज (अन्य सभी चीजों के बराबर) से पावर बढ़ती है।

लेकिन यह कथन कि "हम जानते हैं कि बड़े नमूने के आकार के लिए, प्रत्येक अध्ययन-जिसमें वे शामिल हैं जिनमें बिना किसी प्रभाव के शून्य परिकल्पना सत्य है - एक सांख्यिकीय रूप से महत्वपूर्ण प्रभाव की घोषणा करेगा।" गलत है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.