तुलना और विषमता, पी-मान, महत्व स्तर और टाइप I त्रुटि


21

मैं सोच रहा था कि क्या कोई पी-वैल्यू, महत्व स्तर और टाइप I त्रुटि की परिभाषाओं और उपयोगों के रूप में एक संक्षिप्त रूप दे सकता है।

मैं समझता हूं कि पी-मानों को "एक परीक्षण सांख्यिकीय प्राप्त करने की संभावना के रूप में कम से कम चरम पर है जिसे हमने वास्तव में देखा था" के रूप में परिभाषित किया गया है, जबकि एक महत्व स्तर केवल एक मनमाना कटऑफ मान है कि पी-मूल्य महत्वपूर्ण है या नहीं । टाइप I एरर एक अस्वीकृत परिकल्पना को खारिज करने की त्रुटि है जो सत्य थी। हालाँकि, मैं महत्व स्तर और मैं त्रुटि के बीच के अंतर के बारे में अनिश्चित हूं, क्या वे समान अवधारणा नहीं हैं?

उदाहरण के लिए, एक बहुत ही सरल प्रयोग को मानें जहां मैं 1000 बार एक सिक्का फ्लिप करता हूं और 'हेड्स' पर जितनी बार लैंड करता है, उतनी बार गिनती करता है। मेरी अशक्त परिकल्पना, H0, यह है कि सिर = 500 (निष्पक्ष सिक्का)। मैंने तब अल्फा = 0.05 पर अपना महत्व स्तर निर्धारित किया।

मैं सिक्के को 1000 बार फ्लिप करता हूं और फिर मैं पी-वैल्यू की गणना करता हूं, अगर पी-वैल्यू> 0.05 है तो मैं शून्य परिकल्पना को अस्वीकार करने में विफल रहता हूं और यदि पी-वैल्यू <0.05 है तो मैं शून्य परिकल्पना को अस्वीकार करता हूं।

अब अगर मैंने यह प्रयोग बार-बार किया, तो प्रत्येक बार पी-वैल्यू की गणना की और या तो अस्वीकार कर दिया या अशक्त परिकल्पना को अस्वीकार करने में असफल रहा और कितने को मैंने अस्वीकार कर दिया / अस्वीकार करने की गिनती को बनाए रखा, तो मैं शून्य हाइपोथीसिस के 5% को अस्वीकार कर दूंगा जो वास्तविकता में थे, क्या यह सही है? यह टाइप I एरर की परिभाषा है। इसलिए, फिशर महत्व परीक्षण में महत्व स्तर अनिवार्य रूप से मैं Neyman-Pearson परिकल्पना परीक्षण से त्रुटि है अगर आप दोहराया प्रयोगों प्रदर्शन किया है।

अब पी-वैल्यू के लिए, यदि मैंने अपने पिछले प्रयोग से 0.06 का पी-मान प्राप्त किया है और मैंने कई प्रयोग किए हैं और सभी को गिना है कि मुझे 0 से 0.06 तक का पी-मान मिला है, तो क्या मेरे पास भी नहीं होगा। एक सच्चे अशक्त परिकल्पना को खारिज करने का 6% मौका?

जवाबों:


16

प्रश्न सरल दिखता है, लेकिन इसके आसपास आपका प्रतिबिंब दिखाता है कि यह उतना सरल नहीं है।

दरअसल, पी-वैल्यू आंकड़ों के सिद्धांत के लिए एक अपेक्षाकृत देर से जोड़ रहे हैं। कंप्यूटर के बिना पी-मूल्य की गणना करना बहुत थकाऊ है; यही कारण है कि हाल ही में सांख्यिकीय परीक्षणों की तालिकाओं का उपयोग करने के लिए एक सांख्यिकीय परीक्षण करने का एकमात्र तरीका है, जैसा कि मैं इस ब्लॉग पोस्ट में समझाता हूं । क्योंकि उन तालिकाओं को निश्चित स्तरों (आमतौर पर 0.05, 0.01 और 0.001) के लिए गणना की गई थी , आप केवल उन स्तरों के साथ एक परीक्षण कर सकते थे।α

कंप्यूटर ने उन तालिकाओं को बेकार कर दिया, लेकिन परीक्षण का तर्क अभी भी वही है। तुम्हे करना चाहिए:

  1. एक शून्य परिकल्पना तैयार करें।
  2. एक वैकल्पिक परिकल्पना तैयार करें।
  3. एक अधिकतम प्रकार मैं त्रुटि (अशक्त परिकल्पना को गलत तरीके से अस्वीकार करने की संभावना) तय करें जिसे आप स्वीकार करने के लिए तैयार हैं।
  4. अस्वीकृति क्षेत्र डिज़ाइन करें। टेस्ट स्टेटिस्टिक रिजेक्शन क्षेत्र में होने की संभावना यह देखते हुए कि शून्य परिकल्पना आपका स्तर । जैसा कि @ MånsT बताते हैं, यह आपके स्वीकार्य प्रकार मैं त्रुटि से छोटा नहीं होना चाहिए, और कई मामलों में एसिम्प्टोटिक सन्निकटन का उपयोग करते हैं।α
  5. यादृच्छिक प्रयोग करें, परीक्षण आँकड़ा की गणना करें और देखें कि क्या यह अस्वीकृति क्षेत्र में आता है।

सिद्धांत रूप में, घटनाओं के बीच एक सख्त समानता है "अस्वीकृति क्षेत्र में आँकड़ा गिरता है" और "पी-मान से कम है "α , यही कारण है कि यह महसूस किया जाता है कि आप इसके बजाय पी-मूल्य की रिपोर्ट कर सकते हैं । अभ्यास में, यह आपको चरण 3 को छोड़ने की अनुमति देता है और परीक्षण किए जाने के बाद टाइप I त्रुटि का मूल्यांकन करता है

अपनी पोस्ट पर वापस आने के लिए, शून्य परिकल्पना का कथन गलत है। रिक्त परिकल्पना है कि एक सिर flipping की संभावना है (शून्य परिकल्पना यादृच्छिक प्रयोग के परिणाम से संबंधित नहीं कर सकते हैं)।1/2

यदि आप 0.05 के थ्रेशोल्ड पी-मान के साथ बार-बार प्रयोग दोहराते हैं, तो हाँ, आपके पास लगभग 5% अस्वीकृति होनी चाहिए । और यदि आप 0.06 का पी-वैल्यू कट-ऑफ सेट करते हैं, तो आपको लगभग 6% अस्वीकृति के साथ समाप्त होना चाहिए। पी-वैल्यू पी की परिभाषा द्वारा, आम तौर पर निरंतर परीक्षणों के लिएp

Prob(p<x)=x,(0<x<1),

जो असतत परीक्षणों के लिए केवल लगभग सत्य है।

यहाँ कुछ आर कोड है जो मुझे आशा है कि यह थोड़ा स्पष्ट कर सकता है। द्विपद परीक्षण अपेक्षाकृत धीमा है, इसलिए मैं केवल 10,000 यादृच्छिक प्रयोग करता हूं जिसमें मैं 1000 सिक्कों को पलटाता हूं। मैं एक द्विपद परीक्षण करता हूं और 10,000 पी-मान एकत्र करता हूं।

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

आप देख सकते हैं कि अनुपात सटीक नहीं हैं, क्योंकि नमूना आकार अनंत नहीं है और परीक्षण असतत है, लेकिन दोनों के बीच अभी भी लगभग 1% की वृद्धि हुई है।


@ धन्यवाद धन्यवाद! निरंतर और असतत परीक्षणों के बीच अंतर के लिए +1 (जिसे मैंने ईमानदारी से पूरी तरह से अनदेखा किया होगा)।
gui11aume

4
@ gui11aume, इनपुट के लिए धन्यवाद! हालांकि, आपका कथन "पी-वैल्यू आंकड़ों के सिद्धांत के लिए अपेक्षाकृत देर से जोड़ रहा है" अजीब है। मैंने जो पढ़ा है, पी-मानों के साथ फिशर का 'महत्व परीक्षण' 1925 के आसपास शुरू हुआ था। जबकि नेमन-पियर्सन की 'परिकल्पना परीक्षण' कुछ साल बाद फिशर के काम में 'सुधार' के रूप में आया। हालांकि यह सच है कि पी-मानों को गणना करना मुश्किल था (इसलिए क्यों महत्व के मानक स्तरों का उपयोग किया गया था), उनका काम स्मारकीय था। वास्तव में, उन्हें 'आँकड़ों के जनक' के रूप में जाना जाता है क्योंकि उन्होंने बहुत से आँकड़ों का आधार बनाया था।
BYS2

2
@ BYS2 बिल्कुल सही (+1)। पी-वैल्यू का सिद्धांत सांख्यिकी की उत्पत्ति से वापस आता है। यह उनका व्यापक उपयोग है जो हाल ही में हुआ है। ध्यान देने योग्य के लिए धन्यवाद ;-)
gui11aume

इसके लिए @guillaume धन्यवाद, मेरे पास एक और त्वरित प्रश्न है। आप कहते हैं कि मेरी अशक्त परिकल्पना H 0 = 500 नहीं हो सकती है, लेकिन मुझे लगता है कि उदाहरण के लिए कई ग्रंथों का उपयोग किया गया है: n n l परिकल्पना यह है कि इसका मतलब 0 होगा या इसका मतलब 10 में अंतर होगा .. मुझे कभी कोई समस्या नहीं हुई है ऐसा करना: s .. t वितरण अनिवार्य रूप से सिर्फ तराजू है अगर मैंने H0 = 0.5 के बजाय H0 = 500 का उपयोग किया
BYS2

1
@ gui11aume: शायद मेरे जवाब पर एक नज़र डालना दिलचस्प हो सकता है: आंकड़े.stackexchange.com/questions/166323/…

15

आपको यहाँ @MansT & @ gui11aume (प्रत्येक से +1) के अच्छे उत्तर मिल रहे हैं। मुझे देखने दो कि क्या मैं उनके दोनों उत्तरों में किसी चीज़ पर अधिक स्पष्ट रूप से प्राप्त कर सकता हूं।

nk

p(k)=n!k!(nk)!pk(1p)nk
α=.05
number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

यह क्या दर्शाता है कि का उपयोग कर रहा हैα=.05.021αtype I errorα.05द्विपद संभावनाएँ। आगे ध्यान दें कि इस तरह की स्थितियों ने पी-मूल्य और महत्व स्तर के बीच विसंगति को कम करने में मदद करने के लिए मध्य पी-मूल्य के विकास को प्रेरित किया है।

ऐसे मामले हो सकते हैं जहां गणना की गई पी-वैल्यू लंबे समय तक चलने वाली टाइप I त्रुटि दर के बराबर नहीं है , इस तथ्य के अलावा कि टाइप I त्रुटि दर जरूरी स्तर के बराबर नहीं है। इन प्रेक्षित गणनाओं के साथ 2x2 आकस्मिक तालिका पर विचार करें:

     col1 col2
row1   2    4   
row2   4    2

χ2χ12=1.3,p=.248χ2χ2p=.5671.5637.5671

इस प्रकार, यहाँ मुद्दे असतत डेटा के साथ हैं:

  • आपका पसंदीदा महत्त्व स्तर संभव प्रकार मैं त्रुटि दर, और में से एक नहीं हो सकता है
  • निरंतर आँकड़ों का उपयोग (पारंपरिक) सन्निकटन करने से गणना किए गए पी-मानों की गलत गणना होगी।

N

(हालांकि सवाल इन समस्याओं के समाधान के बारे में नहीं पूछता है) इन मुद्दों को कम करने वाली चीजें हैं:

  • N
  • अक्सर सुधार होते हैं (जैसे निरंतरता के लिए येट्स का सुधार) जो सही मानों को सही मानों के करीब लाएगा,
  • N
  • मध्य पी-मान आपके चुने हुए आत्मविश्वास स्तर के करीब आपके प्रकार I त्रुटि दर प्राप्त करने की संभावना प्रदान करता है,
  • आप स्पष्ट रूप से एक प्रकार की त्रुटि दरों का उपयोग कर सकते हैं जो मौजूद हैं (या ध्यान दें कि यह क्या होगा)।

महान है कि आप विस्तार में चले गए कि हम किनारे पर छोड़ दिया (+1)।
gui11aume

@gung - क्या आप इस बात पर टिप्पणी कर सकते हैं कि आपको पहली तालिका के लिए टाइप I त्रुटि दर कैसे मिली?
सांख्यिकी 134711

@ आँकड़े 134711, यह उन विकल्पों के लिए व्यक्तिगत संभावनाओं का योग है जो चरम या अधिक चरम (2-पूंछ) के रूप में हैं।
गुंग - को पुनः स्थापित मोनिका

14

अवधारणाएं वास्तव में एक-दूसरे से जुड़ी हुई हैं।

P(type I error)=ααP(typ मैं आरआरआर)ααपी(टीyपी मैं आरआरआर)αα

पी-वैल्यू सबसे कम महत्व वाला स्तर है जिस पर शून्य परिकल्पना को स्वीकार किया जाएगा । इस प्रकार यह हमें बताता है कि "परिणाम कितना महत्वपूर्ण है"।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.