विभिन्न नमूना आकारों से साधनों की तुलना कैसे की जानी चाहिए?


49

एक वेबसाइट पर पुस्तक रेटिंग का मामला ले लो। बुक ए को 10,000 लोगों द्वारा औसत रेटिंग 4.25 के साथ रेट किया गया है और विचरण । इसी तरह बुक बी को 100 लोगों ने रेट किया है और इसकी रेटिंग 4.5 के साथ ।σ = 0.25σ=0.5σ=0.25

अब बुक ए के बड़े सैंपल साइज़ की वजह से 'मीन' स्थिर होकर 4.25 हो गया है। अब 100 लोगों के लिए, यह हो सकता है कि यदि अधिक लोग बुक बी पढ़ें तो औसत रेटिंग 4 या 4.25 तक गिर सकती है।

  • विभिन्न नमूनों से साधनों की तुलना कैसे की जानी चाहिए और सबसे अच्छे निष्कर्ष कौन से हैं / जिन्हें आकर्षित करना चाहिए?

उदाहरण के लिए - क्या हम वास्तव में कह सकते हैं कि पुस्तक B, पुस्तक A से बेहतर है।


क्या आप विशेष रूप से रेटिंग के संदर्भ में रुचि रखते हैं?
जेरोमी एंग्लीम

@JeromyAnglim - हम्मम ... शायद। निश्चित नहीं। यह सबसे आम उदाहरण है। आप के मन में क्या था?
पीएचडी

2
नीचे बायेसियन रेटिंग सिस्टम के बारे में मेरा जवाब देखें। एप्लाइड रेटिंग संदर्भों में आमतौर पर सैकड़ों या हजारों ऑब्जेक्ट रेटेड होते हैं, और इसका उद्देश्य अक्सर उपलब्ध जानकारी को दिए गए ऑब्जेक्ट के लिए रेटिंग का सबसे अच्छा अनुमान बनाना होता है। यह एक साधारण दो समूह की तुलना में बहुत भिन्न है जैसा कि आप दो समूहों के साथ एक चिकित्सा प्रयोग में कह सकते हैं।
जेरोमी एंग्लीम

जवाबों:


57

साधनों में अंतर होने पर मूल्यांकन करने के लिए आप एक टी-टेस्ट का उपयोग कर सकते हैं। अलग-अलग सैंपल साइज़ टी-टेस्ट के लिए समस्या का कारण नहीं बनते हैं, और इसके लिए किसी अतिरिक्त देखभाल के साथ परिणामों की व्याख्या की आवश्यकता नहीं होती है। अंत में, आप किसी भी व्यक्ति को एक ज्ञात वितरण और माध्य और SD के साथ एक अनंत आबादी की तुलना कर सकते हैं; उदाहरण के लिए 130 के आईक्यू वाले व्यक्ति 97.7% से अधिक होशियार हैं। हालांकि ध्यान देने वाली एक बात, यह है कि दिए गए (यानी, कुल नमूना आकार) के लिए, पावर को अधिकतम किया जाता है यदि समूह बराबर है; अत्यधिक असमान समूह आकारों के साथ, आपको प्रत्येक अतिरिक्त अवलोकन के साथ उतना अतिरिक्त रिज़ॉल्यूशन नहीं मिलता है। एनNn

सत्ता के बारे में अपनी बात स्पष्ट करने के लिए, यहाँ R के लिए एक बहुत ही सरल अनुकरण लिखा गया है:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

ध्यान दें कि सभी मामलों में , लेकिन यह कि पहले मामले में और , दूसरे मामले में और , और अंतिम स्थिति में और । आगे ध्यान दें कि मानकीकृत माध्य अंतर / डेटा जनरेटिंग प्रक्रिया सभी मामलों में समान थी। हालांकि, जबकि परीक्षण 50-50 नमूने के लिए 'महत्वपूर्ण' 70% था, शक्ति 75-25 के साथ 56% थी और केवल 33% थी जब समूह का आकार 90-10 था। एन 1 = 50 एन 2 = 50 एन 1 = 75 एन 2 = 25 एन 1 = 90 एन 2 = 10N=100n1=50n2=50n1=75n2=25n1=90n2=10

मैं सादृश्य द्वारा इस बारे में सोचता हूं। यदि आप एक आयत के क्षेत्र को जानना चाहते हैं, और परिधि तय हो गई है, तो क्षेत्र को अधिकतम किया जाएगा यदि लंबाई और चौड़ाई समान हो (यानी, यदि आयत एक वर्ग है )। दूसरी ओर, लंबाई और चौड़ाई के रूप में विचलन (जैसा कि आयत लम्बी हो जाती है), क्षेत्र सिकुड़ जाता है।


शक्ति अधिकतम है ?? मुझे यकीन नहीं है कि मैं समझ रहा हूँ। यदि संभव हो तो क्या आप एक उदाहरण प्रदान कर सकते हैं?
पीएचडी

5
टी परीक्षण असमान नमूना आकारों को संभाल सकता है इसका कारण यह है कि यह प्रत्येक समूह के लिए साधनों के अनुमानों की मानक त्रुटि को ध्यान में रखता है। यह समूह के नमूना आकार के वर्गमूल द्वारा विभाजित समूह के वितरण का मानक विचलन है। अगर बड़े पैमाने पर विचलन बराबर या लगभग इतने ही होते हैं, तो बहुत बड़े नमूने के आकार के साथ छोटे मानक त्रुटि होगी।
माइकल चेर्निक

@ गंग - मुझे यकीन नहीं है कि मैं वास्तव में जानता हूं कि यह सिमुलेशन किस 'भाषा' में लिखा गया है। मैं 'आर' का अनुमान लगा रहा हूं? और मैं अभी भी इसे समझने की कोशिश कर रहा हूँ :)
पीएचडी

2
कोड आर के लिए है। मैंने इसे टिप्पणी करना आसान बना दिया है। आप इसे केवल R में कॉपी और पेस्ट कर सकते हैं और इसे स्वयं चला सकते हैं, यदि आपके पास R है; set.seed()समारोह आप समान आउटपुट प्राप्त बीमा होगा। मुझे पता है अगर यह अभी भी पालन करना मुश्किल है।
गंग -

8
इस उत्तर में क्षेत्र के साथ सादृश्य केवल विचारोत्तेजक नहीं है कि क्या हो रहा है, यह बिल्कुल इस बिंदु पर है । बहुत प्रत्यक्ष अर्थ है जिसमें (एक निश्चित कुल नमूना आकार - यानी आयत का आधा 'परिधि' ), उत्पाद को अधिकतम करता है ('क्षेत्र') की सटीकता को अधिकतम करता है साधनों में अंतर का अनुमान (और इसलिए, यह पहचानने की शक्ति शून्य नहीं है)। यह बीजगणितीय तुच्छ है, इसलिए मैं इस बिंदु पर आगे श्रम नहीं करूंगा, लेकिन आप अधिक उपयुक्त सादृश्य नहीं चुन सकते हैं। एन 1 × एन 2 एन 1 एन 2N=n1+n2n1×n2n1n2
Glen_b

10

@Gung द्वारा टी-टेस्ट का जिक्र किए गए उत्तर के अलावा, ऐसा लगता है कि आप बायेसियन रेटिंग सिस्टम (जैसे, यहां एक चर्चा ) में दिलचस्पी ले सकते हैं । वेबसाइटें ऑर्डर आइटमों को रैंक करने के लिए ऐसी प्रणालियों का उपयोग कर सकती हैं जो प्राप्त वोटों की संख्या में भिन्न होती हैं। अनिवार्य रूप से, ऐसे सिस्टम एक ऐसी रेटिंग को निर्दिष्ट करके काम करते हैं जो सभी वस्तुओं की औसत रेटिंग के साथ-साथ विशिष्ट वस्तु के लिए रेटिंग के नमूने का मतलब है। जैसे-जैसे रेटिंग की संख्या बढ़ती जाती है, वस्तु के लिए माध्य को दिया जाने वाला भार बढ़ता जाता है और सभी वस्तुओं की रेटिंग के लिए भारित भार कम होता जाता है। शायद बायेसियन औसत की जांच करें ।

निश्चित रूप से चीजें बहुत अधिक जटिल हो सकती हैं क्योंकि आप कई मुद्दों जैसे वोटिंग फ्रॉड, समय के साथ बदलाव आदि से निपटते हैं।


मिठाई। कभी नहीं सुना। मैं निश्चित रूप से इस पर गौर करूंगा। हो सकता है कि आखिरकार मैं ऐसा क्यों हो, आखिर :)
PhD
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.