जनसंख्या विचरण को जानने का एकमात्र तरीका पूरी जनसंख्या को मापना है।
हालाँकि, पूरी आबादी को मापना अक्सर संभव नहीं होता; इसके लिए धन, उपकरण, कार्मिक और पहुंच सहित संसाधनों की आवश्यकता होती है। इस कारण से हम आबादी का नमूना लेते हैं; वह आबादी का एक सबसेट माप रहा है। नमूना प्रक्रिया को सावधानीपूर्वक डिज़ाइन किया जाना चाहिए और एक नमूना आबादी बनाने के उद्देश्य से जो जनसंख्या का प्रतिनिधि है; दो प्रमुख विचार - नमूना आकार और नमूना तकनीक।
खिलौना उदाहरण: आप स्वीडन की वयस्क आबादी के लिए वजन में विचरण का अनुमान लगाना चाहते हैं। कुछ 9.5 मिलियन Swedes हैं, इसलिए यह संभावना नहीं है कि आप बाहर जा सकते हैं और उन सभी को माप सकते हैं। इसलिए आपको एक नमूना जनसंख्या को मापने की आवश्यकता है जिससे आप वास्तविक भीतर की आबादी के विचरण का अनुमान लगा सकते हैं।
आप स्वीडिश आबादी का नमूना लेने के लिए निकल पड़े। ऐसा करने के लिए आप स्टॉकहोम शहर के केंद्र में जाकर खड़े हो जाएँ, और ऐसा सिर्फ लोकप्रिय काल्पनिक स्वीडिश बर्गर चेन बर्गर कुंगेन के ठीक बाहर खड़े होने के लिए होता है । वास्तव में, बारिश हो रही है और ठंड (यह गर्मी होनी चाहिए) इसलिए आप रेस्तरां के अंदर खड़े हैं। यहां आप चार लोगों का वजन करते हैं।
संभावना है, आपका नमूना स्वीडन की आबादी को बहुत अच्छी तरह से प्रतिबिंबित नहीं करेगा। आपके पास स्टॉकहोम में लोगों का एक नमूना है, जो एक बर्गर रेस्तरां में हैं। यह एक खराब नमूनाकरण तकनीक है क्योंकि यह उस जनसंख्या का उचित प्रतिनिधित्व न देकर परिणाम को पूर्वाग्रह करने की संभावना है जिसे आप अनुमान लगाने की कोशिश कर रहे हैं। इसके अलावा, आपके पास एक छोटा सा नमूना आकार है, इसलिए आपको चार लोगों को लेने का उच्च जोखिम है जो आबादी के चरम पर हैं; या तो बहुत हल्का या बहुत भारी। यदि आपने 1000 लोगों का सैंपल लिया है, तो आपको सैंपलिंग पूर्वाग्रह होने की संभावना कम है; यह 1000 लोगों को लेने की संभावना कम है जो असामान्य हैं चार की तुलना में यह असामान्य है। एक बड़ा नमूना आकार आपको कम से कम बर्गर कुंगेन के ग्राहकों के बीच वजन में माध्य और विचरण का अधिक सटीक अनुमान देगा।
हिस्टोग्राम नमूनाकरण तकनीक के प्रभाव को दर्शाता है, ग्रे वितरण स्वीडन की आबादी का प्रतिनिधित्व कर सकता है जो बर्गर कुंगेन (मतलब 85 किलो) में नहीं खाता है, जबकि लाल बर्गर कुंगेन के ग्राहकों की आबादी का प्रतिनिधित्व कर सकता है (मतलब 100 किलो) , और नीला डैश आपके द्वारा नमूना किए गए चार लोग हो सकते हैं। सही सैंपलिंग तकनीक को जनसंख्या को उचित रूप से तौलना होगा, और इस मामले में ~ 75% आबादी, इस प्रकार 75% नमूनों को मापा जाता है, बर्गर कुंगेन के ग्राहक नहीं होने चाहिए।
यह बहुत सारे सर्वेक्षणों के साथ एक प्रमुख मुद्दा है। उदाहरण के लिए, लोगों को चुनावों में ग्राहकों की संतुष्टि, या जनमत सर्वेक्षणों के सर्वेक्षणों का जवाब देने की संभावना है, अत्यधिक विचारों वाले लोगों द्वारा उनका निरुपण किया जाता है; कम मजबूत राय वाले लोग उन्हें व्यक्त करने में अधिक आरक्षित होते हैं।
परिकल्पना परीक्षण की बात ( हमेशा नहीं ) है, उदाहरण के लिए, यह जांचने के लिए कि क्या दो आबादी एक दूसरे से अलग हैं। जैसे बर्गर कुंगेन के ग्राहक स्वेदेस से अधिक वजन लेते हैं जो बर्गर कुंगेन में नहीं खाते हैं? इसे सटीक रूप से जांचने की क्षमता उचित नमूना तकनीक और पर्याप्त नमूना आकार पर निर्भर है।
आर कोड टेस्ट करने के लिए यह सब होता है:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
परिणाम:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024