हम कभी भी जनसंख्या परिवर्तन को कैसे जान सकते हैं?


10

परिकल्पना परीक्षण में, एक आम सवाल यह है कि जनसंख्या का विचरण क्या है? मेरा सवाल यह है कि हम कभी भी जनसंख्या परिवर्तन को कैसे जान सकते हैं? यदि हम संपूर्ण वितरण को जानते हैं, तो हम पूरी आबादी का मतलब भी जान सकते हैं । फिर परिकल्पना परीक्षण की बात क्या है?


कुछ प्रासंगिक साहित्य: nber.org/papers/w20325
DV_bn

माध्य के बारे में कुछ भी जाने बिना विचरण कर सकते हैं। उदाहरण के लिए, विचरण को जनसंख्या में मूल्यों के सभी अंतरों के वर्गों से पुनर्प्राप्त किया जा सकता है, लेकिन वे अंतर माध्य के बारे में कोई जानकारी नहीं देते हैं। भले ही, मैं यह नहीं देखता कि इस पोस्ट में दिए गए कथन और प्रश्न कैसे परिकल्पना परीक्षण के बिंदु के बारे में सवाल का नेतृत्व करते हैं।
whuber

जवाबों:


10

मुझे यकीन नहीं है कि यह मुद्दा वास्तव में आँकड़े 101 (आंकड़ों का परिचय) के बाहर "अक्सर" आता है। मुझे यकीन नहीं है कि मैंने कभी इसे देखा है। दूसरी ओर, हम परिचयात्मक पाठ्यक्रमों को पढ़ाने के दौरान सामग्री को उस तरह से पेश करते हैं, क्योंकि यह एक तार्किक प्रगति प्रदान करता है: आप एक साधारण स्थिति से शुरू करते हैं, जहां केवल एक समूह होता है और आप विचरण को जानते हैं, फिर जहाँ आप नहीं हैं वहां प्रगति विचरण को जानें, फिर प्रगति करें जहाँ दो समूह हैं (लेकिन समान विचरण के साथ), आदि।

थोड़ा अलग बिंदु को संबोधित करने के लिए, आप पूछते हैं कि हम परिकल्पना परीक्षण से क्यों परेशान होंगे यदि हम विचरण जानते थे, क्योंकि हमें इसका मतलब भी पता होना चाहिए। उत्तरार्द्ध हिस्सा उचित है, लेकिन पहला भाग गलतफहमी है: इसका मतलब हमें पता होगा कि शून्य परिकल्पना के तहत इसका मतलब होगा। यही हम परीक्षण कर रहे हैं। @ StephanKolassa के IQ अंकों के उदाहरण पर विचार करें। हम जानते हैं कि माध्य 100 है और मानक विचलन 15 है; अगर हमारा समूह (बाएं हाथ के रेडहेड्स, या शायद परिचयात्मक आँकड़े छात्रों) का परीक्षण कर रहा है, तो इससे अलग है।


2
(+1) संभवत: यह तब और बढ़ जाता है जब "जनसंख्या से नमूना लेना" डेटा जनरेट करने की प्रक्रिया के बारे में सोचने का एक तरीका है, बजाय इसके कि कुछ को शाब्दिक रूप से लिया जाए। उदाहरण के लिए एक मापने वाले उपकरण की सटीकता को जानना।
Scortchi - को पुनः स्थापित मोनिका

एक 20+ वर्ष के करियर के साथ एक व्यवसायी के रूप में गंग, यह मुद्दा मेरे अनुभव में आया था कि आप इससे ज्यादा हैं। मैं सुझाव नहीं दे रहा हूं कि यह "अक्सर" आया, बस बहस हुई। हालाँकि, और 101 के बारे में आपकी बात से ज्यादा, न कि चर्चा लाल झुंडों की थी जिन्होंने किसी अध्ययन या परियोजना के विवरणों के बारे में बहुत कम या कुछ भी हल किया - किसी ने सवाल पूछने में केवल बुद्धि की उपस्थिति पैदा करना चाहा।
माइक हंटर

1
@ जॉनसन, मुझे लगता है कि यह उन विषयों पर निर्भर करता है जिन पर आप काम करते हैं।
गुंग - को पुनः स्थापित मोनिका

4

अक्सर हम जनसंख्या भिन्नता को इस तरह से नहीं जानते - लेकिन हमारे पास एक अलग नमूने से बहुत विश्वसनीय अनुमान है। उदाहरण के लिए, यहां यह आकलन करने पर एक उदाहरण है कि क्या पेंगुइन का औसत वजन कम हो गया है, जहां हम छोटे-ईश नमूने से मतलब का उपयोग करते हैं, लेकिन एक बड़े स्वतंत्र नमूने से विचरण करते हैं। बेशक, यह निर्धारित करता है कि विचरण दोनों आबादी में समान है।

एक अलग उदाहरण शास्त्रीय IQ तराजू हो सकता है। ये 100 का मतलब है एक और 15 के मानक विचलन के लिए, का उपयोग कर सामान्यीकृत कर रहे हैं वास्तव में बड़े नमूनों। हम तब एक विशिष्ट नमूना ले सकते हैं (कहते हैं, 50 बाएं हाथ के रेडहेड्स) और पूछते हैं कि क्या उनका मतलब IQ 100 से अधिक बड़ा है, 15 "2" "ज्ञात" विचरण के रूप में। बेशक, एक बार फिर, यह सवाल उठाता है कि क्या दो नमूनों के बीच विचरण वास्तव में बराबर है - आखिरकार, हम पहले से ही परीक्षण कर रहे हैं कि क्या साधन अलग हैं, इसलिए संस्करण समान क्यों होना चाहिए?

नीचे पंक्ति: आपकी चिंताएँ मान्य हैं, और आमतौर पर ज्ञात क्षणों के साथ परीक्षण केवल उपदेशात्मक उद्देश्यों की पूर्ति करते हैं। सांख्यिकी पाठ्यक्रमों में, आमतौर पर अनुमानित क्षणों का उपयोग करके परीक्षणों के साथ तुरंत पालन किया जाता है।


2

जनसंख्या विचरण को जानने का एकमात्र तरीका पूरी जनसंख्या को मापना है।

हालाँकि, पूरी आबादी को मापना अक्सर संभव नहीं होता; इसके लिए धन, उपकरण, कार्मिक और पहुंच सहित संसाधनों की आवश्यकता होती है। इस कारण से हम आबादी का नमूना लेते हैं; वह आबादी का एक सबसेट माप रहा है। नमूना प्रक्रिया को सावधानीपूर्वक डिज़ाइन किया जाना चाहिए और एक नमूना आबादी बनाने के उद्देश्य से जो जनसंख्या का प्रतिनिधि है; दो प्रमुख विचार - नमूना आकार और नमूना तकनीक।

खिलौना उदाहरण: आप स्वीडन की वयस्क आबादी के लिए वजन में विचरण का अनुमान लगाना चाहते हैं। कुछ 9.5 मिलियन Swedes हैं, इसलिए यह संभावना नहीं है कि आप बाहर जा सकते हैं और उन सभी को माप सकते हैं। इसलिए आपको एक नमूना जनसंख्या को मापने की आवश्यकता है जिससे आप वास्तविक भीतर की आबादी के विचरण का अनुमान लगा सकते हैं।

आप स्वीडिश आबादी का नमूना लेने के लिए निकल पड़े। ऐसा करने के लिए आप स्टॉकहोम शहर के केंद्र में जाकर खड़े हो जाएँ, और ऐसा सिर्फ लोकप्रिय काल्पनिक स्वीडिश बर्गर चेन बर्गर कुंगेन के ठीक बाहर खड़े होने के लिए होता है । वास्तव में, बारिश हो रही है और ठंड (यह गर्मी होनी चाहिए) इसलिए आप रेस्तरां के अंदर खड़े हैं। यहां आप चार लोगों का वजन करते हैं।

संभावना है, आपका नमूना स्वीडन की आबादी को बहुत अच्छी तरह से प्रतिबिंबित नहीं करेगा। आपके पास स्टॉकहोम में लोगों का एक नमूना है, जो एक बर्गर रेस्तरां में हैं। यह एक खराब नमूनाकरण तकनीक है क्योंकि यह उस जनसंख्या का उचित प्रतिनिधित्व न देकर परिणाम को पूर्वाग्रह करने की संभावना है जिसे आप अनुमान लगाने की कोशिश कर रहे हैं। इसके अलावा, आपके पास एक छोटा सा नमूना आकार है, इसलिए आपको चार लोगों को लेने का उच्च जोखिम है जो आबादी के चरम पर हैं; या तो बहुत हल्का या बहुत भारी। यदि आपने 1000 लोगों का सैंपल लिया है, तो आपको सैंपलिंग पूर्वाग्रह होने की संभावना कम है; यह 1000 लोगों को लेने की संभावना कम है जो असामान्य हैं चार की तुलना में यह असामान्य है। एक बड़ा नमूना आकार आपको कम से कम बर्गर कुंगेन के ग्राहकों के बीच वजन में माध्य और विचरण का अधिक सटीक अनुमान देगा।

यहां छवि विवरण दर्ज करें

हिस्टोग्राम नमूनाकरण तकनीक के प्रभाव को दर्शाता है, ग्रे वितरण स्वीडन की आबादी का प्रतिनिधित्व कर सकता है जो बर्गर कुंगेन (मतलब 85 किलो) में नहीं खाता है, जबकि लाल बर्गर कुंगेन के ग्राहकों की आबादी का प्रतिनिधित्व कर सकता है (मतलब 100 किलो) , और नीला डैश आपके द्वारा नमूना किए गए चार लोग हो सकते हैं। सही सैंपलिंग तकनीक को जनसंख्या को उचित रूप से तौलना होगा, और इस मामले में ~ 75% आबादी, इस प्रकार 75% नमूनों को मापा जाता है, बर्गर कुंगेन के ग्राहक नहीं होने चाहिए।

यह बहुत सारे सर्वेक्षणों के साथ एक प्रमुख मुद्दा है। उदाहरण के लिए, लोगों को चुनावों में ग्राहकों की संतुष्टि, या जनमत सर्वेक्षणों के सर्वेक्षणों का जवाब देने की संभावना है, अत्यधिक विचारों वाले लोगों द्वारा उनका निरुपण किया जाता है; कम मजबूत राय वाले लोग उन्हें व्यक्त करने में अधिक आरक्षित होते हैं।

परिकल्पना परीक्षण की बात ( हमेशा नहीं ) है, उदाहरण के लिए, यह जांचने के लिए कि क्या दो आबादी एक दूसरे से अलग हैं। जैसे बर्गर कुंगेन के ग्राहक स्वेदेस से अधिक वजन लेते हैं जो बर्गर कुंगेन में नहीं खाते हैं? इसे सटीक रूप से जांचने की क्षमता उचित नमूना तकनीक और पर्याप्त नमूना आकार पर निर्भर है।


आर कोड टेस्ट करने के लिए यह सब होता है:

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

परिणाम:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 

1

कभी-कभी जनसंख्या भिन्नता एक प्राथमिकता निर्धारित की जाती है । उदाहरण के लिए, SAT स्कोर को स्केल किया जाता है ताकि मानक विचलन 110 हो और IQ परीक्षणों को 15 के मानक विचलन के लिए बढ़ाया जाए


हां, यह सच है, लेकिन उन मामलों में भी एक निश्चित मतलब के लिए स्केलिंग है, इसलिए यह ऐसी स्थिति उत्पन्न नहीं करता है जहां एक अज्ञात मतलब और ज्ञात विचरण होता है। साथ ही, सभी मान ज्ञात होने के बाद स्केलिंग की जाती है।
बेन -

1

एकमात्र वास्तविक उदाहरण मैं सोच सकता हूं कि जब माध्य अज्ञात है, लेकिन विचरण ज्ञात है जब एक निश्चित त्रिज्या और एक अज्ञात केंद्र के साथ हाइपरस्फीयर (जो भी आयाम में) पर बिंदुओं का यादृच्छिक नमूना है । इस समस्या का एक अज्ञात मतलब है (गोले का केंद्र) लेकिन एक निश्चित विचरण (गोले का वर्ग-त्रिज्या)। मैं किसी भी अन्य यथार्थवादी उदाहरणों से अनजान हूं जहां एक अज्ञात मतलब लेकिन ज्ञात विचरण है। (और स्पष्ट होने के लिए: अन्य डेटा से केवल बाहरी परिवर्तन का अनुमान होना एक ज्ञात संस्करण का उदाहरण नहीं है। इसके अलावा, यदि आपके पास अन्य डेटा से यह भिन्नता अनुमान है, तो आपके पास भी उसी से अनुमानित अनुमान क्यों नहीं है। डेटा?)

मेरे विचार में, एक अज्ञात माध्य और ज्ञात विचरण के साथ परीक्षण सिखाने वाले परिचयात्मक सांख्यिकीय पाठ्यक्रम एक अभिवादन हैं, और उन्हें एक आधुनिक शिक्षण उपकरण के रूप में गुमराह किया जाता है। शैक्षणिक रूप से, एक अज्ञात माध्य और विचरण के मामले के लिए टी-टेस्ट से सीधे शुरू करना कहीं बेहतर है, और जेड-टेस्ट को इस के लिए एक स्पर्शोन्मुख सन्निकटन के रूप में माना जाता है, जो तब होता है जब डिग्री बड़ी होती है (या नहीं) यहां तक ​​कि z- परीक्षण को पढ़ाने के लिए परेशान)। उन स्थितियों की संख्या जहां एक ज्ञात विचरण होगा, लेकिन अज्ञात मतलब गायब है छोटा है, और यह (आमतौर पर दुर्लभ) मामले को पेश करने के लिए छात्रों को आम तौर पर भ्रामक है।


0

कभी-कभी लागू समस्याओं में, भौतिकी, अर्थशास्त्र आदि द्वारा प्रस्तुत कारण होते हैं, जो हमें विचरण के बारे में बताते हैं और इसमें कोई अनिश्चितता नहीं होती है। अन्य समय में, जनसंख्या परिमित हो सकती है और हम सभी के बारे में कुछ बातें जान सकते हैं, लेकिन बाकी को जानने के लिए आंकड़ों का नमूना और प्रदर्शन करने की आवश्यकता होती है।

आम तौर पर, आपकी चिंता काफी हद तक जायज है।


5
मेरे पास एक कठिन समय है जो भौतिकी या अर्थशास्त्र से एक उदाहरण का चित्रण करता है जहां हम विचरण को जानते हैं , लेकिन इसका मतलब नहीं है। असतत वितरण के लिए भी ऐसा ही है। आप एक ठोस उदाहरण दे सकते हैं या दो?
स्टीफ़न कोलासा

@StephanKolassa मेरा मानना ​​है कि भौतिकी प्रायोगिक माप एक उदाहरण होगा - हमारे पास माप की एक प्रक्रिया या उपकरण हो सकता है जिसमें एक प्रसिद्ध विचलन (माप त्रुटि) हो, इसलिए जब किसी विशेष घटना को मापते हैं तो आप मान सकते हैं कि विचरण एक ही है - आप केवल सही मतलब का अनुमान लगा सकते हैं।
Peteris

2
@Peteris: जो समझ में आता है - लेकिन यह मेरे द्वारा नोट किए गए मामले की तरह लगता है , पिछले "अंशांकन नमूनों" पर विचरण के (आपके उपकरण के) अनुमान लगाया गया है। मैं एक अलग चीज होने के लिए कोई अनिश्चितता (!) के साथ एक सैद्धांतिक रूप से व्युत्पन्न विचरण की उम्मीद करता हूं।
Stephan Kolassa
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.