शाकाहार की औसत लंबाई की गणना कैसे करें जब हमारे पास केवल वर्तमान शाकाहारियों के बारे में सर्वेक्षण डेटा है?


16

एक यादृच्छिक जनसंख्या नमूने का सर्वेक्षण किया गया था। उनसे पूछा गया कि क्या वे शाकाहारी भोजन खाते हैं। यदि उन्होंने हां में जवाब दिया, तो उन्हें यह भी बताने के लिए कहा गया कि वे कितने समय से बिना रुके शाकाहारी भोजन कर रहे हैं। मैं शाकाहार की औसत लंबाई की गणना करने के लिए इस डेटा का उपयोग करना चाहता हूं। दूसरे शब्दों में, जब कोई शाकाहारी बनता है, तो मैं चाहता हूं कि वे औसतन लंबे समय तक शाकाहारी रहें। मान लेते हैं कि:

  • सभी उत्तरदाताओं ने सही और सटीक प्रतिक्रियाएं दीं
  • दुनिया स्थिर है: शाकाहार की लोकप्रियता नहीं बदल रही है, पालन की औसत लंबाई भी नहीं बदल रही है।

मेरा तर्क अब तक

मुझे दुनिया के एक खिलौना मॉडल का विश्लेषण करने में मदद मिली, जहां हर साल की शुरुआत में दो लोग शाकाहारी बन जाते हैं। हर बार, उनमें से एक शाकाहारी 1 साल और दूसरा 3 साल तक रहता है। जाहिर है, इस दुनिया में पालन की औसत लंबाई (1 + 3) / 2 = 2 वर्ष है। यहाँ एक ग्राफ है जो उदाहरण दिखाता है। प्रत्येक आयत शाकाहार की अवधि का प्रतिनिधित्व करती है:

एक उदाहरण

मान लीजिए कि हम वर्ष 4 (लाल रेखा) के मध्य में एक सर्वेक्षण करते हैं। हम निम्नलिखित डेटा प्राप्त करते हैं:

मेज़

यदि हम किसी भी वर्ष सर्वेक्षण शुरू करते हैं, तो हमें एक ही डेटा मिलेगा। 3 वर्ष।

(2 * 0.5 + 1.5 + 2.5) / 4 = 1.25

हम कम आंकते हैं क्योंकि हम मानते हैं कि सभी ने सर्वेक्षण के बाद शाकाहारी होना बंद कर दिया, जो स्पष्ट रूप से गलत है। एक अनुमान प्राप्त करने के लिए जो वास्तविक औसत समय के करीब है कि ये प्रतिभागी शाकाहारी बने रहेंगे, हम मान सकते हैं कि औसतन, उन्होंने अपने शाकाहार की अवधि के बारे में आधे समय का समय बताया और 2. द्वारा कई बार अवधि की रिपोर्ट की। जनसंख्या से (जैसे मैं जिसका विश्लेषण कर रहा हूं), मुझे लगता है कि यह एक यथार्थवादी धारणा है। कम से कम यह एक सही अपेक्षित मूल्य देगा। हालांकि, अगर दोहरीकरण केवल एक चीज है जो हम करते हैं, तो हमें 2.5 का औसत मिलता है, जो कि एक overestimate है। इसका कारण यह है कि लंबा व्यक्ति शाकाहारी रहता है, अधिक संभावना है कि वह वर्तमान शाकाहारियों के नमूने में है।

मैंने तब सोचा था कि वर्तमान शाकाहारियों के नमूने में जो संभावना है वह शाकाहार की लंबाई के अनुपात में है। इस पूर्वाग्रह को ध्यान में रखते हुए, मैंने वर्तमान शाकाहारियों की संख्या को उनके अनुमानित लंबाई के अनुसार विभाजित करने की कोशिश की:

अभी तक एक और मेज

हालाँकि, यह एक गलत औसत देता है:

(2 * 1 + ⅓ * 3 +) * 5) / (2 + ⅕ + ⅕) = 4 / 2.533333 = 1.579 वर्ष

यदि शाकाहारियों की संख्या उनके पालन की सही लंबाई से विभाजित होती है, तो यह सही अनुमान लगाएगा:

(1 +) * (1 + 3 + 5)) / (1 +) * 3) = 2 वर्ष

लेकिन यह काम नहीं करता अगर मैं भविष्यवाणी की लंबाई का उपयोग करता हूं और वे सभी मैं वास्तविकता में हैं। मुझे नहीं पता कि और क्या प्रयास करना है। मैंने उत्तरजीविता विश्लेषण के बारे में थोड़ा पढ़ा लेकिन मुझे यकीन नहीं है कि इस मामले में इसे कैसे लागू किया जाए। आदर्श रूप से, मैं 90% विश्वास अंतराल की गणना करने में सक्षम होना चाहूंगा। कोई भी युक्ति सराहनीय होगी।

संपादित करें: यह संभव हो सकता है कि ऊपर दिए गए प्रश्न का कोई जवाब नहीं है। लेकिन एक अन्य अध्ययन यह भी था कि लोगों का यादृच्छिक नमूना पूछा जाता है कि क्या वे शाकाहारी हैं / अतीत में कितनी बार शाकाहारी रहे हैं। मुझे पढ़ाई और कुछ अन्य चीजों में सभी की उम्र भी पता है। हो सकता है कि इस जानकारी का उपयोग वर्तमान शाकाहारियों के सर्वेक्षण के संयोजन के रूप में किया जा सकता है ताकि किसी भी तरह इसका मतलब निकाला जा सके। वास्तव में, मैंने जिस अध्ययन के बारे में बात की, वह पहेली का सिर्फ एक टुकड़ा है, लेकिन एक बहुत महत्वपूर्ण है और मैं इससे बाहर निकलना चाहता हूं।


1
यह एक विकल्प एटीएम नहीं है। यह डेटा निश्चित रूप से पालन करने की लंबाई के लिए कुछ सबूत प्रदान करता है, मुझे नहीं पता कि इसका उपयोग कैसे करना है।
सौलियस čimčikas

1
आपकी कम से कम एक छवि गायब हो गई है (जब मैं URL का उपयोग करता हूं तो 403 त्रुटि)।
बैरिसेटर

2
@kjetilbhalvorsen समस्या के लिए कोई फर्क नहीं पड़ता अगर शाकाहारियों के जीवन के लिए शाकाहारी बने रहें। कुछ बिंदु पर, वे मांस खाने से या मरकर, शाकाहारी होना बंद कर देंगे।
Pere

4
@kjetil आपकी "असली शाकाहारियों" की टिप्पणी कुछ हद तक एक नो ट्रू स्कॉट्समैन की तरह लगती है । एक शाकाहारी की सामान्य परिभाषा भविष्य में क्या हो सकती है, इसके बारे में कुछ भी नहीं कहता है, न ही इस बारे में कि कोई व्यक्ति शाकाहारी क्यों है, लेकिन केवल उस समय उनके व्यवहार के बारे में विशेषता पर विचार किया जा रहा है। यदि कोई अभी शाकाहारी है, तो वे अभी शाकाहारी हैं, चाहे किसी भी कारण से वे एक हों। मैं मांस खाने के विचार के बारे में हमारी व्यक्तिगत भावनाओं या उन कारणों के बारे में नहीं सोचता जिनके कारण हम महसूस कर सकते हैं कि हम यहाँ विषय पर हैं; वे कहीं और हैं।
Glen_b -Reinstate मोनिका

2
चूंकि जो लोग अधिक समय तक शाकाहारी रहते हैं, उन्हें आपके नमूने में प्रदर्शित होने के लिए चुने जाने की संभावना अधिक होती है, इसका मतलब है कि आपके नमूना डेटा की संभाव्यता घनत्व फ़ंक्शन एक लंबाई के अनुपात का पालन करने के लिए आनुपातिक वितरण समारोह के अनुपात में है। अपने उदाहरण से बाहर एक उदाहरण बनाने के लिए, लंबाई का वितरण [0, 0.5, 0, 0.5] (1 साल के लिए 50%, 3 साल के लिए 50%), [0, 0.5, 0.5, 1 का सीडीएफ दे रहा है। ], एक माइनस के साथ [1, 0.5, 0.5, 0] जो आपके नमूने के [2, 1, 1, 0] के समानुपाती है।
PhiNotPi

जवाबों:


10

बता दें कि आबादी में शाकाहार की लंबाई X के पालन ​​को निरूपित करता है । हमारा उद्देश्य अनुमान लगाने के लिए है एक्स = 0 एक्स एफ एक्स ( एक्स ) एक्सfX(x)XEX=0xfX(x)dx

यह मानते हुए कि सर्वेक्षण (ईवेंट ) में शामिल होने की संभावना एक्स के समानुपाती है , सर्वेक्षण में शामिल लोगों के बीच पालन ​​की लंबाई एक्स का पीडीएफ एफ एक्स है एस ( एक्स ) = एक्स एफ एक्स ( एक्स )SXX सर्वेक्षण में शामिल किए जाने के समय, केवल एक समयजेडबीत चुका है। सशर्त परएक्स(औरएस), सूचना समय एक शाकाहारी किया जा रहा है पीडीएफ के साथ एक समान है जेड| एक्स=एक्स(जेड)=1

fX|S(x)=xfX(x)xfX(x)dx=xfX(x)EX.
ZXS इसलिए, कुल संभावना के कानून का उपयोग करते हुए,सर्वेक्षण में शामिल लोगों के बीचZके समग्र वितरणशाकाहारी के रूप में पारित हो गया, f Z ( z ) हो गया।
fZ|X=x(z)=1x,0<z<x.
Z जहाँFX(z)Xका cdf है। के बाद सेएक्सएक सकारात्मक चर रहा हैएफएक्स(0)=पी(एक्स0)=0और इतनेजेड(0)=1/एक्स
fZ(z)=zfZ|X=x(z)fX|S(x)dx=z1xxfX(x)EXdx=1FX(z)EX,
FX(z)XXFX(0)=P(X0)=0fZ(0)=1/EX

EXfZ(z)z1,z2,,znz=0fZ(z)z=0f^Z(0)fZ(z)z=0EXEX^=1/f^Z(0)

यहाँ छवि विवरण दर्ज करें

fZ(z)fX(0)=FX(0)>0fZ(0)EXEX इस तरह की स्थितियों में अधिक धारणाएं बनाए बिना मुश्किल लगता है, अनिवार्य रूप से क्योंकि इस स्थिति में मौजूद संक्षिप्त पालन समय शायद ही कभी देखे गए आंकड़ों में पक्षपाती नमूने के परिणामस्वरूप दिखाई देता है।

fX(x)

L(θ)=i=1n1FX(zi;θ)EX(θ)

डेटा का अनुकरण और दोनों तरीकों को लागू करने का आर कोड:

# Simulate lognormal duration length in population
set.seed(1)
n <- 1e+4
x <- rlnorm(n,mean=2,sd=.2)
# Biased sampling
x.given.S <- sample(x, size=n/10, prob=x, replace=TRUE)
# Duration at time of sampling
z <- runif(length(x.given.S),min=0, max=x.given.S)
hist(z,prob=TRUE,main="")

# Compute kernel density estimate with reflection around z=0
to <- max(x) + 3
fhat <- density(z,from = -to, to=to)
m <- length(fhat$y)
fhat$y <- fhat$y[(m/2+1):m] + fhat$y[(m/2):1]
fhat$x <- fhat$x[(m/2+1):m]
lines(fhat,col="red")
# Estimate of EX
1/fhat$y[1]
# True value (mean of above lognormal)
exp(2+.2^2/2)

# Maximum likelihood
nll <- function(theta, z) {
  - sum(plnorm(z, theta[1], theta[2], log.p=TRUE, lower.tail = FALSE)) + length(z)*(theta[1] + theta[2]^2/2)
}
fit <- optim(c(0,1),nll,z=z)
fit$par
EXhat <- exp(fit$par[1]+fit$par[2]^2/2) # MLE of EX
EXhat
curve(plnorm(z, fit$par[1], fit$par[2], lower.tail=FALSE)/EXhat, xname="z", col="blue",add=TRUE)

1
अरे, जवाब देने के लिए बहुत-बहुत धन्यवाद, मैंने अभी तक सब कुछ समझने के लिए समय नहीं लिया है, बस यह जोड़ना चाहता हूं कि मैं उस दूसरे अध्ययन से सामान्य वितरण जानता हूं। (अन्य अध्ययन के साथ एकमात्र समस्या यह है कि इसने लोगों को विकल्पों के बीच चुना कि वे कितने समय से शाकाहारी हैं और विकल्पों में से एक "10 साल से अधिक" था और औसत लगभग पूरी तरह से निर्भर करता है कि 10 साल से अधिक लोग कैसे हैं शाकाहारी रहें)
सौलियस ikimčikas

ठीक है, मुझे आशा है कि मेरे तर्क में कोई बड़ी खामियां नहीं हैं। मैं देख रहा हूं कि @PhiNotPi ओपी को अपनी टिप्पणी में उसी पीडीएफ पर पहुंचता है।
जरेल टफ्टो

@Saulius यदि आपके पास दूसरे सही सेंसर डेटा सेट तक पहुंच है और अंतर्निहित वितरण वास्तव में समान माना जा सकता है, तो आदर्श समाधान उस डेटा सेट के लिए संभावना को संयोजित करना होगा (जो लिखने के लिए सीधा है अगर यह सिर्फ है कुछ सही सेंसर किए गए नमूने) और फिर संयुक्त संभावना को अधिकतम करते हैं।
जरले टफ्टो

यह एक सही सेंसर नहीं है: imgur.com/U8ofZ3A मुझे अब पता चला है कि मुझे शुरुआत में इसका उल्लेख करना था लेकिन मुझे लगा कि मेरी समस्या का कुछ और सीधा हल है ...
Saulius Šimčikas

@Saulius वे डेटा अंतराल सेंसर हैं। फिर, यह संभावना की गणना करने के लिए सीधा है।
जरले टफ्टो

0

(मैंने इसे जोड़ने पर अधिक जोर दिया है, क्योंकि ऐसा प्रतीत होता है @JarleTufto ने पहले से ही एक अच्छा गणितीय दृष्टिकोण दिया है; हालाँकि मैं उसके उत्तर को समझने के लिए पर्याप्त चतुर नहीं हूं, और अब मैं उत्सुक हूं कि क्या यह बिल्कुल एक ही दृष्टिकोण है, या यदि नीचे दिए गए दृष्टिकोण का मैं कभी भी उपयोग करता हूं।)

मैं क्या करूँगा एक औसत लंबाई का अनुमान है, और इसके चारों ओर कुछ वितरण का अनुमान है, और फिर, प्रत्येक के लिए, मेरी आबादी का अनुकरण करें, और नियमित रूप से इसका नमूना लें।

आपने कहा था कि शाकाहारियों की कुल आबादी नहीं बदल रही है, इसलिए हर बार जब मेरा मॉडल किसी को रोकता है, तो एक नया शाकाहारी बनाया जाता है। हमें नमूना बनाने के लिए शुरू करने से पहले यह सुनिश्चित करने के लिए मॉडल को कई वर्षों तक चलाने की जरूरत है कि वह चल बसा है। उसके बाद मुझे लगता है कि आप हर नकली महीने (*) के नमूने ले सकते हैं जब तक कि आपके पास अपना 90% विश्वास अंतराल बनाने के लिए पर्याप्त न हो।

* या आपके डेटा के साथ जो भी संकल्प काम करता है। यदि लोगों ने निकटतम वर्ष के लिए अपना जवाब दिया, तो हर 6 महीने में नमूना लेना पर्याप्त है।

आपके सभी अनुमानों में से, आप उस माध्य और वितरण का चयन करते हैं, जो आपके द्वारा लिए गए सभी नमूनों पर औसत है) जो आपको आपके वास्तविक जीवन के सर्वेक्षण के लिए निकटतम परिणाम देता है।

मैं अपने अनुमान को कुछ ही समय में पूरा करूंगा, सबसे अच्छे मैच को संवारने के लिए।

सबसे अच्छा वितरण एकल-शिखर नहीं हो सकता है। पूर्व-शाकाहारियों को मैं व्यक्तिगत रूप से प्रमुख जीवनशैली में बदलाव (आमतौर पर गैर-शाकाहारी, या चलते हुए देश के साथ शादी करना / रहना या गंभीर रूप से बीमार पड़ना और यह सुझाव देना कि कोई डॉक्टर आहार हो सकता है) के कारण रोक सकता है; दूसरी तरफ आदत की शक्ति है: जितनी अधिक आप शाकाहारी हैं उतनी अधिक संभावना है कि आप एक होने की संभावना रखते हैं। यदि आपके डेटा ने उम्र और रिश्ते की स्थिति पूछी है, तो हम इसे उपरोक्त सिमुलेशन में भी फेंक सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.