द्विपद सेटिंग के तहत सफलताओं के भविष्य के अनुपात के लिए भविष्यवाणी अंतराल


9

मान लीजिए कि मैं एक द्विपद प्रतिगमन फिट बैठता हूं और बिंदु अनुमान और प्रतिगमन गुणांक के विचरण-सहसंयोजक मैट्रिक्स प्राप्त करता हूं। यह मुझे भविष्य के प्रयोग में सफलताओं के अपेक्षित अनुपात के लिए सीआई प्राप्त करने की अनुमति देगा,पी, लेकिन मैं मनाया अनुपात के लिए एक CI की जरूरत है। कुछ संबंधित उत्तर पोस्ट किए गए हैं, जिनमें सिमुलेशन (मान लें कि मैं ऐसा नहीं करना चाहता) और कृष्णमूर्ति एट अल (जो मेरे प्रश्न का उत्तर नहीं देता है) के लिए एक लिंक है।

मेरा तर्क इस प्रकार है: यदि हम केवल द्विपद मॉडल का उपयोग करते हैं, तो हम यह मानने के लिए मजबूर हैं पीसामान्य वितरण (संबंधित वाल्ड CI के साथ) से नमूना लिया जाता है और इसलिए बंद रूप में देखे गए अनुपात के लिए CI प्राप्त करना असंभव है। अगर हम ऐसा मान लेंपीबीटा वितरण से नमूना किया जाता है, तब चीजें बहुत आसान होती हैं क्योंकि सफलताओं की गिनती बीटा-द्विपद वितरण का अनुसरण करेगी। हमें यह मान लेना होगा कि अनुमानित बीटा मापदंडों में कोई अनिश्चितता नहीं है,α तथा β

तीन प्रश्न हैं:

1) एक सैद्धांतिक एक: बीटा मापदंडों के सिर्फ बिंदु अनुमान का उपयोग करना ठीक है? मुझे पता है कि कई रेखीय प्रतिगमन में भविष्य के अवलोकन के लिए सीआई का निर्माण करना है

Y=एक्स'β+ε,ε~एन(0,σ2)

वे उस wrt error term variance करते हैं, σ2। मैं इसे लेता हूं (अगर मैं गलत हूं तो मुझे सुधारो) कि व्यवहार में इसका औचित्य हैσ2 प्रतिगमन गुणांक की तुलना में कहीं अधिक सटीक अनुमान लगाया गया है और अनिश्चितता को शामिल करने की कोशिश करके हम बहुत लाभ नहीं लेंगे σ2। अनुमानित बीटा मापदंडों के लिए एक समान औचित्य है,α तथा β?

2) क्या पैकेज बेहतर है (आर: गेमल्स-बी बी, बीट्रेग, एनोड ;; मेरे पास एसएएस तक भी पहुंच है)।

3) अनुमानित बीटा मापदंडों को देखते हुए, भविष्य की सफलताओं की गिनती के लिए क्वांटिस (2.5%, 97.5%) प्राप्त करने के लिए एक (अनुमानित) शॉर्टकट है, या बीटा-बिनोमियल वितरण के तहत भविष्य की सफलताओं के अनुपात के लिए अभी तक बेहतर है।


एक सवाल पर, हां यह एक वैध चीज है जो लोग करते हैं, इसे एम्पिरिकल बेयस कहा जाता है: en.wikipedia.org/wiki/Empirical_Bayes_method
पॉल

1
मुझे नहीं लगता कि एक मॉडल पैरामीटर का अनुमान लगाने के लिए विधि XYZ का उपयोग करना स्वचालित रूप से इसका मतलब हो सकता है कि भविष्य के अवलोकन के लिए सीआई का उत्पादन करते समय अनुमान अनिश्चितता की अनदेखी करना ठीक है। उदाहरण के लिए कई रैखिक प्रतिगमन में वे EB के बजाय OLS का उपयोग करते हैं, और अनिश्चितता मेंσबस के रूप में अच्छी तरह से नजरअंदाज कर दिया है। ऐसा क्यों है? इसके अलावा, विकी का यह लेख कभी यह नहीं बताता है कि EB में शीर्ष स्तर के हाइपरपरमेटर्स के आकलन की सटीकता आमतौर पर इतनी अधिक है कि उन्हें व्यावहारिक उद्देश्यों के लिए तय करना ठीक है।
जेम्स

1
“जब सही वितरण पी(η|y) तेजी से चरम पर है, अभिन्न निर्धारण पी(θ|y) प्रायिकता वितरण को प्रतिस्थापित करके बहुत अधिक परिवर्तन नहीं किया जा सकता है η एक बिंदु अनुमान के साथ η*वितरण के शिखर का प्रतिनिधित्व करना। आपके मामले में यह सही है या नहीं, यह आपकी समस्या डोमेन की बारीकियों पर निर्भर करता है।
पॉल

2
अच्छा प्रश्न! आपको एक धुरी नहीं मिल सकती है, लेकिन प्रोफ़ाइल संभावना का उपयोग करने के बारे में क्या? देखें कि भविष्य कहनेवाला अनुमान लगाने के लिए गैर-बायेसियन तरीके क्या हैं?
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


1

मैं प्रश्न के सभी 3 भागों को संबोधित करूंगा।

दो भ्रमित मुद्दे हैं, पहला तरीका है जो आप इस मामले में प्रतिगमन मॉडल को फिट करने के लिए उपयोग करते हैं। दूसरा यह है कि एक नए अनुमान की भविष्यवाणी करने के लिए आपके अनुमानों से अनुमानों को कैसे अंतराल दिया जाए।

यदि आपके प्रतिक्रिया चर को द्विपद रूप से वितरित किया जाता है तो आप आमतौर पर या तो लॉजिस्टिक रिग्रेशन या प्रोबेट रिग्रेशन (लिंक फ़ंक्शन के रूप में सामान्य सीएफडी के साथ चमक) का उपयोग करेंगे।

यदि आप एक लॉजिस्टिक रिग्रेशन करते हैं, तो प्रतिक्रिया को ज्ञात ऊपरी सीमा से विभाजित प्रेक्षित संख्याओं के अनुपात के रूप में लें yमैं/nमैं। फिर अपने भविष्यवक्ताओं / सहसंयोजकों को ले जाएं और उन्हें अपने आर कॉल में एक शानदार फ़ंक्शन में डाल दें। लौटी हुई वस्तु में वह सब कुछ है जो आपको अपनी बाकी गणनाओं के लिए करना है।

x<- rnorm(100, sd=2)
prob_true <- 1/(1+exp(-(1+5*x)))
counts <- rbinom(100, 50,prob_true)
print(d.AD <- data.frame(counts,x))
glm.D93 <- glm(counts/50 ~ x, family = binomial() )

एक के लिए रेखीय प्रतिगमन सूत्र मॉडल के लिए एक भविष्यवाणी अंतराल है:

y^मैं±टीn-पीरोंy1+1n+(एक्समैं-एक्स¯)2(n-1)रोंएक्स2

आप रेखीय प्रतिगमन मॉडल का उपयोग glm के लिए एक सन्निकटन के रूप में कर सकते हैं। ऐसा करने के लिए आप संभावनाओं को रेखीय संयोजन के रैखिक संयोजन के लिए रेखीय प्रतिगमन सूत्र करेंगे, इससे पहले कि आप संभावनाओं को 0-1 के पैमाने पर वापस ला सकें। ऐसा करने के लिए कोड की भविष्यवाणी में पकाया जाता है। यहाँ कुछ उदाहरण कोड है जो एक अच्छा प्लॉट भी बनाएगा। ( EDIT : यह कोड विश्वास अंतराल के लिए है, न कि भविष्यवाणी अंतराल के लिए)

y_hat <- predict(glm.D93, type="link", se.fit=TRUE)
t_np<- qt(.975, 100-2, ncp=0)

ub <- y_hat$fit + t_np * y_hat$se.fit
lb <- y_hat$fit - t_np * y_hat$se.fit

point <- y_hat$fit

p_hat <- glm.D93$family$linkinv(point)
p_hat_lb <- glm.D93$family$linkinv(lb)
p_hat_ub <- glm.D93$family$linkinv(ub)

plot(x,p_hat)
points(x, p_hat_ub, col='red')
points(x, p_hat_lb, col='blue')

आप किसी भी glm, जैसे Poisson, उलटा Gaussian, Gamma, आदि के लिए एक ही काम कर सकते हैं। प्रत्येक मामले में भविष्यवाणियों के रैखिक संयोजन के पैमाने पर भविष्यवाणी अंतराल करते हैं। आपके द्वारा पूर्ववर्ती अंतराल के दो अंत बिंदु प्राप्त करने के बाद आप इन अंत बिंदुओं को व्युत्क्रम लिंक के माध्यम से परिवर्तित करते हैं। मैंने जिन विलोम लिंक का उल्लेख किया है उनमें से प्रत्येक के लिए मैं यहां लिखे गए लॉगिट मामले से भिन्न हो सकता हूं। उम्मीद है की यह मदद करेगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.