बीटा रिग्रेशन में लॉगिट लिंक का उपयोग क्यों करें?


14

हाल ही में, मैं एक परिणाम के लिए एक बीटा प्रतिगमन मॉडल को लागू करने में रुचि रखता हूं, जो एक अनुपात है। ध्यान दें कि यह परिणाम एक द्विपद संदर्भ में फिट नहीं होगा, क्योंकि इस संदर्भ में असतत "सफलता" की कोई सार्थक अवधारणा नहीं है। वास्तव में, परिणाम वास्तव में अवधि का अनुपात है; अंश एक निश्चित स्थिति के दौरान सेकंड की संख्या में सक्रिय होता है, जिसके दौरान स्थिति सक्रिय होने के योग्य थी। मैं योनि के लिए माफी मांगता हूं, लेकिन मैं इस सटीक संदर्भ पर बहुत अधिक ध्यान केंद्रित नहीं करना चाहता हूं, क्योंकि मुझे एहसास है कि बीटा रिग्रेशन के अलावा इस तरह की एक प्रक्रिया को मॉडल किया जा सकता है, और अब मैं विशेष रूप से सैद्धांतिक रूप से अधिक दिलचस्पी लेता हूं ऐसे मॉडल को लागू करने के मेरे प्रयासों में जो सवाल उठे हैं (हालांकि मैं, ज़ाहिर है,

किसी भी स्थिति में, मेरे द्वारा खोजे गए सभी संसाधन इंगित करते हैं कि बीटा प्रतिगमन आमतौर पर एक लॉगिट (या प्रोबिट / क्लॉगल) लिंक का उपयोग करके फिट होता है, और पैरामीटर ने लॉग-ऑड में परिवर्तन के रूप में व्याख्या की है। हालाँकि, मुझे अभी तक ऐसा संदर्भ नहीं मिला है, जो वास्तव में इस लिंक का उपयोग करने के लिए कोई वास्तविक औचित्य प्रदान करता हो।

मूल फेरारी और क्रिबारी-नेटो (2004) का पेपर औचित्य प्रदान नहीं करता है; वे केवल इस बात पर ध्यान देते हैं कि घातांक मानदंड की व्याख्या के अनुपात अनुपात की व्याख्या के कारण "विशेष रूप से उपयोगी" है। अन्य स्रोत इंटरवल (0,1) से वास्तविक रेखा पर जाने की इच्छा के लिए संकेत देते हैं। हालांकि, क्या हमें आवश्यक रूप से इस तरह के मानचित्रण के लिए एक लिंक फ़ंक्शन की आवश्यकता है, जिसे देखते हुए हम पहले से ही एक बीटा वितरण मान रहे हैं? बीटा डिस्ट्रीब्यूशन को शुरू करने के लिए लगाए गए अवरोधों से ऊपर और उससे परे लिंक फ़ंक्शन क्या लाभ प्रदान करता है?मैंने त्वरित सिमुलेशन के एक जोड़े को चलाया है और किसी पहचान लिंक के साथ (0,1) अंतराल के बाहर भविष्यवाणियां नहीं देखी हैं, यहां तक ​​कि जब बीटा वितरण से अनुकरण करते हैं, जिसकी संभावना बड़े पैमाने पर बड़े पैमाने पर 0 या 1 के करीब होती है, लेकिन शायद मेरे सिमुलेशन कुछ विकृति को पकड़ने के लिए सामान्य रूप से पर्याप्त नहीं है।

यह मुझे लगता है कि कैसे व्यक्तियों पर आधारित है, व्यवहार में, बीटा प्रतिगमन मॉडल (यानी बाधाओं के रूप में अनुपात) से पैरामीटर अनुमानों की व्याख्या करते हैं कि वे एक "सफलता" के बाधाओं के संबंध में अनुमान लगा रहे हैं; यही है, वे एक द्विपद मॉडल के विकल्प के रूप में बीटा प्रतिगमन का उपयोग कर रहे हैं। बीटा और द्विपद वितरण के बीच के संबंध को देखते हुए शायद कुछ संदर्भों में यह उचित है, लेकिन मुझे ऐसा लगता है कि यह सामान्य से अधिक विशेष मामला होना चाहिए। में इस सवाल का उत्तर नहीं बल्कि परिणाम की तुलना में निरंतर अनुपात के संबंध में बाधाओं अनुपात की व्याख्या के लिए प्रदान की जाती है, लेकिन यह के रूप में उपयोग करते हुए, कहते हैं, एक लॉग करने का विरोध कोशिश करते हैं और चीजों को इस तरह से व्याख्या करने के लिए, अनावश्यक रूप से बोझिल होने के लिए मुझे लगता है या पहचान लिंक और% परिवर्तन या यूनिट-शिफ्ट की व्याख्या करना।

तो, हम बीटा प्रतिगमन मॉडल के लिए लॉगिट लिंक का उपयोग क्यों करते हैं? क्या यह बस सुविधा के रूप में, द्विपद मॉडल से संबंधित है?

जवाबों:


8

जी(μ):(0,1)आरμ^=जी-1(एक्सβ^)(0,1)एक्स

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

लेकिन, निश्चित रूप से, कोई भी दोनों विकल्पों को आज़मा सकता है और देख सकता है कि क्या पहचान लिंक के साथ समस्याएं होती हैं और / या क्या यह मॉडल के फिट में सुधार करता है।

μ^=0.01एक्सμ^0.02। लेकिन यह अक्सर उन परिदृश्यों में बहुत ढलान पर व्यवहार किया जाता है। इसलिए, मेरा तर्क है कि एक सीमित प्रतिक्रिया मॉडल के लिए किसी भी लिंक फ़ंक्शन के मापदंडों को सावधानीपूर्वक व्याख्या करने की आवश्यकता है और कुछ अभ्यास की आवश्यकता हो सकती है। मेरी सामान्य सलाह इसलिए है (जैसा कि आपके प्रश्न में अन्य चर्चा में दिखाया गया है) ब्याज के प्रतिगामी विन्यास के प्रभावों को देखने के लिए। ये अलग-अलग लिंक फ़ंक्शंस के लिए व्याख्या करना और अक्सर (लेकिन हमेशा नहीं) एक समान (व्यावहारिक दृष्टिकोण से) आसान होते हैं।


10

यह गलत है कि लॉजिस्टिक रिग्रेशन का उपयोग केवल द्विआधारी परिणाम डेटा को मॉडल करने के लिए किया जा सकता है। लॉजिस्टिक रिग्रेशन मॉडल किसी भी डेटा के लिए उपयुक्त है जहां 1) परिणाम का अपेक्षित मूल्य भविष्यवाणियों के एक समारोह के रूप में एक लॉजिस्टिक वक्र का अनुसरण करता है 2) परिणाम का विचरण अपेक्षित परिणाम के एक बार अपेक्षित परिणाम (या कुछ अनुपात) से कम है। 3) (2 का परिणाम) डेटा 0 और 1 के बीच होता है। ये गुण निश्चित रूप से बर्नौली डेटा के लिए हैं। लेकिन एक लॉजिस्टिक मॉडल को व्यवहार्य (और लागू करने / समझने में आसान) के रूप में वैज्ञानिक प्रश्न का उत्तर देने के तुरंत बाद, कुछ खोजपरक आँकड़े और भूखंड लेने चाहिए।

लॉजिस्टिक रिग्रेशन मॉडल सामान्यीकृत रैखिक मॉडल (GLM) का एक विशेष मामला है, इसका मतलब है कि मॉडल द्वारा लगातार पैरामीटर अनुमान और अनुमान दिया जाता है। लॉजिस्टिक मॉडल का उपयोग साहित्य में कई स्थानों पर अनुपात, क्रमिक चर, दरों, परीक्षा के अंकों, रैंक और गैर-बाइनरी परिणामों के सभी तरीकों के लिए किया जाता है।

क्षमा करें कि यह प्रतिक्रिया आपके प्रश्न को बाद में निर्देशित नहीं करती है, लेकिन पूर्व तर्क को बताते हुए एक गलत धारणा है जो संबोधित करने लायक है।

कई आर उपयोगकर्ताओं ने सुझाव दिया है कि "चेतावनी" जो लॉजिस्टिक मॉडल के साथ निरंतर प्रतिक्रिया को फिट करने से आती है, को दबा दिया जाना चाहिए। एक "सड़क के बीच" रास्ता बदलना family=binomialहै family=quasibinomial। इन आंकड़ों का अनुकरण करने, एक मॉडल फिट करने और सही निष्कर्ष प्राप्त करने का एक उदाहरण यहां दिखाया गया है:

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

सीआई के 90% कवरेज का सटीक विवरण देता है


1
मैं लॉजिस्टिक रिग्रेशन मॉडल के संबंध में दिए गए स्पष्टीकरण की सराहना करता हूं। आप सही हैं कि यह अक्सर माना जाता है की तुलना में एक अधिक सामान्य मॉडल है। मैं इसे एक उत्तर के रूप में स्वीकार करने में संकोच कर रहा हूं, हालांकि, ऐसा लगता है कि यह काफी तर्क की रेखा को विकसित नहीं करता है। ऐसा लगता है कि आप कह रहे हैं कि बीटा मॉडल में लॉगिट लिंक पर मेरी चिंता निराधार है, क्योंकि एक लॉग लिंक गैर-बाइनरी डेटा पर ठीक काम करता है। जो एक उचित रुख है, लेकिन मुझे लगता है कि मैं इस सवाल का जवाब नहीं देता कि हम बीटा मॉडल में लॉगिट का उपयोग क्यों करते हैं और इसकी व्याख्या कैसे करते हैं।
रयान सीमन्स

1
@RyanSimmons प्रतिक्रिया के लिए धन्यवाद। मैं यहां आपके तर्क से सहमत हूं। मुझे लगता है कि किसी भी "सीखने का अवसर" एक उत्तर को वारंट करता है और इस प्रकार एक प्रश्न के "शुद्धता" की बदलती डिग्री के साथ कई संभावित उत्तर हो सकते हैं। मैंने आपके प्रश्न को नहीं छुआ है, जो एक अच्छा है, इसलिए "राइटर" उत्तर अभी तक दिखाई दे सकता है। मैं खुद इसके बारे में उत्सुक हूं, इसलिए इस विषय पर थोड़ा और पढ़ने की कोशिश कर रहा हूं।
एडमो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.