बीटा रिग्रेशन में लॉगिट लिंक का उपयोग क्यों करें?

14

हाल ही में, मैं एक परिणाम के लिए एक बीटा प्रतिगमन मॉडल को लागू करने में रुचि रखता हूं, जो एक अनुपात है। ध्यान दें कि यह परिणाम एक द्विपद संदर्भ में फिट नहीं होगा, क्योंकि इस संदर्भ में असतत "सफलता" की कोई सार्थक अवधारणा नहीं है। वास्तव में, परिणाम वास्तव में अवधि का अनुपात है; अंश एक निश्चित स्थिति के दौरान सेकंड की संख्या में सक्रिय होता है, जिसके दौरान स्थिति सक्रिय होने के योग्य थी। मैं योनि के लिए माफी मांगता हूं, लेकिन मैं इस सटीक संदर्भ पर बहुत अधिक ध्यान केंद्रित नहीं करना चाहता हूं, क्योंकि मुझे एहसास है कि बीटा रिग्रेशन के अलावा इस तरह की एक प्रक्रिया को मॉडल किया जा सकता है, और अब मैं विशेष रूप से सैद्धांतिक रूप से अधिक दिलचस्पी लेता हूं ऐसे मॉडल को लागू करने के मेरे प्रयासों में जो सवाल उठे हैं (हालांकि मैं, ज़ाहिर है,

किसी भी स्थिति में, मेरे द्वारा खोजे गए सभी संसाधन इंगित करते हैं कि बीटा प्रतिगमन आमतौर पर एक लॉगिट (या प्रोबिट / क्लॉगल) लिंक का उपयोग करके फिट होता है, और पैरामीटर ने लॉग-ऑड में परिवर्तन के रूप में व्याख्या की है। हालाँकि, मुझे अभी तक ऐसा संदर्भ नहीं मिला है, जो वास्तव में इस लिंक का उपयोग करने के लिए कोई वास्तविक औचित्य प्रदान करता हो।

मूल फेरारी और क्रिबारी-नेटो (2004) का पेपर औचित्य प्रदान नहीं करता है; वे केवल इस बात पर ध्यान देते हैं कि घातांक मानदंड की व्याख्या के अनुपात अनुपात की व्याख्या के कारण "विशेष रूप से उपयोगी" है। अन्य स्रोत इंटरवल (0,1) से वास्तविक रेखा पर जाने की इच्छा के लिए संकेत देते हैं। हालांकि, क्या हमें आवश्यक रूप से इस तरह के मानचित्रण के लिए एक लिंक फ़ंक्शन की आवश्यकता है, जिसे देखते हुए हम पहले से ही एक बीटा वितरण मान रहे हैं? बीटा डिस्ट्रीब्यूशन को शुरू करने के लिए लगाए गए अवरोधों से ऊपर और उससे परे लिंक फ़ंक्शन क्या लाभ प्रदान करता है?मैंने त्वरित सिमुलेशन के एक जोड़े को चलाया है और किसी पहचान लिंक के साथ (0,1) अंतराल के बाहर भविष्यवाणियां नहीं देखी हैं, यहां तक कि जब बीटा वितरण से अनुकरण करते हैं, जिसकी संभावना बड़े पैमाने पर बड़े पैमाने पर 0 या 1 के करीब होती है, लेकिन शायद मेरे सिमुलेशन कुछ विकृति को पकड़ने के लिए सामान्य रूप से पर्याप्त नहीं है।

यह मुझे लगता है कि कैसे व्यक्तियों पर आधारित है, व्यवहार में, बीटा प्रतिगमन मॉडल (यानी बाधाओं के रूप में अनुपात) से पैरामीटर अनुमानों की व्याख्या करते हैं कि वे एक "सफलता" के बाधाओं के संबंध में अनुमान लगा रहे हैं; यही है, वे एक द्विपद मॉडल के विकल्प के रूप में बीटा प्रतिगमन का उपयोग कर रहे हैं। बीटा और द्विपद वितरण के बीच के संबंध को देखते हुए शायद कुछ संदर्भों में यह उचित है, लेकिन मुझे ऐसा लगता है कि यह सामान्य से अधिक विशेष मामला होना चाहिए। में इस सवाल का उत्तर नहीं बल्कि परिणाम की तुलना में निरंतर अनुपात के संबंध में बाधाओं अनुपात की व्याख्या के लिए प्रदान की जाती है, लेकिन यह के रूप में उपयोग करते हुए, कहते हैं, एक लॉग करने का विरोध कोशिश करते हैं और चीजों को इस तरह से व्याख्या करने के लिए, अनावश्यक रूप से बोझिल होने के लिए मुझे लगता है या पहचान लिंक और% परिवर्तन या यूनिट-शिफ्ट की व्याख्या करना।

तो, हम बीटा प्रतिगमन मॉडल के लिए लॉगिट लिंक का उपयोग क्यों करते हैं? क्या यह बस सुविधा के रूप में, द्विपद मॉडल से संबंधित है?

logit beta-regression

— रयान सिमंस
स्रोत

8

$g(\mu): (0,1) \rightarrow \mathbb{R}$ $\hat \mu = g^{-1}(x^\top \hat \beta)$ $(0, 1)$ $x$

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

लेकिन, निश्चित रूप से, कोई भी दोनों विकल्पों को आज़मा सकता है और देख सकता है कि क्या पहचान लिंक के साथ समस्याएं होती हैं और / या क्या यह मॉडल के फिट में सुधार करता है।

$\hat \mu = 0.01$ $x$ $\hat \mu$ $0.02$ । लेकिन यह अक्सर उन परिदृश्यों में बहुत ढलान पर व्यवहार किया जाता है। इसलिए, मेरा तर्क है कि एक सीमित प्रतिक्रिया मॉडल के लिए किसी भी लिंक फ़ंक्शन के मापदंडों को सावधानीपूर्वक व्याख्या करने की आवश्यकता है और कुछ अभ्यास की आवश्यकता हो सकती है। मेरी सामान्य सलाह इसलिए है (जैसा कि आपके प्रश्न में अन्य चर्चा में दिखाया गया है) ब्याज के प्रतिगामी विन्यास के प्रभावों को देखने के लिए। ये अलग-अलग लिंक फ़ंक्शंस के लिए व्याख्या करना और अक्सर (लेकिन हमेशा नहीं) एक समान (व्यावहारिक दृष्टिकोण से) आसान होते हैं।

— अचिम जाइलिस
स्रोत

10

यह गलत है कि लॉजिस्टिक रिग्रेशन का उपयोग केवल द्विआधारी परिणाम डेटा को मॉडल करने के लिए किया जा सकता है। लॉजिस्टिक रिग्रेशन मॉडल किसी भी डेटा के लिए उपयुक्त है जहां 1) परिणाम का अपेक्षित मूल्य भविष्यवाणियों के एक समारोह के रूप में एक लॉजिस्टिक वक्र का अनुसरण करता है 2) परिणाम का विचरण अपेक्षित परिणाम के एक बार अपेक्षित परिणाम (या कुछ अनुपात) से कम है। 3) (2 का परिणाम) डेटा 0 और 1 के बीच होता है। ये गुण निश्चित रूप से बर्नौली डेटा के लिए हैं। लेकिन एक लॉजिस्टिक मॉडल को व्यवहार्य (और लागू करने / समझने में आसान) के रूप में वैज्ञानिक प्रश्न का उत्तर देने के तुरंत बाद, कुछ खोजपरक आँकड़े और भूखंड लेने चाहिए।

लॉजिस्टिक रिग्रेशन मॉडल सामान्यीकृत रैखिक मॉडल (GLM) का एक विशेष मामला है, इसका मतलब है कि मॉडल द्वारा लगातार पैरामीटर अनुमान और अनुमान दिया जाता है। लॉजिस्टिक मॉडल का उपयोग साहित्य में कई स्थानों पर अनुपात, क्रमिक चर, दरों, परीक्षा के अंकों, रैंक और गैर-बाइनरी परिणामों के सभी तरीकों के लिए किया जाता है।

क्षमा करें कि यह प्रतिक्रिया आपके प्रश्न को बाद में निर्देशित नहीं करती है, लेकिन पूर्व तर्क को बताते हुए एक गलत धारणा है जो संबोधित करने लायक है।

कई आर उपयोगकर्ताओं ने सुझाव दिया है कि "चेतावनी" जो लॉजिस्टिक मॉडल के साथ निरंतर प्रतिक्रिया को फिट करने से आती है, को दबा दिया जाना चाहिए। एक "सड़क के बीच" रास्ता बदलना family=binomialहै family=quasibinomial। इन आंकड़ों का अनुकरण करने, एक मॉडल फिट करने और सही निष्कर्ष प्राप्त करने का एक उदाहरण यहां दिखाया गया है:

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

सीआई के 90% कवरेज का सटीक विवरण देता है

— Adamo
स्रोत

1

मैं लॉजिस्टिक रिग्रेशन मॉडल के संबंध में दिए गए स्पष्टीकरण की सराहना करता हूं। आप सही हैं कि यह अक्सर माना जाता है की तुलना में एक अधिक सामान्य मॉडल है। मैं इसे एक उत्तर के रूप में स्वीकार करने में संकोच कर रहा हूं, हालांकि, ऐसा लगता है कि यह काफी तर्क की रेखा को विकसित नहीं करता है। ऐसा लगता है कि आप कह रहे हैं कि बीटा मॉडल में लॉगिट लिंक पर मेरी चिंता निराधार है, क्योंकि एक लॉग लिंक गैर-बाइनरी डेटा पर ठीक काम करता है। जो एक उचित रुख है, लेकिन मुझे लगता है कि मैं इस सवाल का जवाब नहीं देता कि हम बीटा मॉडल में लॉगिट का उपयोग क्यों करते हैं और इसकी व्याख्या कैसे करते हैं।

— रयान सीमन्स

1

@RyanSimmons प्रतिक्रिया के लिए धन्यवाद। मैं यहां आपके तर्क से सहमत हूं। मुझे लगता है कि किसी भी "सीखने का अवसर" एक उत्तर को वारंट करता है और इस प्रकार एक प्रश्न के "शुद्धता" की बदलती डिग्री के साथ कई संभावित उत्तर हो सकते हैं। मैंने आपके प्रश्न को नहीं छुआ है, जो एक अच्छा है, इसलिए "राइटर" उत्तर अभी तक दिखाई दे सकता है। मैं खुद इसके बारे में उत्सुक हूं, इसलिए इस विषय पर थोड़ा और पढ़ने की कोशिश कर रहा हूं।

— एडमो