आप एक अनुक्रियात्मक लॉजिस्टिक प्रतिगमन मॉडल दिए गए प्रतिक्रिया श्रेणी की भविष्यवाणी कैसे करते हैं?

मैं एक स्वास्थ्य समस्या की भविष्यवाणी करना चाहता हूं। मेरे पास 3 परिणाम श्रेणियां हैं जो क्रमबद्ध हैं: 'सामान्य', 'हल्का' और 'गंभीर'। मैं दो भविष्यवाणियों चर, एक परीक्षा परिणाम (एक सतत, अंतराल सहसंयोजक) और इस समस्या (हाँ या नहीं) के साथ परिवार के इतिहास से इसकी भविष्यवाणी करना चाहता हूं। मेरे नमूने में, संभावनाएं 55% (सामान्य), 35% (हल्के) और 10% (गंभीर) हैं। इस अर्थ में, मैं हमेशा केवल normal सामान्य ’की भविष्यवाणी कर सकता था और सही समय का 55% हो सकता था, हालांकि इससे मुझे व्यक्तिगत रोगियों के बारे में कोई जानकारी नहीं मिलेगी। मैं निम्नलिखित मॉडल को फिट करता हूं:

\begin{aligned} the cut point for \hat{(y \geq 1)} & = - 2.18 \\ the cut point for \hat{(y \geq 2)} & = - 4.27 \\ {\hat{β}}_{t e s t} & = 0.60 \\ {\hat{β}}_{f a m i l y h i s t o r y} & = 1.05 \end{aligned}

$\begin{align} \text{the cut point for }\widehat{(y \ge 1)} &= -2.18 \\ \text{the cut point for }\widehat{(y \ge 2)} &= -4.27 \\ \hat\beta_{\rm test} &= 0.60 \\ \hat\beta_{\rm family\ history} &= 1.05 \end{align}$

मान लें कि कोई बातचीत नहीं है और मॉडल के साथ सब कुछ ठीक है। समरूपता, सी, 60.5% है, जिसे मैं मॉडल की अधिकतम सटीकता की भविष्यवाणी करने वाला समझता हूं।

मैं निम्नलिखित डेटा के साथ दो नए रोगियों में आता हूं: 1. परीक्षण = 3.26, परिवार = 0; 2. परीक्षण = 2.85, परिवार = 1. मैं उनके पूर्वानुमान की भविष्यवाणी करना चाहता हूं। सूत्र का उपयोग: (और फिर संचयी संभावनाओं के बीच मतभेदों को ले जा रहा), मैं प्रतिक्रिया श्रेणियों मॉडल पर सशर्त अधिक संभावना वितरण की गणना कर सकते हैं। आर कोड (एनबी, गोलाई मुद्दों के कारण, आउटपुट पूरी तरह से मेल नहीं खाता):

\frac{\exp (- X β - c u t P o i n t)}{(1 + \exp (- X β - c u t P o i n t))}

$\frac{\exp(-X\beta - {\rm cutPoint})}{(1+\exp(-X\beta - {\rm cutPoint}))}$

cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

अर्थात्: 1. 0 = 55.1%, 1 = 35.8%, 2 = 9.1%; और 2. 0 = 35.6%, 1 = 46.2%, 2 = 18.2%। मेरा सवाल यह है कि मैं संभावित वितरण से एक अनुमानित प्रतिक्रिया श्रेणी में कैसे जाऊं?

मैंने नमूना डेटा का उपयोग करते हुए कई संभावनाओं की कोशिश की है, जहां परिणाम ज्ञात है। अगर मैं अधिकतम (संभावना) उठाता हूं, तो सटीकता 57% है, अशक्त पर थोड़ा सुधार, लेकिन सहमति से नीचे है। इसके अलावा, नमूने में, यह दृष्टिकोण कभी भी 'गंभीर' नहीं होता है, जो कि मैं वास्तव में जानना चाहता हूं। मैंने अशक्त और मॉडल संभावनाओं को बाधाओं में परिवर्तित करके और फिर अधिकतम (ऑड्स अनुपात) उठाकर बायेसियन दृष्टिकोण की कोशिश की। यह कभी-कभार 'गंभीर' हो जाता है, लेकिन इससे 49.5% अधिक सटीकता होती है। मैंने प्रायिकताओं और गोलाई द्वारा भारित श्रेणियों के योग की भी कोशिश की। यह, फिर से, 'गंभीर' नहीं है, और इसकी सटीकता 51.5% है।

वह समीकरण क्या है जो उपरोक्त जानकारी लेता है और इष्टतम सटीकता (60.5%) प्राप्त करता है?

logistic ordered-logit

— गुंग - को पुनः स्थापित मोनिका
स्रोत

जवाबों:

$Y$ rmslrmpredict.lrm

— फ्रैंक हैरेल
स्रोत

आपकी सहायता के लिए धन्यवाद। मुझे संदेह था कि गंभीर के कम फ्रीक मुद्दे का हिस्सा था। मुझे लगता है कि मेरा कच्चा वाई, 0 1 2, अपर्याप्त रूप से बराबर अंतराल है। मुझे लगता है कि मेरा लक्ष्य गलत है। दुर्भाग्य से, मुझे लगता है कि मैं जानना चाहता हूं कि एक नया मरीज किस श्रेणी में आएगा / मेरा लक्ष्य क्या होना चाहिए, यह पूरी तरह से समझ में नहीं आया । क्या थोड़ी अधिक जानकारी प्रदान करना संभव है? (वास्तव में, मुझे संदेह है कि सीवी एक पूर्ण पाठ के लिए मंच नहीं है। वैकल्पिक रूप से, क्या आप जानते हैं कि मैं इस मुद्दे के बारे में कहां जान सकता हूं। मैंने एगेस्टी के इंट्रो और होसमेर और लेमेशो के लॉजिस्टिक से अनुभाग पढ़े हैं, लेकिन कोई फायदा नहीं हुआ है)

— गुंग - को पुनः स्थापित मोनिका

लक्ष्य आवश्यक निर्णय या विषय वस्तु से प्रेरित होता है। यदि आप अंतिम लक्ष्य बताते हैं तो मैं टिप्पणी करने में सक्षम हो सकता हूं।

— फ्रैंक हरेल

मेरी स्पष्टता की कमी के बारे में क्षमा करें, ऐसा लगता है कि ऊपर भी एक समस्या थी। वर्तमान में, मैं नए मामलों के परिणाम की भविष्यवाणी करने में सक्षम होना चाहता हूं। लंबे समय में, मैं समझना चाहता हूं कि ऑर्ग लॉग लॉग बेहतर है, उदाहरण के लिए यदि आपको श्रेणियों का अनुमान नहीं है तो आप कैसे अवशेष प्राप्त कर सकते हैं? मैं थोड़ा बेहतर सटीकता से इकट्ठा करना संभव है, लेकिन मुझे नहीं पता कि इसे कैसे प्राप्त किया जाए। मुझे यकीन है कि आपके पास सब कुछ समझाने का समय नहीं है, लेकिन न तो अग्रेस्टी, न ही एच एंड एल भविष्यवाणियों या अवशेषों आदि के बारे में कुछ भी कहते हैं, और मुझे कुछ भी नहीं मिल सकता है w / google। इस प्रकार, मैंने सीवी पर पूछा। मैं आपकी निरंतर सहायता की सराहना करता हूं।

— गोबर -

Y \geq j

$Y\geq j$

j

$j$

-1

समास माध्य स्कोर की जाँच करके परिभाषित किया जाता है, न कि अधिकतम अंक।

तो आपके उदाहरणों के लिए, 1 के लिए औसत अंक 0 * 55.1% + 1 * 35.8% + 2 * 9.1% = 0.54 है, और 2 है (समान गणना के माध्यम से) 0.826।

यह मान है कि आपको सहमति या किसी अन्य संघ के आँकड़े प्राप्त करने के लिए तुलना करनी चाहिए।

रेफरी - http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm

— kalel
स्रोत

Y

$Y$

X β

$X\beta$

D_{x y}

$D_{xy}$

SAS PROC LOGIST

Y

$Y$