लॉजिस्टिक रिग्रेशन एंड इंफ्लेशन पॉइंट


11

हमारे पास एक द्विआधारी परिणाम और कुछ कोवरिएट्स के साथ डेटा है। मैंने डेटा को मॉडल करने के लिए लॉजिस्टिक रिग्रेशन का इस्तेमाल किया। बस एक साधारण विश्लेषण, असाधारण कुछ भी नहीं। अंतिम आउटपुट एक खुराक-प्रतिक्रिया वक्र माना जाता है जहां हम दिखाते हैं कि एक विशिष्ट कोवरिएट के लिए संभावना कैसे बदलती है। कुछ इस तरह:

यहाँ छवि विवरण दर्ज करें

लॉजिस्टिक रिग्रेशन चुनने के लिए हमें एक आंतरिक समीक्षक (शुद्ध सांख्यिकीविद् नहीं) से कुछ आलोचना मिली। लॉजिस्टिक रिग्रेशन मानता है (या परिभाषित करता है) कि प्रायिकता स्केल पर S- आकार के वक्र का विभेदन बिंदु प्रायिकता 0.5 पर है। उन्होंने तर्क दिया कि यह मानने का कोई कारण नहीं होगा कि विभक्ति बिंदु वास्तव में संभाव्यता 0.5 पर था और हमें एक अलग प्रतिगमन मॉडल चुनना चाहिए जो विभक्ति बिंदु को ऐसे भिन्न करने की अनुमति देता है कि वास्तविक स्थिति डेटा चालित हो।

पहले तो मुझे उनकी दलील से बचना पड़ा, क्योंकि मैंने इस बिंदु पर कभी नहीं सोचा। मेरे पास कोई तर्क नहीं था कि यह मान लेना क्यों उचित होगा कि विभक्ति बिंदु 0.5 पर है। कुछ शोध करने के बाद, मेरे पास अभी भी इस प्रश्न का उत्तर नहीं है।

मैं 5-पैरामीटर लॉजिस्टिक प्रतिगमन में आया था, जिसके लिए विभक्ति बिंदु एक अतिरिक्त पैरामीटर है, लेकिन ऐसा लगता है कि इस प्रतिगमन मॉडल का उपयोग आमतौर पर खुराक-प्रतिक्रिया घटता है जब एक निरंतर परिणाम के साथ होता है। मुझे यकीन नहीं है कि यह द्विआधारी प्रतिक्रिया चर के लिए बढ़ाया जा सकता है और कैसे।

मुझे लगता है कि मेरा मुख्य प्रश्न यह क्यों या जब यह मान लेना ठीक है कि लॉजिस्टिक रिग्रेशन के लिए विभक्ति बिंदु 0.5 पर है? क्या इससे भी फर्क पड़ता है? मैंने कभी किसी को लॉजिस्टिक रिग्रेशन मॉडल को फिट करते हुए नहीं देखा और स्पष्ट रूप से विभक्ति बिंदु के मामले पर चर्चा की। क्या खुराक प्रतिक्रिया वक्र बनाने के लिए कोई विकल्प हैं जहां 0.5 पर विभक्ति बिंदु आवश्यक नहीं है?

पूर्णता के लिए, उपरोक्त चित्र बनाने के लिए R कोड:

dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")

1 संपादित करें:

स्कॉर्टची ने टिप्पणियों में से एक में कहा: बस समीक्षक ने तर्क दिया कि जैविक रूप से यह अधिक संभावना हो सकती है कि वक्रता में परिवर्तन 0.5 से पहले होता है। इसलिए यह मानने के खिलाफ कि प्रतिरोध बिंदु 0.5 पर है।

2 संपादित करें:

फ्रैंक हरेल की टिप्पणी की प्रतिक्रिया के रूप में:

उदाहरण के लिए, मैंने अपने मॉडल को एक द्विघात और एक घन शब्द को शामिल करने के लिए ऊपर संशोधित किया gre(जो इस उदाहरण में "खुराक" है)।

logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+  gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")

यहाँ छवि विवरण दर्ज करें

इस तथ्य के बावजूद कि greइस मामले में एक द्विघात और एक घन शब्द जोड़ना संभव नहीं है , हम देखते हैं कि खुराक-प्रतिक्रिया वक्र का रूप बदल गया है। वास्तव में अब हमारे पास लगभग 0.25 और 0.7 के पास दो विभक्ति बिंदु हैं।


2
क्या यह वैसा ही नहीं है, जैसा कि भविष्यवाणियों के गैर-रैखिक संबंधों की जांच करने के लिए प्रतिक्रिया के लॉग-ऑड्स से पूछ रहे हैं?
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


8

जैसा कि @scortchi द्वारा छुआ गया था, समीक्षक इस गलत धारणा के तहत काम कर रहा था कि लॉजिस्टिक रिग्रेशन के संदर्भ में भविष्यवक्ताओं के पैमानों पर ग़ैर-असरकारी प्रभाव डालना संभव नहीं है। मूल मॉडल सभी भविष्यवक्ताओं की रैखिकता को ग्रहण करने के लिए त्वरित था। रैखिकता धारणा को शिथिल करके, उदाहरण के लिए प्रतिबंधित क्यूबिक स्प्लीन (प्राकृतिक छींटे) का उपयोग करके, वक्र का पूरा आकार लचीला है और विभक्ति बिंदु अब कोई मुद्दा नहीं है। अगर एक ही भविष्यवक्ता होता और इसे एक प्रतिगमन सीमा का उपयोग करके विस्तारित किया गया होता, तो कोई कह सकता है कि लॉजिस्टिक मॉडल केवल चिकनाई और टिप्पणियों की स्वतंत्रता की धारणा बनाता है।


मुझे यह स्वीकार करना होगा कि मैं स्पलाइन रिग्रेशन से बहुत परिचित नहीं हूँ। मैं लॉजिस्टिक रिग्रेशन (R में) के साथ मिलकर ऐसा करने के बारे में पहले कैसे सोचूंगा। मैंने अपने मूल पद को संशोधित किया (2 संपादित करें) पूर्वसूचक में बहुपद शब्दों को शामिल करने के लिए। क्या मैं इसे सहजता से फैलाने के विकल्प के रूप में उपयोग कर सकता हूं। बेशक मेरे पास वैसा लचीलापन नहीं है, जो मुझे छींटों के साथ होगा।
फ्रांसिस

1
@ फ्रैंको: फ्रैंक हैरेल की खुद की प्रतिगमन मॉडलिंग रणनीतियाँ - पुस्तक , वेबसाइट , आर पैकेज - आपको जाना चाहिए। प्रतिगमन विभाजन के कुछ फायदों की एक संक्षिप्त चर्चा यहाँ है ; लेकिन आप निश्चित रूप से सही हैं कि बहुपद एक विकल्प हैं।
Scortchi - को पुनः स्थापित मोनिका

4

यह मुझे लगता है कि समीक्षक सिर्फ कुछ कहने के लिए देख रहा था। अनुमानित विभक्ति बिंदु जैसे विनिर्देश की ऐसी विशेषताओं की जांच करने से पहले, एक अनुमान योग्य मॉडल पर पहुंचने के लिए, हमारे द्वारा बनाई गई मान्यताओं का एक टन है। सभी से पूछताछ की जा सकती है और बहस की जा सकती है-लॉजिस्टिक फ़ंक्शन के उपयोग से ही एक संभावित प्राथमिक लक्ष्य हो सकता है: हमें किसने बताया कि अंतर्निहित त्रुटि शब्द का सशर्त वितरण लॉजिस्टिक है? कोई भी नहीं।

तो मुद्दा यह है: वक्रता का परिवर्तन क्या दर्शाता है? अध्ययन के तहत वास्तविक दुनिया की घटना के लिए कितना महत्वपूर्ण है, वह बिंदु हो सकता है जिस पर वक्रता का यह परिवर्तन होता है, ताकि हम इसे "डेटा-संचालित" बनाने पर विचार करें? पारसीमोनी के सिद्धांत से और आगे बढ़ना?

सवाल यह नहीं है कि "विस्थापन बिंदु 0.5 पर क्यों होना चाहिए?" लेकिन "0.5 पर छोड़ दिया गया हो तो यह हमारे निष्कर्षों के लिए कितना भ्रामक हो सकता है?"


2
जो थोड़ा अटपटा लगता है। हम नहीं जानते हैं कि समीक्षक के पास इस धारणा को चुनौती देने का अच्छा कारण नहीं है कि वह दूसरों को चुनौती दे सकता है। एक तरफ इसे विभक्ति बिंदुओं के संदर्भ में रखने का एक अजीब तरीका छोड़ दें, और लॉजिस्टिक प्रतिगमन के बारे में एक संभावित गलतफहमी, और वह मूल रूप से पूछ रहा है कि क्यों मॉडल वक्र को स्थानांतरित करने और खिंचाव करने देता है, लेकिन झुकता नहीं है, जो अच्छी तरह से एक उत्तर के योग्य हो सकता है।
Scortchi - को पुनः स्थापित मोनिका

@Scortchi "इसे लगाने का अजीब तरीका" ... "लॉजिस्टिक रिग्रेशन के बारे में एक संभावित गलतफहमी" ... अगर यह वही है जो समीक्षक की समालोचना को तर्कसंगत बनाता है, तो उसे उस पेपर की समीक्षा नहीं करनी चाहिए।
एलेकोस पापाडोपोलोस 14

1
जैसा कि @Sortchi के साथ है, मुझे यह थोड़ा तेज लगता है। यहां के कई अधिक सक्रिय लोगों की मुख्यधारा के आंकड़ों के बजाय विभिन्न विज्ञानों में पृष्ठभूमि है। एक सांख्यिकीविद् होने के नाते, शुद्ध या अन्यथा, अच्छी सलाह देने के लिए न तो आवश्यक है और न ही पर्याप्त है (हालांकि लगभग सभी मामलों में यह प्रकट रूप से मदद करेगा)।
निक कॉक्स

@ निक कॉक्स मैं "तीखेपन" को स्वीकार करता हूं, और मैंने सिर्फ आम सहमति के संकेत के रूप में अपना आखिरी वाक्य हटा दिया। मेरा कहना यह है कि सामान्य तरीके से पूछताछ करने से किसी मॉडल की धारणाओं का कोई मूल्य नहीं है -मॉडल हमेशा झूठे होते हैं। यदि अध्ययन के तहत वास्तविक दुनिया की घटना के लिए वक्रता में परिवर्तन की संभावना किसी भी तरह से महत्वपूर्ण है, तो समीक्षक वास्तव में यह पूछने के लिए बहुत सही था कि यह बिंदु डेटा-चालित हो। लेकिन अगर समीक्षक ने टिप्पणी की "क्यों पी = 0.5 पर और कहीं नहीं?", तो यह टिप्पणी रचनात्मक नहीं है।
एलेकोस पापाडोपोलोस

2
इसके लिए धन्यवाद। मैं आपके सामान्य रुख से सहमत हूं: (ए) विभिन्न दृष्टिकोणों के गुणों की चर्चा और (बी) हम कैसे उन दोनों के बारे में चर्चा करना चाहिए, दोनों निष्पक्ष खेल हैं। व्यक्तियों या यहां तक ​​कि समूहों पर टिप्पणियाँ इसके विपरीत आमतौर पर सहायक नहीं होती हैं (हालांकि मैं भी कभी-कभी अतिरंजना में रेखा को पार करता हूं ...)।
निक कॉक्स

0

Mho में, लॉजिट रिग्रेशन खुराक-प्रतिक्रिया के लिए एक उचित विकल्प है। बेशक, आप प्रोबेट, लॉग-लॉग, सी-लॉग-लॉग लिंक का उपयोग कर सकते हैं और फिट (DEV, BIC, CAIC, आदि) की अच्छाई की तुलना कर सकते हैं। लेकिन सरलतम तर्क प्रतिगमन विभक्ति बिंदु LD50 = -b0 / b1 का आरामदायक औपचारिक मूल्यांकन देता है। हमें याद है कि यह एक विशिष्ट बिंदु है, जिसके लिए हम न्यूनतम अनिश्चितता प्राप्त करते हैं (cf., LD16, LD84, और किसी भी अन्य व्यक्ति के पास एक व्यापक CI होगा, Finney, 1947, 1977 का "Probit विश्लेषण" देखें) मेरे अनुभव में। हमेशा (?) खुराक के लघुगणक का उपयोग करना बेहतर था, और फिर मूल पैमाने में 95% सीआई को परिवर्तित करें। मॉडल में अन्य सहसंयोजकों की प्रकृति क्या है? मैं बहु-मॉडल दृष्टिकोण का उपयोग करने की संभावना के बारे में बताता हूं। ... निश्चित रूप से स्प्लिंस लचीले होते हैं, लेकिन औपचारिक पैरामीट्रिक्स की व्याख्या आसान है!

Http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm देखें


0

0.5 विभक्ति बिंदु एक बड़े प्रश्न का एक छोटा सा हिस्सा है: लॉजिस्टिक समीकरण निर्माण सममिति द्वारा है। और इसके अधिकांश व्युत्पत्तियों में प्रतिरूप प्रभाव सममित होने का एक कारण है। जैसे एक खिलाड़ी दूसरे खिलाड़ी को हारता है, या संतृप्ति के लिए जिम्मेदार प्रभाव वही भौतिक प्रभाव होता है जो प्रारंभिक वृद्धि के लिए जिम्मेदार होता है, आदि .... इसलिए यदि कोई कारण है कि निम्न एक्स व्यवहार की उत्पत्ति समान मूल है जैसा कि चीर हाथ व्यवहारपूर्ण है या किसी अन्य कारण से समस्या सममित है तो आपके पास अपना औचित्य है।

यदि नहीं, तो शायद अगला सरलतम मॉडल सामान्यीकृत लॉजिस्टिक समीकरण है। इसमें अधिक पैरामीटर हैं और आप एक बाधा जोड़ना चाह सकते हैं ताकि वे सभी मुक्त पैरामीटर न हों। यह संभवत: आपके द्वारा जोड़े गए कल्लों की तुलना में अधिक वांछनीय है क्योंकि वे उन शेल्फों को जोड़ रहे हैं जहां पहला व्युत्पन्न आगे-पीछे थरथराना कर रहा है - इस तरह की चीज स्थानीय संतुलन के काल्पनिक झूठे बिंदु पैदा करती है यदि आप इस के कुछ अपेक्षा मूल्य को अनुकूलित करने का प्रयास कर रहे हैं वितरण। सामान्यीकृत रूप समरूपता को तोड़ देगा लेकिन एक सहज तरीके से।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.