मल्टीपल प्रिडिक्टर्स के साथ एक लॉजिट मॉडल के लिए प्रायवेसी कर्व का रेखांकन


12

मैं निम्नलिखित संभावना समारोह है:

Prob=11+ez

कहाँ पे

z=B0+B1X1++BnXn.

मेरा मॉडल जैसा दिखता है

Pr(Y=1)=11+exp([3.92+0.014×(bid)])

यह एक संभावना वक्र के माध्यम से कल्पना की जाती है जो नीचे की तरह दिखता है।

यहाँ छवि विवरण दर्ज करें

मैं अपने मूल प्रतिगमन समीकरण में एक दो चर जोड़ने पर विचार कर रहा हूं। मान लें कि मैं मॉडल में लिंग (श्रेणी: एफ और एम) और उम्र (श्रेणी: <25 और> 26) जोड़ता हूं, मैं इसके साथ समाप्त होता हूं:

Pr(Y=1)=11+exp([3.92+0.014×(bid)+0.25×(gender)+0.15×(age)])

आरआई में एक समान संभावना वक्र उत्पन्न कर सकता है जो मुझे सभी तीन भविष्यवक्ताओं के लिए लेखांकन करते समय वाई = 1 की संभावना बताएगा। जहां मैं खो गया हूं, मैं इन विविधताओं के हर संभव क्रमचय के लिए संभावनाएं खोजना चाहता हूं।

तो जब बोली = 1, लिंग = एम, और उम्र है = = 26, तो संभावना क्या है कि Y = 1? इसी तरह, जब बोली = 2, लिंग = एफ, और उम्र है = = 26, तो संभावना क्या है कि Y = 1?

मैं एक संभावना वक्र उत्पन्न करना चाहता हूं जो मुझे यह कल्पना करने की अनुमति देगा।

क्या कोई मदद कर सकता है? मुझे पूरी तरह से गलतफहमी हो सकती है कि एक लॉजिट मॉडल से किस तरह की जानकारी मिल सकती है, लेकिन कृपया मुझे बताएं कि क्या मैं सिद्धांत को गलत समझ रहा हूं।


क्या आप चाहते हैं कि कोड आर में ऐसा करे, या केवल इस मुद्दे को समझने के लिए।
गंग -

अगर मुझे चुनना होता, तो मैं इस मुद्दे को वैचारिक रूप से कहता। मुझे लगता है कि आर कोड मैं अपने दम पर पता लगाने में सक्षम हो सकता हूं।
एटीएमट्यू

2
यदि आप साधारण (कम से कम वर्ग) प्रतिगमन के साथ एक ही समस्या को हल करने में सहज हैं, तो केवल लॉग ऑड्स (जो कि ) के रूप में प्रतिक्रिया व्यक्त नहीं करते हैं और उन तकनीकों का उपयोग करते हैं जिन्हें आप जानते हैं? B0+B1X1++BnXn
whuber

1
ज़रूर, @FrankHarrell rms पैकेज पर एक नज़र डालें (व्यापक प्रलेखन आरएमएस वेबसाइट पर पाया जा सकता है )। के साथ शुरू Predict()और plot.Predict()कार्यों क्या किया जा सकता है की एक महसूस करने के लिए (इस साजिश रचने में शामिल हैं के एक समारोह के रूप में साथ, मूलभूत मूल्यों पर सेट, या अपनी पसंद के निश्चित मूल्य)। Pr(Y=1|x2,,xp)x1x2,,xp
chl

जवाबों:


24

सौभाग्य से, आपके पास केवल एक निरंतर कोवरिएट है। इस प्रकार, आप बस चार (यानी, 2 SEX x 2 AGE) भूखंड बना सकते हैं, प्रत्येक बीआईडी ​​और बीच संबंध के साथ । वैकल्पिक रूप से, आप उस पर चार अलग-अलग लाइनों के साथ एक साजिश कर सकते हैं (आप उन्हें अलग करने के लिए अलग-अलग रेखा शैलियों, भार या रंगों का उपयोग कर सकते हैं)। आप बीआईडी ​​मानों की एक श्रृंखला के लिए चार संयोजनों में से प्रत्येक पर प्रतिगमन समीकरण को हल करके इन अनुमानित लाइनों को प्राप्त कर सकते हैं। p(Y=1)

एक अधिक जटिल स्थिति वह है जहां आपके पास एक से अधिक निरंतर कोवरिएट हैं। इस तरह के एक मामले में, अक्सर एक विशेष सहसंयोजक होता है जो कुछ अर्थों में 'प्राथमिक' होता है। उस अक्ष को एक्स अक्ष के लिए इस्तेमाल किया जा सकता है। फिर आप अन्य सहसंयोजकों के कई पूर्व-निर्दिष्ट मानों के लिए हल करते हैं, आमतौर पर औसत और +/- 1SD। अन्य विकल्पों में विभिन्न प्रकार के 3 डी प्लॉट, कॉप्लॉट या इंटरएक्टिव प्लॉट शामिल हैं।

यहां एक अलग प्रश्न के मेरे उत्तर में 2 से अधिक आयामों में डेटा की खोज के लिए भूखंडों की एक श्रृंखला की जानकारी है। आपका मामला अनिवार्य रूप से अनुरूप है, सिवाय इसके कि आप कच्चे मूल्यों के बजाय मॉडल के अनुमानित मूल्यों को प्रस्तुत करने में रुचि रखते हैं।

अपडेट करें:

मैंने इन भूखंडों को बनाने के लिए R में कुछ सरल उदाहरण कोड लिखे हैं। मुझे कुछ बातों पर ध्यान दें: क्योंकि 'कार्रवाई' जल्दी होती है, मैंने केवल 700 के माध्यम से बीआईडी ​​चलाया (लेकिन इसे 2000 तक बढ़ाने के लिए स्वतंत्र महसूस करें)। इस उदाहरण में, मैं आपके द्वारा निर्दिष्ट फ़ंक्शन का उपयोग कर रहा हूं और संदर्भ श्रेणी के रूप में पहली श्रेणी (यानी, महिला और युवा) ले रहा हूं (जो कि आर में डिफ़ॉल्ट है)। जैसा कि @whuber ने अपनी टिप्पणी में नोट किया है, LR मॉडल लॉग ऑड्स में रैखिक हैं, इस प्रकार आप अनुमानित मूल्यों के पहले ब्लॉक का उपयोग कर सकते हैं और यदि आप चुनते हैं तो ओएलएस प्रतिगमन के साथ साजिश कर सकते हैं। लॉगिट लिंक फ़ंक्शन है, जो आपको मॉडल को संभावनाओं से कनेक्ट करने की अनुमति देता है; दूसरा ब्लॉक लॉग ऑड्स को लॉगिट फ़ंक्शन के व्युत्क्रम के माध्यम से संभाव्यता में परिवर्तित करता है, अर्थात एक्सपोनेंटिअटिंग (ऑड्स में बदल जाता है) और फिर ऑड्स को 1 + ऑड्स से विभाजित करता है। ( यदि आप अधिक जानकारी चाहते हैं , तो मैं यहां लिंक फ़ंक्शंस की प्रकृति और इस प्रकार के मॉडल पर चर्चा करता हूं ।)

BID = seq(from=0, to=700, by=10)

logOdds.F.young = -3.92 + .014*BID
logOdds.M.young = -3.92 + .014*BID + .25*1
logOdds.F.old   = -3.92 + .014*BID         + .15*1
logOdds.M.old   = -3.92 + .014*BID + .25*1 + .15*1

pY.F.young = exp(logOdds.F.young)/(1+ exp(logOdds.F.young))
pY.M.young = exp(logOdds.M.young)/(1+ exp(logOdds.M.young))
pY.F.old   = exp(logOdds.F.old)  /(1+ exp(logOdds.F.old))
pY.M.old   = exp(logOdds.M.old)  /(1+ exp(logOdds.M.old))

windows()
  par(mfrow=c(2,2))
  plot(x=BID, y=pY.F.young, type="l", col="blue", lwd=2, 
       ylab="Pr(Y=1)", main="predicted probabilities for young women")
  plot(x=BID, y=pY.M.young, type="l", col="blue", lwd=2, 
       ylab="Pr(Y=1)", main="predicted probabilities for young men")
  plot(x=BID, y=pY.F.old, type="l", col="blue", lwd=2, 
       ylab="Pr(Y=1)", main="predicted probabilities for old women")
  plot(x=BID, y=pY.M.old, type="l", col="blue", lwd=2, 
       ylab="Pr(Y=1)", main="predicted probabilities for old men")

जो निम्नलिखित कथानक का निर्माण करता है:
यहाँ छवि विवरण दर्ज करें
ये फ़ंक्शन पर्याप्त रूप से समान हैं कि जिन चार-समानांतर भूखंडों को मैंने शुरू में उल्लिखित किया था, वे बहुत विशिष्ट नहीं हैं। निम्नलिखित कोड मेरे 'वैकल्पिक' दृष्टिकोण को लागू करता है:

windows()
  plot(x=BID, y=pY.F.young, type="l", col="red", lwd=1, 
       ylab="Pr(Y=1)", main="predicted probabilities")
  lines(x=BID, y=pY.M.young, col="blue", lwd=1)
  lines(x=BID, y=pY.F.old,   col="red",  lwd=2, lty="dotted")
  lines(x=BID, y=pY.M.old,   col="blue", lwd=2, lty="dotted")
  legend("bottomright", legend=c("young women", "young men", 
         "old women", "old men"), lty=c("solid", "solid", "dotted",
         "dotted"), lwd=c(1,1,2,2), col=c("red", "blue", "red", "blue"))

बदले में उत्पादन, यह साजिश:
यहाँ छवि विवरण दर्ज करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.