लॉजिस्टिक रिग्रेशन के लिए फिट के बायेसियन अच्छाई की कल्पना कैसे करें


10

एक बायेसियन लॉजिस्टिक रिग्रेशन समस्या के लिए, मैंने एक पश्चवर्ती भविष्यवाणिय वितरण बनाया है। मैं भविष्य कहनेवाला वितरण से नमूना लेता हूं और प्रत्येक अवलोकन के लिए (0,1) के हजारों नमूने प्राप्त करता हूं। उदाहरण के लिए, अच्छाई के लायक होने का दृश्य दिलचस्प नहीं है:

यहां छवि विवरण दर्ज करें

यह प्लॉट 10 000 सैंपल + देखे गए डेटम पॉइंट को दर्शाता है (जिस तरह से बाईं ओर एक लाल रेखा बना सकता है: हाँ यह अवलोकन है)। समस्या यह है कि यह भूखंड शायद ही जानकारीपूर्ण है, और मेरे पास उनमें से 23 होंगे, प्रत्येक डेटा बिंदु के लिए।

वहाँ 23 डेटा बिंदुओं की कल्पना करने के लिए एक बेहतर तरीका है और इसके बाद के नमूने हैं।


एक और प्रयास:

यहां छवि विवरण दर्ज करें


यहां कागज पर आधारित एक और प्रयास

यहां छवि विवरण दर्ज करें


1
एक उदाहरण के लिए यहां देखें जहां उपरोक्त डेटा-विज़ तकनीक काम करती है।
Cam.Davidson.Pilon

यह बर्बाद अंतरिक्ष IMO का एक बहुत कुछ है! क्या आपके पास वास्तव में केवल 3 मान हैं (0.5 से नीचे, 0.5 से ऊपर, और अवलोकन) या क्या यह आपके द्वारा दिए गए उदाहरण की सिर्फ एक कलाकृति है?
एंडी डब्ल्यू

यह वास्तव में बदतर है: मेरे पास 8500 0s और 1500 1s हैं। ग्राफ सिर्फ एक जुड़ा हिस्टोग्राम बनाने के लिए इन मूल्यों को धक्का देता है। लेकिन मैं सहमत हूं: बहुत सारी बर्बाद जगह। वास्तव में, प्रत्येक डेटा बिंदु के लिए मैं इसे एक अनुपात (पूर्व 8500/10000) और एक अवलोकन (0 या 1) तक कम कर सकता हूं
Cam.Davidson.Pilon

तो आपके पास 23 डेटा बिंदु हैं, और कितने भविष्यवक्ता हैं? और क्या आपके नए डेटा पॉइंट्स या मॉडल को फिट करने के लिए आपके द्वारा इस्तेमाल किए गए 23 के लिए पूर्ववर्ती भविष्य कहनेवाला व्याकुलता है?
प्रोबेबिलिसलॉजिक

आपका अपडेट किया गया प्लॉट मेरे सुझाव के करीब है। हालांकि एक्स-अक्ष का प्रतिनिधित्व क्या है? ऐसा लगता है कि आपके पास कुछ बिंदु हैं जो सुपर-लगाए गए हैं - जो केवल 23 के साथ अनावश्यक लगता है।
एंडी डब्ल्यू

जवाबों:


5

मुझे लगता है कि आपकी स्थिति के लिए सभी सामानों को नहीं देने के लिए आपके पास है, लेकिन हमारे सामने जो कुछ भी है उसे देखते हुए सूचना को प्रदर्शित करने के लिए एक साधारण डॉट-प्लॉट की उपयोगिता पर विचार करने की अनुमति देता है ।

बिंदु साजिश

यहाँ नहीं करने के लिए केवल वास्तविक चीज़ (जो कि शायद डिफ़ॉल्ट व्यवहार नहीं हैं) हैं:

  • मैंने बिना किसी दोष और दोषों के मनाया मूल्यों के बीच भेदभाव करने के लिए निरर्थक एन्कोडिंग, आकार और रंग का उपयोग किया। ऐसी सरल जानकारी के साथ, ग्राफ पर एक बिंदी लगाना आवश्यक नहीं है। जब आप बिंदु मध्य मानों के पास होते हैं, तो आपको एक समस्या होती है, यह देखने के लिए अधिक लुक-अप लेता है कि क्या मनाया गया मान शून्य या एक है।
  • मैंने प्रेक्षित अनुपात के अनुसार ग्राफिक को सॉर्ट किया।

सॉर्टिंग इन जैसे डॉट-प्लॉट्स के लिए असली किकर है। यहां अनुपात के मूल्यों के आधार पर छाँटने से आसानी से उच्च अवशिष्ट टिप्पणियों को उजागर करने में मदद मिलती है। एक ऐसी प्रणाली का होना जहां आप आसानी से प्लॉट में निहित मूल्यों द्वारा या मामलों की बाहरी विशेषताओं में छाँट सकते हैं, अपने हिरन के लिए बैंग प्राप्त करने का सबसे अच्छा तरीका है।

यह सलाह निरंतर टिप्पणियों तक फैली हुई है। आप इस बिंदु के अनुसार रंगों को आकार / आकार दे सकते हैं कि क्या अवशिष्ट नकारात्मक या सकारात्मक है, और फिर निरपेक्ष (या वर्ग) अवशिष्ट के अनुसार बिंदु को आकार दें। यह IMO यहाँ आवश्यक नहीं है, हालांकि अवलोकन मूल्यों की सादगी के कारण।


1
मुझे यह समाधान और सामग्री पसंद है, मैं अन्य सबमिशन पर इंतजार कर रहा हूं। धन्यवाद एंडी
Cam.Davidson.Pilon

1
@ Cam.Davidson.Pilon - मैं अन्य सबमिशन पर भी इंतज़ार कर रहा हूँ! क्योंकि आपके मॉडल में केवल एक भविष्यवक्ता है - दोषों के अनुमानित अनुपात के आधार पर छंटनी को तापमान द्वारा छँटाई के रूप में पर्यायवाची माना जाएगा (एक मोनोटोनिक प्रभाव - जैसा कि यह आपके ग्राफ में दिखाई देता है)। शायद कोई व्यक्ति एक और समाधान के साथ आएगा, जो प्रभावी रूप से किसी को अनुमानित अनुपात और मूल तापमान (या कुछ पूरी तरह से अलग) देखने की अनुमति देता है। यह प्रदर्शन खराब भविष्यवाणियों को देखने के लिए अच्छा है, लेकिन गैर-रैखिक प्रभाव देखने जैसी चीजों के लिए बहुत अच्छा नहीं है।
एंडी डब्ल्यू

1
मैं आपको इनाम देने के लिए खुश हूं। सॉर्टिंग इसे प्रस्तुत करने की कुंजी है, और आपके पिछले पोस्ट से जुड़ा पेपर वह है जिसका मैं उपयोग कर रहा हूं। धन्यवाद!
Cam.Davidson.Pilon

4

एक भविष्यवक्ता के साथ एक बायिसियन लॉजिस्टिक रिग्रेशन मॉडल के फिट की कल्पना करने का सामान्य तरीका यह है कि संबंधित समानुपात के साथ भविष्य कहनेवाला वितरण की साजिश रचें। (कृपया, मुझे बताएं कि क्या मुझे आपका प्रश्न समझ में आया)

लोकप्रिय ब्लिस के डेटा सेट का उपयोग करके एक उदाहरण।

यहां छवि विवरण दर्ज करें

आर में नीचे कोड:

library(mcmc)

# Beetle data

ni = c(59, 60, 62, 56, 63, 59, 62, 60) # Number of individuals
no = c(6, 13, 18, 28, 52, 53, 61, 60) # Observed successes
dose = c(1.6907, 1.7242, 1.7552, 1.7842, 1.8113, 1.8369, 1.8610, 1.8839) # dose

dat = cbind(dose,ni,no)

ns = length(dat[,1])

# Log-posterior using a uniform prior on the parameters

logpost = function(par){
var = dat[,3]*log(plogis(par[1]+par[2]*dat[,1])) + (dat[,2]-dat[,3])*log(1-plogis(par[1]+par[2]*dat[,1]))

if( par[1]>-100000 ) return( sum(var) )
else return(-Inf)
}

# Metropolis-Hastings
N = 60000

samp <- metrop(logpost, scale = .35, initial = c(-60,33), nbatch = N)

samp$accept

burnin = 10000
thinning = 50

ind = seq(burnin,N,thinning)

mu1p =   samp$batch[ , 1][ind]

mu2p =   samp$batch[ , 2][ind]


# Visual tool

points = no/ni
# Predictive dose-response curve
DRL <- function(d) return(mean(plogis(mu1p+mu2p*d)))
DRLV = Vectorize(DRL)

v <- seq(1.55,2,length.out=55)
FL = DRLV(v)

plot(v,FL,type="l",xlab="dose",ylab="response")
points(dose,points,lwd=2)

मैं एक आर लड़का नहीं हूं, क्या आप प्लॉट / आउटपुट प्रदान कर सकते हैं?
Cam.Davidson.Pilon

@ Cam.Davidson.Pilon मुझे खेद है, मेरी प्रतिष्ठा मुझे भूखंडों को शामिल करने की अनुमति नहीं देती है। लेकिन विचार मनाया गया अनुपात के साथ पूरे खुराक-प्रतिक्रिया वक्र को साजिश करने के लिए है।
सेरेबिस

मैंने तस्वीर जोड़ दी है। आप उस डेटा के लिए एक अलग संरचना ग्रहण करते हैं जिसमें ओपी सीधे आपके उदाहरण तक नहीं पहुंचता है। ओपी का डेटा ऐसा होगा जैसे आपके ni = 23और no = 723 व्यक्तियों में से प्रत्येक के पास एक अलग है dose। आप ओपी के डेटा के लिए एक समान प्लॉट बना सकते हैं, हालांकि, (बिंदुओं को Y अक्ष पर 0 या 1 पर रखा गया है, और आप फ़ंक्शन को प्लॉट करते हैं)। इस उत्तर पर दिए गए संदर्भों में लॉजिस्टिक प्रतिगमन के लिए इसी तरह के भूखंडों के कुछ उदाहरण देखें ।
एंडी डब्ल्यू

@AndyW इसके लिए और साथ ही स्पष्टीकरण के लिए धन्यवाद।
सेर्बिस

@AndyW आपके द्वारा लिंक किए गए कागजात काफी उपयोगी हैं! मुझे यह देखने के लिए उन पर कड़ी नज़र रखनी होगी कि क्या मैं उन्हें लागू कर सकता हूँ।
Cam.Davidson.Pilon

3

मैं वैकल्पिक ग्राफिकल तकनीकों के लिए एक अनुरोध का जवाब दे रहा हूं जो यह दर्शाता है कि कैसे असफल घटनाओं का मिलान विफलता की घटनाओं से मेल खाता है। प्रश्न "प्रोबेबिलिस्टिक प्रोग्रामिंग और बेयसियन मेथड्स फॉर हैकर्स" में यहां पाया गया । यहाँ मेरा चित्रमय दृष्टिकोण है:

अछूता बनाम ओ-रिंग विफलताएं

यहां कोड मिला ।


दिलचस्प - क्या आप इस तकनीक का उपयोग करने के लिए कोई तर्क दे सकते हैं? साझा करने के लिए धन्यवाद!
Cam.Davidson.Pilon

यह एक संभावना है, न कि एक नियतात्मक परिणाम। इसलिए, मैंने एक प्रतिनिधित्व की तलाश की जिसने कई चीजों को व्यक्त किया: 1) मनाया और अनुमानित घटनाओं की सीमा; 2: अनुमानित असफलताओं की संभावना वितरण; 3) अनुमानित गैर-विफलताओं की संभावना वितरण; और 4) वे सीमाएँ जहाँ विफलता अधिक होने की संभावना है, गैर-विफलता की संभावना अधिक होती है, और वे सीमाएँ जहाँ विफलता और गैर-विफलता संभावनाएँ ओवरलैप होती हैं। यह ग्राफ मेरी आंखों को दिखाता है।
user35216

कुछ और परिवर्धन / स्पष्टीकरण: 1) प्रेक्षित और अनुमानित घटनाओं की तापमान सीमा; 5) वास्तविक मनाया विफलताओं और गैर-विफलताओं
user35216
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.