@ ओकराम का दृष्टिकोण निश्चित रूप से काम करेगा। निर्भरता गुणों के संदर्भ में यह कुछ हद तक प्रतिबंधात्मक है।
एक अन्य विधि एक संयुक्त वितरण प्राप्त करने के लिए कोप्युला का उपयोग करना है। आप सफलता और उम्र के लिए सीमांत वितरण निर्दिष्ट कर सकते हैं (यदि आपके पास मौजूदा डेटा यह विशेष रूप से सरल है) और एक कोप्युला परिवार। कोप्युला के मापदंडों को भिन्न करने पर निर्भरता के विभिन्न डिग्री प्राप्त होंगे, और विभिन्न कोप्युला परिवार आपको विभिन्न निर्भरता संबंध (जैसे मजबूत ऊपरी पूंछ निर्भरता) प्रदान करेंगे।
R में कोप्युला पैकेज के माध्यम से ऐसा करने का एक हालिया अवलोकन यहां उपलब्ध है । अतिरिक्त पैकेज के लिए उस पेपर में चर्चा भी देखें।
आपको जरूरी नहीं कि पूरे पैकेज की आवश्यकता हो; यहाँ एक सरल उदाहरण एक गाऊसी कोपला, सीमांत सफलता की संभावना 0.6, और गामा वितरित आयु का उपयोग करके दिया गया है। निर्भरता को नियंत्रित करने के लिए भिन्न आर।
r = 0.8 # correlation coefficient
sigma = matrix(c(1,r,r,1), ncol=2)
s = chol(sigma)
n = 10000
z = s%*%matrix(rnorm(n*2), nrow=2)
u = pnorm(z)
age = qgamma(u[1,], 15, 0.5)
age_bracket = cut(age, breaks = seq(0,max(age), by=5))
success = u[2,]>0.4
round(prop.table(table(age_bracket, success)),2)
plot(density(age[!success]), main="Age by Success", xlab="age")
lines(density(age[success]), lty=2)
legend('topright', c("Failure", "Success"), lty=c(1,2))
आउटपुट:
तालिका:
success
age_bracket FALSE TRUE
(0,5] 0.00 0.00
(5,10] 0.00 0.00
(10,15] 0.03 0.00
(15,20] 0.07 0.03
(20,25] 0.10 0.09
(25,30] 0.07 0.13
(30,35] 0.04 0.14
(35,40] 0.02 0.11
(40,45] 0.01 0.07
(45,50] 0.00 0.04
(50,55] 0.00 0.02
(55,60] 0.00 0.01
(60,65] 0.00 0.00
(65,70] 0.00 0.00
(70,75] 0.00 0.00
(75,80] 0.00 0.00