मेरे पास निरंतर चर और द्विआधारी लक्ष्य चर (0 और 1) के साथ एक डेटा सेट है।
मुझे लक्ष्य चर के संबंध में और इस विवशता के साथ निरंतर चर (लॉजिस्टिक रिग्रेशन के लिए) को अलग करने की आवश्यकता है कि प्रत्येक अंतराल में अवलोकन की आवृत्ति संतुलित होनी चाहिए। मैंने ची मर्ज, निर्णय पेड़ों जैसे मशीन लर्निंग एल्गोरिदम की कोशिश की। ची मर्ज ने मुझे प्रत्येक अंतराल (3 टिप्पणियों के साथ एक अंतराल और 1000 के साथ एक दूसरे) में बहुत असंतुलित संख्याओं के साथ अंतराल दिया। निर्णय पेड़ों की व्याख्या करना कठिन था।
मैं इस नतीजे पर पहुंचा कि एक विवेकाधीन वैरिएबल और लक्ष्य चर के बीच एक अधिकतम विवेकाधिकार आँकड़ा को अधिकतम करना चाहिए और इसमें लगभग समान मात्रा में अवलोकन वाले अंतराल होने चाहिए।
क्या इसे हल करने के लिए एक एल्गोरिथ्म है?
यह कैसे आर की तरह लग सकता है (डी टारगेट वेरिएबल है और एक्स वेरिएबल होने के लिए वेरिएबल है)। मैंने परिवर्तित और लक्ष्य चर के बीच "सहसंबंध" का मूल्यांकन करने के लिए Tschuprow's की गणना की क्योंकि अंतराल की संख्या के साथ आँकड़े बढ़ जाते हैं। मैं निश्चित नहीं हूं कि यह सही तरीका है।
क्या मूल्यांकन का एक और तरीका है यदि मेरा विवेक Tschuprow's (कक्षाओं की संख्या घटने पर बढ़ता है) के अलावा अन्यतम है ?
chitest <- function(x){
interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
#Tschuprow
Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}