मानदंड के साथ निरंतर चर के लिए इष्टतम विवेक का पता लगाने और मूल्यांकन करने के लिए कैसे ?


9

मेरे पास निरंतर चर और द्विआधारी लक्ष्य चर (0 और 1) के साथ एक डेटा सेट है।

मुझे लक्ष्य चर के संबंध में और इस विवशता के साथ निरंतर चर (लॉजिस्टिक रिग्रेशन के लिए) को अलग करने की आवश्यकता है कि प्रत्येक अंतराल में अवलोकन की आवृत्ति संतुलित होनी चाहिए। मैंने ची मर्ज, निर्णय पेड़ों जैसे मशीन लर्निंग एल्गोरिदम की कोशिश की। ची मर्ज ने मुझे प्रत्येक अंतराल (3 टिप्पणियों के साथ एक अंतराल और 1000 के साथ एक दूसरे) में बहुत असंतुलित संख्याओं के साथ अंतराल दिया। निर्णय पेड़ों की व्याख्या करना कठिन था।

मैं इस नतीजे पर पहुंचा कि एक विवेकाधीन वैरिएबल और लक्ष्य चर के बीच एक अधिकतम विवेकाधिकार आँकड़ा को अधिकतम करना चाहिए और इसमें लगभग समान मात्रा में अवलोकन वाले अंतराल होने चाहिए।χ2

क्या इसे हल करने के लिए एक एल्गोरिथ्म है?

यह कैसे आर की तरह लग सकता है (डी टारगेट वेरिएबल है और एक्स वेरिएबल होने के लिए वेरिएबल है)। मैंने परिवर्तित और लक्ष्य चर के बीच "सहसंबंध" का मूल्यांकन करने के लिए Tschuprow's की गणना की क्योंकि अंतराल की संख्या के साथ आँकड़े बढ़ जाते हैं। मैं निश्चित नहीं हूं कि यह सही तरीका है।Tχ2

क्या मूल्यांकन का एक और तरीका है यदि मेरा विवेक Tschuprow's (कक्षाओं की संख्या घटने पर बढ़ता है) के अलावा अन्यतम है ?T

chitest <- function(x){
  interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
  X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
  #Tschuprow
  Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
  print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}

2
आप शायद यह जानते हैं; लेकिन, रिकॉर्ड के लिए, (1) यह न तो आवश्यक है और न ही, अक्सर, तार्किक तर्क के लिए भविष्यवक्ताओं को विवेक देने के लिए वांछनीय है, और (2) भविष्यवाणियों को परिभाषित करने के लिए प्रतिक्रिया का उपयोग करके अपने मॉडल के पूर्वानुमान प्रदर्शन के अनुमान में एक आशावादी पूर्वाग्रह का परिचय देता है, और यह है इसलिए पूरी फिटिंग प्रक्रिया को मान्य करना महत्वपूर्ण है (अर्थात भविष्यवक्ताओं के गठन के लिए आपके द्वारा उपयोग की जाने वाली विधि सहित)।
Scortchi - को पुनः स्थापित मोनिका

ठीक है, मैं विवेक को कैसे मान्य कर सकता हूं, यह कैसे काम करता है?
चार्लोट

यदि आप उदाहरण के लिए क्रॉस-वैलिडेशन का उपयोग कर रहे हैं, तो प्रत्येक तह में आप पूरे नमूने से निर्धारित भविष्यवाणियों के "इष्टतम" विवेक का उपयोग करके लॉजिस्टिक प्रतिगमन को पूरा नहीं करते हैं, लेकिन साथ ही "इष्टतम" विवेकाधिकार की गणना भी करते हैं।
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


8

एक सतत चर का विवेचन करने के कई संभावित तरीके हैं: देखें [गार्सिया 2013]

पृष्ठ 739 पर मैं ची-वर्ग पर आधारित कम से कम 5 तरीके देख सकता था। विवेक की अनुकूलता वास्तव में उस कार्य पर निर्भर करती है जिसे आप विवेकाधीन चर का उपयोग करना चाहते हैं। आपके मामले में लॉजिस्टिक प्रतिगमन। और जैसा कि गार्सिया2013 में चर्चा की गई है, एक कार्य को दिए गए इष्टतम विवेक को खोजना एनपी-पूर्ण है।

हालांकि इसके कई प्रकार हैं। इस पत्र में वे कम से कम 50 चर्चा करते हैं। मेरी मशीन लर्निंग बैकग्राउंड को देखते हुए (मुझे लगता है कि आंकड़ों में लोग अन्य चीजों को पसंद करते हैं) मैं अक्सर फैयाद और ईरानी की न्यूनतम विवरण लंबाई (एमडीएल) विधि की ओर पक्षपाती हूं। मैं देख रहा हूँ कि यह आर पैकेज के विवेकाधिकार में उपलब्ध है

जैसा कि आपने कहा, ची-स्क्वायर अंतराल और कई अन्य आँकड़ों के प्रति पक्षपाती है (जैसा कि एमडीएल विधि में उपयोग की जाने वाली जानकारी प्राप्त होती है)। हालाँकि, MDL विवेकीकृत चर की सूचना लाभ और वर्ग और विच्छेदित चर की जटिलता (अंतरालों की संख्या) के बीच एक अच्छा व्यापार खोजने की कोशिश करता है। कोशिश करो।


आपका गार्सिया 2013 लिंक टूटा हुआ प्रतीत होता है ... क्या आप इस लेख के बारे में अधिक जानकारी पोस्ट करने या पुनः लिंक करने का मन करेंगे?
किरण के।

2
@KiranK। मुझे बताने के लिए धन्यवाद। मैंने लिंक ठीक कर दिया।
सिमोन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.