मैं एक निरंतर प्रतिक्रिया (लक्ष्य) बाइनरी चर के संबंध में और एक पैरामीटर के रूप में अधिकतम अंतराल के साथ निरंतर चर की इष्टतम बीनिंग विधि (विवेक) की तलाश कर रहा हूं।
उदाहरण: मेरे पास "ऊंचाई" (अंक निरंतर) और "has_back_pains" (बाइनरी) चर वाले लोगों की टिप्पणियों का एक सेट है। मैं चाहता हूं कि पीठ के दर्द वाले लोगों के अलग-अलग अनुपात में 3 अंतराल (समूहों) में ऊँचाई अलग-अलग हो, ताकि एल्गोरिथम समूहों के बीच अंतर को अधिकतम कर सके (उदाहरण के लिए दिए गए प्रतिबंधों के साथ, कि प्रत्येक अंतराल में कम से कम x अवलोकन हों)।
इस समस्या का स्पष्ट समाधान निर्णय पेड़ों (एक साधारण एक-चर मॉडल) का उपयोग करना होगा, लेकिन मुझे आर में कोई भी फ़ंक्शन नहीं मिल सकता है, जिसमें पैरामीटर के रूप में "शाखाओं की अधिकतम संख्या" होगी - यह सभी चर को विभाजित करते हैं 2 ग्रोपस में (<= x और> x)। एसएएस खान में एक "अधिकतम शाखा" पैरामीटर है, लेकिन मैं एक गैर वाणिज्यिक समाधान की तलाश कर रहा हूं।
मेरे कुछ चरों के कुछ अनूठे मूल्य हैं (और उन्हें असतत चर के रूप में माना जा सकता है), लेकिन मैं उन्हें और साथ ही साथ बहुत कम अंतराल में विवेचना करना चाहता हूं।
मेरी समस्या का सबसे करीबी समाधान आर (जो पार्टी पैकेज से ctree फ़ंक्शन पर निर्भर करता है) में smbinning पैकेज में लागू किया गया है, लेकिन इसमें दो कमियां हैं: अंतराल की संख्या निर्धारित करना असंभव है (हालांकि, आप इसे बदलने के बारे में एक तरीका पा सकते हैं) पी पैरामीटर) और यह तब काम नहीं करता है जब डेटा वेक्टर में 10 से कम अद्वितीय मान होते हैं। वैसे भी, आप यहाँ उदाहरण आउटपुट देख सकते हैं (Cutpoint और Odds कॉलम महत्वपूर्ण हैं):
Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate Odds LnOdds WoE IV
1 <= 272 9081 169 8912 9081 169 8912 0.1874 0.9814 0.0190 -3.9653 -0.6527 0.0596
2 <= 311 8541 246 8295 17622 415 17207 0.1762 0.9712 0.0297 -3.5181 -0.2055 0.0068
3 <= 335 2986 163 2823 20608 578 20030 0.0616 0.9454 0.0577 -2.8518 0.4608 0.0163
4 Missing 27852 1125 26727 48460 1703 46757 0.5747 0.9596 0.0421 -3.1679 0.1447 0.0129
5 Total 48460 1703 46757 NA NA NA 1.0000 0.9649 0.0364 -3.3126 0.0000 0.0956
ओह, मैं पूरी तरह से अवगत हूं कि बिनिंग के परिणामस्वरूप जानकारी का नुकसान होता है और यह बेहतर तरीके हैं, लेकिन मैं डेटा विज़ुअलाइज़ेशन के लिए इसका उपयोग करने जा रहा हूं और उन चर को एक कारक के रूप में मानता हूं।
SPSS Algorithms Optimal Binning
।