पूर्ण प्रकटीकरण: यह होमवर्क है। मैंने डाटासेट ( http://www.bertelsen.ca/R/logistic-regression.sav ) के लिए एक लिंक शामिल किया है
मेरा लक्ष्य इस डेटा सेट में ऋण डिफॉल्टरों की भविष्यवाणी को अधिकतम करना है।
हर मॉडल जो मैं अब तक के साथ आया हूं, गैर-डिफॉल्टर्स का 90% भविष्यवाणी करता है, लेकिन <40% डिफॉल्टर्स वर्गीकरण दक्षता को कुल मिलाकर ~ 80% बनाते हैं। तो, मुझे आश्चर्य है कि क्या चर के बीच बातचीत प्रभाव हैं? एक लॉजिस्टिक रिग्रेशन के भीतर, प्रत्येक संभावित संयोजन का परीक्षण करने के अलावा संभावित बातचीत प्रभावों की पहचान करने का एक तरीका है? या वैकल्पिक रूप से डिफॉल्टरों के वर्गीकरण की दक्षता को बढ़ावा देने का एक तरीका है।
मैं फंस गया हूं, कोई भी सिफारिशें आपकी पसंद के शब्दों, आर-कोड या एसपीएसएस सिंटैक्स में मददगार होंगी।
मेरे प्राथमिक चरों को निम्नलिखित हिस्टोग्राम और स्कैप्लेटॉट में उल्लिखित किया गया है (डायकोटोमस चर के अपवाद के साथ)
प्राथमिक चर का विवरण:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
अतिरिक्त चर सिर्फ ऊपर के परिवर्तन हैं। मैंने कुछ निरंतर चर को श्रेणीबद्ध चर में बदलने और उन्हें मॉडल में लागू करने की कोशिश की, वहां कोई किस्मत नहीं।
यदि आप इसे आर में, जल्दी से, यहाँ यह पॉप करना चाहते हैं:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)