मेरे पास 330 नमूनों के साथ एक डेटासेट है और प्रत्येक नमूने के लिए 27 सुविधाएँ, लॉजिस्टिक रिग्रेशन के लिए एक बाइनरी क्लास समस्या है।
"नियम अगर दस" के अनुसार मुझे शामिल होने के लिए प्रत्येक सुविधा के लिए कम से कम 10 घटनाओं की आवश्यकता है। हालाँकि, मेरे पास एक असंतुलित डेटासेट है, जिसमें 20% ओ पॉजिटिव क्लास और 80% निगेटिव क्लास है।
यह मुझे केवल 70 घटनाएं देता है, जो केवल 7/8 सुविधाओं को लॉजिस्टिक मॉडल में शामिल करने की अनुमति देता है।
मैं भविष्यवाणियों के रूप में सभी विशेषताओं का मूल्यांकन करना चाहता हूं, मैं किसी भी सुविधाओं को चुनना नहीं चाहता।
तो आप क्या सुझाव देंगे? क्या मुझे सभी संभव 7 फीचर संयोजन बनाने चाहिए? क्या मुझे एसोसिएशन मॉडल के साथ अकेले प्रत्येक सुविधा का मूल्यांकन करना चाहिए और फिर अंतिम मॉडल के लिए केवल सबसे अच्छे लोगों को चुनना चाहिए?
मैं स्पष्ट और निरंतर सुविधाओं की हैंडलिंग के बारे में भी उत्सुक हूं, क्या मैं उन्हें मिला सकता हूं? यदि मेरे पास एक श्रेणीबद्ध [0-1] और एक निरंतर [0-100] है, तो क्या मुझे सामान्य करना चाहिए?
मैं फिलहाल पायथन के साथ काम कर रहा हूं।
आपकी सहायता के लिए धन्यवाद!