मैं नाममात्र या क्रमिक डेटा में श्रेणियों की संख्या को कम करने के लिए एक विधि खोजने के लिए संघर्ष कर रहा हूं।
उदाहरण के लिए, मान लें कि मैं एक डेटासेट पर एक प्रतिगमन मॉडल बनाना चाहता हूं जिसमें कई नाममात्र और क्रमिक कारक हैं। हालांकि मुझे इस कदम से कोई समस्या नहीं है, मैं अक्सर उन स्थितियों में भाग लेता हूं जहां प्रशिक्षण सेट में एक नाममात्र की सुविधा होती है, लेकिन बाद में सत्यापन डेटासेट में मौजूद होता है। जब मॉडल को (अब तक) अनदेखे मामलों के साथ प्रस्तुत किया जाता है, तो यह स्वाभाविक रूप से और त्रुटि की ओर जाता है। एक और स्थिति जहां मैं श्रेणियों को संयोजित करना चाहूंगा, बस कुछ टिप्पणियों के साथ बहुत अधिक श्रेणियां हैं।
तो मेरे सवाल हैं:
- जबकि मुझे एहसास है कि पूर्व वास्तविक दुनिया की पृष्ठभूमि की जानकारी के आधार पर कई नाममात्र (और क्रमिक) श्रेणियों को संयोजित करना सबसे अच्छा हो सकता है, क्या वहाँ व्यवस्थित तरीके (
R
पैकेज अधिमानतः) उपलब्ध हैं? - कट-ऑफ थ्रेसहोल्ड इत्यादि के बारे में आप क्या दिशा-निर्देश और सुझाव देंगे?
- साहित्य में सबसे लोकप्रिय समाधान क्या हैं?
- क्या छोटी नाममात्र श्रेणियों को एक नई, "ओटर्स" श्रेणी में संयोजित करने की तुलना में अन्य रणनीतियाँ हैं?
यदि आपके पास अन्य सुझाव भी हैं तो कृपया बेझिझक झंकार करें।