मेरे पास कच्चा डेटा है जिसमें लगभग 20 कॉलम (20 सुविधाएँ) हैं। उनमें से दस निरंतर डेटा हैं और उनमें से 10 श्रेणीबद्ध हैं। श्रेणीबद्ध डेटा में से कुछ में 50 अलग-अलग मूल्य (यूएस स्टेट्स) हो सकते हैं। डेटा को पूर्व-संसाधित करने के बाद 10 निरंतर कॉलम 10 तैयार किए गए कॉलम बन जाते हैं और 10 श्रेणीबद्ध मान 200 एक-हॉट एन्कोडेड चर की तरह बन जाते हैं। मुझे चिंता है कि अगर मैं इन सभी 200 + 10 = 210 सुविधाओं को तंत्रिका जाल में डाल देता हूं तो 200-वन-हॉट फीचर्स (10 श्रेणीबद्ध कॉलम) पूरी तरह से 10-निरंतर सुविधाओं पर हावी हो जाएंगे।
शायद एक विधि एक साथ या कुछ "कॉलम" समूह के लिए होगी। क्या यह एक वैध चिंता है और क्या इस मुद्दे से निपटने का कोई मानक तरीका है?
(मैं केरस का उपयोग कर रहा हूं, हालांकि मुझे नहीं लगता कि यह ज्यादा मायने रखता है।)