आइए बताते हैं कि मैं एक फिल्म एम के लिए एक लॉजिस्टिक क्लासिफायर बनाना चाहता हूं। मेरी विशेषताएं व्यक्ति की उम्र, लिंग, व्यवसाय, स्थान जैसी कुछ होंगी। तो प्रशिक्षण सेट कुछ इस तरह होगा:
- आयु लिंग व्यवसाय का स्थान (1) / नापसंद (0)
- 23 एम सॉफ्टवेयर यूएस 1
- 24 एफ डॉक्टर यूके 0
और इसी तरह .... अब मेरा सवाल यह है कि मुझे अपनी विशेषताओं का किस प्रकार और किस प्रकार प्रतिनिधित्व करना चाहिए। एक तरीका मैंने सोचा: आयु समूहों के रूप में आयु को विभाजित करें, इसलिए 18-25, 25-35, 35-ऊपर, लिंग के रूप में एम, एफ, स्थान के रूप में यूएस, यूके, अन्य। अब इन सभी मूल्यों के लिए एक द्विआधारी सुविधा बनाएँ, इसलिए आयु में 3 बाइनरी विशेषताएं होंगी जो प्रत्येक आयु वर्ग और इसी तरह से होंगी। तो, अमेरिका से एक 28 साल के पुरुष को 010 10 100 (010-> आयु समूह 25-35, 10 -> पुरुष, 100 -> यूएस) के रूप में दर्शाया जाएगा।
यहाँ सुविधाओं का प्रतिनिधित्व करने का सबसे अच्छा तरीका क्या हो सकता है? इसके अलावा, मैंने कुछ ई.जी. सभी विशेषताओं को किसी तरह से छोटा / सामान्य किया गया है, उदाहरण के लिए, लिंग को पुरुष और महिला के लिए दो मूल्यों, 0.0045 और -.0.0045 द्वारा दर्शाया गया है। मुझे इस तरह से स्केलिंग / मॉर्बलाइज़ेशन करने का कोई सुराग नहीं है?