कई मशीन लर्निंग एल्गोरिदम, उदाहरण के लिए तंत्रिका नेटवर्क, संख्याओं से निपटने की उम्मीद करते हैं। इसलिए, जब आपके पास एक श्रेणीबद्ध डेटा होता है, तो आपको इसे परिवर्तित करने की आवश्यकता होती है। उदाहरण के लिए, मेरा मतलब है:
कार ब्रांड: ऑडी, बीएमडब्ल्यू, शेवरले ... यूजर आईडी: 1, 25, 26, 28 ...
उपयोगकर्ता आईडी संख्या होने के बावजूद, वे सिर्फ लेबल हैं, और निरंतरता के संदर्भ में इसका मतलब नहीं है, जैसे उम्र या धन का योग।
तो, बुनियादी दृष्टिकोण श्रेणियों को सांकेतिक शब्दों में बदलना करने के लिए द्विआधारी वैक्टर का उपयोग करने के लिए लगता है:
ऑडी: 1, 0, 0 ... बीएमडब्ल्यू: 0, 1, 0 ... शेवरलेट: 0, 0, 1 ...
यह ठीक है जब कुछ श्रेणियां होती हैं, लेकिन इससे परे यह थोड़ा अक्षम दिखता है। उदाहरण के लिए, जब आपके पास एन्कोड करने के लिए 10 000 उपयोगकर्ता आईडी हैं, तो यह 10 000 विशेषताएं हैं।
सवाल यह है कि क्या कोई बेहतर तरीका है? शायद एक संभावनाओं को शामिल?