जबकि AN6U5 ने बहुत अच्छा जवाब दिया है, मैं भविष्य के संदर्भ के लिए कुछ बिंदुओं को जोड़ना चाहता था। जब विचार एक गर्म एन्कोडिंग (Ohe) और लेबल एन्कोडिंग , हम कोशिश करते हैं और समझते हैं कि क्या मॉडल आप का निर्माण करने के प्रयास कर रहे हैं चाहिए। आदर्श रूप से जिन दो श्रेणियों पर हम विचार करेंगे, वे हैं:
- ट्री बेस्ड मॉडल्स : ग्रेडिएंट बूस्टेड डिसीजन ट्री एंड रैंडम फॉरेस्ट।
- गैर-ट्री आधारित मॉडल : रैखिक, केएनएन या तंत्रिका नेटवर्क आधारित।
आइए विचार करें कि पेड़ आधारित मॉडल बनाते समय ओएचई कब लागू करें और लेबल एन्कोडिंग कब लागू करें।
हम ओएचई लागू करते हैं जब:
- जब लेबल एन्कोडिंग में मान एक दूसरे के करीब होते हैं, तो उन मानों को लक्षित करने के लिए अनुरूप होते हैं जो करीब नहीं हैं (गैर रेखीय डेटा)।
- जब श्रेणीगत विशेषता क्रमिक (कुत्ता, बिल्ली, माउस) नहीं है।
जब हम लेबल एन्कोडिंग लागू करते हैं:
- स्पष्ट सुविधा क्रमसूचक है (जूनियर किग्रा, सीनियर किलो, प्राथमिक स्कूल, हाई स्कूल, आदि)।
- जब हम एक लेबल एनकोडर के साथ आ सकते हैं जो समान श्रेणियों के करीब लेबल प्रदान करता है : इससे ट्रेस में कम स्पिल्ट्स होते हैं इसलिए निष्पादन समय कम हो जाता है।
- जब डेटासेट में श्रेणीबद्ध विशेषताओं की संख्या बहुत बड़ी है: एक-हॉट एन्कोडिंग में बड़ी संख्या के मानों के साथ एक श्रेणीबद्ध सुविधा हो सकती है (1) उच्च मेमोरी खपत और (2) मामला जब गैर-श्रेणीबद्ध सुविधाओं का उपयोग शायद ही कभी मॉडल द्वारा किया जाता है। यदि आप विरल मैट्रिस को रोजगार देते हैं तो आप 1 मामले से निपट सकते हैं। यदि आप केवल सुविधाओं के सबसेट का उपयोग करके एक पेड़ का निर्माण करते हैं तो दूसरा मामला हो सकता है। उदाहरण के लिए, यदि आपके पास 100 विशिष्ट मानों के साथ 9 संख्यात्मक सुविधाएँ और 1 श्रेणीगत हैं और आप श्रेणीबद्ध सुविधा वाले एक-हॉट-एन्कोडेड हैं, तो आपको 109 सुविधाएँ मिलेंगी। यदि एक पेड़ केवल सुविधाओं के सबसेट के साथ बनाया गया है, तो प्रारंभिक 9 संख्यात्मक विशेषताएं शायद ही कभी उपयोग की जाएंगी। इस स्थिति में, आप इस सबसेट के आकार को नियंत्रित करने वाले पैरामीटर को बढ़ा सकते हैं। Xgboost में इसे कॉलसम्प्ली_बीट्री कहा जाता है, स्केलेर के रैंडम फ़ॉरेस्ट max_features में।
यदि आप ओएचई के साथ जारी रखना चाहते हैं, तो जैसा कि @ AN6U5 ने सुझाव दिया है, आप पीसीए को ओएचई के साथ जोड़ना चाह सकते हैं।
गैर पेड़ आधारित मॉडल का निर्माण करते समय ओएचई और लेबल एन्कोडिंग को लागू करने पर विचार करें।
लेबल एन्कोडिंग को लागू करने के लिए, लेबल एन्कोडिंग को प्रभावी ढंग से उपयोग करने के लिए सुविधा और लक्ष्य के बीच निर्भरता रैखिक होनी चाहिए।
इसी तरह, यदि निर्भरता गैर-रैखिक है, तो आप उसी के लिए ओएचई का उपयोग करना चाह सकते हैं।
नोट: विवरण में से कुछ को संदर्भित किया गया है कि कैसे कौरसेरा से एक डेटा विज्ञान प्रतियोगिता जीतें ।