प्रतिगमन के लिए उच्च-कार्डिनैलिटी श्रेणीबद्ध विशेषताओं के साथ फ़ीचर महत्व (संख्यात्मक डिपेंडेंट चर)


12

मैं एक रिग्रेशन समस्या के लिए कुछ अनुभवजन्य सुविधा चयन करने के लिए रैंडम फ़ॉरेस्ट से फीचर इंपोर्टेंस का उपयोग करने की कोशिश कर रहा था, जहां सभी सुविधाएँ श्रेणीबद्ध हैं और उनमें से कई के कई स्तर हैं (100-1000 के आदेश पर)। यह देखते हुए कि एक-गर्म एन्कोडिंग प्रत्येक स्तर के लिए एक डमी वैरिएबल बनाता है, फीचर इंपोर्टेंस प्रत्येक स्तर के लिए है और प्रत्येक सुविधा (स्तंभ) नहीं है। इन फीचर इंपोर्टेंस को एग्रीगेट करने का एक अच्छा तरीका क्या है?

मैंने किसी फीचर के सभी स्तरों के लिए औसत महत्व प्राप्त करने या प्राप्त करने के बारे में सोचा (शायद पूर्व उन स्तरों के साथ उन विशेषताओं के प्रति पक्षपाती होगा)। क्या इस मुद्दे पर कोई संदर्भ हैं?

सुविधाओं की संख्या को कम करने के लिए कोई और क्या कर सकता है? मुझे समूह लसो के बारे में पता है, वह कुछ भी आसान नहीं सीख सका।


क्या कोई इस प्रश्न का उत्तर दे सकता है कि क्या श्रेणीगत चर के प्रत्येक स्तर के चर महत्व को समझ में आता है?
24

@ See24 नहीं, आप उन्हें केवल योग नहीं कर सकते हैं: आंकड़े.stackexchange.com/questions/314567/…
Dan

जवाबों:


5

यह इस बात पर निर्भर करता है कि आप उन्हें एक-हॉट एन्कोडिंग कैसे करते हैं। उस के लिए कई स्वचालित समाधान एक पैटर्न के साथ सभी परिवर्तित बूलियनों का नाम देंगे, ताकि AZ के मानों के साथ "पत्र" नामक एक श्रेणीगत चर समाप्त हो जाए:

letter_A, letter_B, letter_C, letter_D,…।

यदि आपके द्वारा फीचर महत्व के बारे में जानने के बाद आपको फीचर और संबंधित वजन / महत्व मिल गया है, तो मैं एरे का विश्लेषण करूंगा और शायद "लेटर%" से शुरू होने वाली किसी भी चीज के लिए फीचर महत्व वेट का योग कर सकता हूं।


3
अधिक स्तर के साथ उन सुविधाओं के लिए एक लाभ देने के योग नहीं है?
14:90 पर user90772

हम्म, अच्छी बात है। हो सकता है कि यह योग हो तो "औसत" महत्व पाने के लिए स्तरों / एक-हॉट एन्कोडेड चर की संख्या से विभाजित करें।
CalZ

2
मैंने इसके बारे में कुछ और सोचा और यह इस बात पर निर्भर करता है कि कैसे महत्व दिया जाता है। कुछ मामलों में, प्रत्येक सुविधा का मान एक सापेक्ष भार होता है, जहां पूरा सेट कुल 1. हो जाता है। उस स्थिति में, मुझे लगता है कि यह एक-गर्म सुविधाओं को योग करने के लिए समझ में आता है। यदि सुविधा के लिए स्कोर एक प्रतिगमन गुणांक की तरह अधिक था और शुद्ध प्रभाव के सापेक्ष भारित नहीं किया गया था, तो औसत संभवतः बेहतर होगा।
CalZ

जवाब देने के लिए धन्यवाद। यह देखते हुए कि मैं इस क्षेत्र में काफी नया हूं, मैंने सोचा कि यह डेटा विज्ञान में लोगों के लिए एक मानक बात थी लेकिन या तो यह नहीं है कि मुझे किसी स्तंभ के फीचर महत्व का आकलन करने के लिए क्या करना चाहिए या इस पोस्ट को पर्याप्त विचार नहीं मिले। किसी भी मामले में, धन्यवाद!
user90772

1
कई लोग मॉडल के इंटर्नल्स को ब्लैक बॉक्स के रूप में देखते हैं और इसके बजाय प्रदर्शन का मूल्यांकन करते हैं। कुछ मामलों में (जैसे तंत्रिका नेटवर्क) यह इसलिए है क्योंकि आप वास्तव में इसकी गहराई से जांच नहीं कर सकते हैं। कुछ के लिए जहां आप आसानी से देख सकते हैं कि कौन सी सुविधाएँ महत्वपूर्ण हैं (उदाहरण रेखीय प्रतिगमन), आप आसानी से भ्रमित हो सकते हैं (देखें: आँकड़ें ।stackexchange.com / questions / 105114/… )। मुझे लगता है कि इसीलिए लोग कभी-कभी व्यक्तिगत विशेषता के महत्व को देखने से कतराते हैं।
CalZ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.