(मान लें कि आप पर्यवेक्षित शिक्षा के बारे में बात कर रहे हैं)
सहसंबंधित विशेषताएं हमेशा आपके मॉडल को खराब नहीं करेंगी, लेकिन वे हमेशा इसे बेहतर नहीं करेंगे।
तीन मुख्य कारण हैं कि आप सहसंबद्ध सुविधाओं को क्यों हटाएंगे:
- सीखने के एल्गोरिथ्म को तेज करें
आयामीता के अभिशाप के कारण, कम विशेषताएं आमतौर पर गति के संदर्भ में उच्च सुधार का मतलब है।
यदि गति कोई समस्या नहीं है, तो संभवत: इन सुविधाओं को तुरंत दूर न करें (अगला बिंदु देखें)
- हानिकारक पूर्वाग्रह कम करें
कीवर्ड हानिकारक है। यदि आपके पास सहसंबद्ध विशेषताएं हैं, लेकिन वे लक्ष्य से भी सहसंबद्ध हैं, तो आप उन्हें रखना चाहते हैं। आप एक अच्छा अनुमान लगाने के लिए संकेत के रूप में सुविधाओं को देख सकते हैं, यदि आपके पास दो संकेत हैं जो अनिवार्य रूप से समान हैं, लेकिन वे अच्छे संकेत हैं, तो उन्हें रखना बुद्धिमान हो सकता है।
Naive Bayes जैसे कुछ एल्गोरिदम वास्तव में "सकारात्मक" सहसंबद्ध सुविधाओं से सीधे लाभान्वित होते हैं। और बेतरतीब जंगल जैसे अन्य लोगों को अप्रत्यक्ष रूप से उनसे लाभ हो सकता है।
कल्पना कीजिए कि 3 सुविधाएँ A, B, और C. A और B अत्यधिक लक्षित और एक-दूसरे से संबद्ध हैं, और C बिल्कुल भी नहीं है। यदि आप 3 सुविधाओं में से नमूना लेते हैं, तो आपके पास "अच्छा" सुविधा प्राप्त करने के लिए 2/3 मौका है, जबकि यदि आप उदाहरण के लिए बी को हटाते हैं, तो यह मौका 1/2 हो जाता है।
बेशक, यदि सहसंबद्ध विशेषताएं पहले स्थान पर सुपर जानकारीपूर्ण नहीं हैं, तो एल्गोरिथ्म अधिक पीड़ित नहीं हो सकता है।
तो कहानी का नैतिक, इन सुविधाओं को हटाने की गति के कारण आवश्यक हो सकता है, लेकिन याद रखें कि आप इस प्रक्रिया में अपने एल्गोरिथ्म बदतर बना सकते हैं। इसके अलावा, कुछ एल्गोरिदम जैसे निर्णय पेड़ों में सुविधा चयन अंतर्निहित है।
इससे निपटने का एक अच्छा तरीका सुविधा चयन के लिए एक आवरण विधि का उपयोग करना है। यह केवल अनावश्यक विशेषताओं को हटा देगा, यदि वे प्रदर्शन में सीधे योगदान नहीं करते हैं। यदि वे भोले की तरह उपयोगी होते हैं, तो उन्हें रखा जाएगा। (हालांकि याद रखें कि रैपर तरीके महंगे हैं और इससे ओवरफिटिंग हो सकती है)
यदि आपके मॉडल की व्याख्या करने की आवश्यकता है, तो आपको इसे सरल बनाने के लिए मजबूर किया जा सकता है। ओकाम के रेजर को भी याद रखना सुनिश्चित करें। यदि आपका मॉडल कम सुविधाओं के साथ "इतना" नहीं है, तो आपको संभवतः कम सुविधाओं का उपयोग करना चाहिए।