पर्यवेक्षित शिक्षण में, सहसंबद्ध सुविधाओं का होना बुरा क्यों है?


35

मैंने कहीं पढ़ा है कि अगर हमारे पास ऐसी विशेषताएं हैं जो बहुत अधिक सहसंबद्ध हैं, तो हमें एक को हटाना होगा, क्योंकि इससे मॉडल खराब हो सकता है। यह स्पष्ट है कि सहसंबंधित सुविधाओं का मतलब है कि वे एक ही जानकारी लाते हैं, इसलिए उनमें से एक को निकालना तर्कसंगत है। लेकिन मैं यह नहीं समझ पा रहा हूं कि यह मॉडल खराब क्यों हो सकता है।


3
यह नियम दूसरों की तुलना में कुछ मॉडल और विश्लेषण में अधिक दृढ़ता से लागू होता है। कोई भी मौका आप "मैं कहीं पढ़ता हूं" के लिए कुछ संदर्भ जोड़ सकते हैं - जैसे कि यह एक विशिष्ट मॉडल को प्रशिक्षित करने के लिए संबंध था?
नील स्लेटर

3
सहसंबंधित सुविधाएँ किसी मॉडल को खराब नहीं करेंगी। सहसंबद्ध सुविधाओं को हटाने से सुविधाओं के बारे में अर्थ निकालने में मदद मिलती है।
हॉब्स

जवाबों:


31

सामान्य रूप से सहसंबद्ध सुविधाएँ मॉडल में सुधार नहीं करती हैं (हालाँकि यह समस्या की बारीकियों पर निर्भर करती है जैसे चर की संख्या और सहसंबंध की डिग्री), लेकिन वे विशिष्ट मॉडल को अलग-अलग तरीकों से और अलग-अलग तरीकों से प्रभावित करते हैं:

  1. लीनियर मॉडल (जैसे, लीनियर रिग्रेशन या लॉजिस्टिक रिग्रेशन) के लिए, मल्टीकोलिनरिटी ऐसे समाधान निकाल सकती है जो बेतहाशा अलग-अलग होते हैं और संभवतः संख्यात्मक रूप से अस्थिर होते हैं

  2. यादृच्छिक जंगल विभिन्न विशेषताओं के बीच बातचीत का पता लगाने में अच्छे हो सकते हैं, लेकिन अत्यधिक सहसंबद्ध विशेषताएं इन इंटरैक्शन को मास्क कर सकती हैं।

आम तौर पर, इसे ओकाम के रेजर के विशेष मामले के रूप में देखा जा सकता है । एक सरल मॉडल बेहतर है, और, कुछ अर्थों में, कम सुविधाओं वाला एक मॉडल सरल है। न्यूनतम विवरण लंबाई की अवधारणा इसे और अधिक सटीक बनाती है।


4
एक तरफ संख्यात्मक स्थिरता, ओएलएस मॉडल द्वारा दी गई भविष्यवाणी को मल्टीकोलिनरिटी से प्रभावित नहीं किया जाना चाहिए, क्योंकि भविष्यवक्ता चर का समग्र प्रभाव मल्टीकोलिनरिटी की उपस्थिति से आहत नहीं होता है। यह व्यक्तिगत भविष्यवक्ता चरों के प्रभाव की व्याख्या है जो कि बहुक्रियाशील होने पर विश्वसनीय नहीं है।
अकवल ० Ak

11

(मान लें कि आप पर्यवेक्षित शिक्षा के बारे में बात कर रहे हैं)

सहसंबंधित विशेषताएं हमेशा आपके मॉडल को खराब नहीं करेंगी, लेकिन वे हमेशा इसे बेहतर नहीं करेंगे।

तीन मुख्य कारण हैं कि आप सहसंबद्ध सुविधाओं को क्यों हटाएंगे:

  • सीखने के एल्गोरिथ्म को तेज करें

आयामीता के अभिशाप के कारण, कम विशेषताएं आमतौर पर गति के संदर्भ में उच्च सुधार का मतलब है।

यदि गति कोई समस्या नहीं है, तो संभवत: इन सुविधाओं को तुरंत दूर न करें (अगला बिंदु देखें)

  • हानिकारक पूर्वाग्रह कम करें

कीवर्ड हानिकारक है। यदि आपके पास सहसंबद्ध विशेषताएं हैं, लेकिन वे लक्ष्य से भी सहसंबद्ध हैं, तो आप उन्हें रखना चाहते हैं। आप एक अच्छा अनुमान लगाने के लिए संकेत के रूप में सुविधाओं को देख सकते हैं, यदि आपके पास दो संकेत हैं जो अनिवार्य रूप से समान हैं, लेकिन वे अच्छे संकेत हैं, तो उन्हें रखना बुद्धिमान हो सकता है।

Naive Bayes जैसे कुछ एल्गोरिदम वास्तव में "सकारात्मक" सहसंबद्ध सुविधाओं से सीधे लाभान्वित होते हैं। और बेतरतीब जंगल जैसे अन्य लोगों को अप्रत्यक्ष रूप से उनसे लाभ हो सकता है।

कल्पना कीजिए कि 3 सुविधाएँ A, B, और C. A और B अत्यधिक लक्षित और एक-दूसरे से संबद्ध हैं, और C बिल्कुल भी नहीं है। यदि आप 3 सुविधाओं में से नमूना लेते हैं, तो आपके पास "अच्छा" सुविधा प्राप्त करने के लिए 2/3 मौका है, जबकि यदि आप उदाहरण के लिए बी को हटाते हैं, तो यह मौका 1/2 हो जाता है।

बेशक, यदि सहसंबद्ध विशेषताएं पहले स्थान पर सुपर जानकारीपूर्ण नहीं हैं, तो एल्गोरिथ्म अधिक पीड़ित नहीं हो सकता है।

तो कहानी का नैतिक, इन सुविधाओं को हटाने की गति के कारण आवश्यक हो सकता है, लेकिन याद रखें कि आप इस प्रक्रिया में अपने एल्गोरिथ्म बदतर बना सकते हैं। इसके अलावा, कुछ एल्गोरिदम जैसे निर्णय पेड़ों में सुविधा चयन अंतर्निहित है।

इससे निपटने का एक अच्छा तरीका सुविधा चयन के लिए एक आवरण विधि का उपयोग करना है। यह केवल अनावश्यक विशेषताओं को हटा देगा, यदि वे प्रदर्शन में सीधे योगदान नहीं करते हैं। यदि वे भोले की तरह उपयोगी होते हैं, तो उन्हें रखा जाएगा। (हालांकि याद रखें कि रैपर तरीके महंगे हैं और इससे ओवरफिटिंग हो सकती है)

  • अपने मॉडल की व्याख्या

यदि आपके मॉडल की व्याख्या करने की आवश्यकता है, तो आपको इसे सरल बनाने के लिए मजबूर किया जा सकता है। ओकाम के रेजर को भी याद रखना सुनिश्चित करें। यदि आपका मॉडल कम सुविधाओं के साथ "इतना" नहीं है, तो आपको संभवतः कम सुविधाओं का उपयोग करना चाहिए।


2

कभी-कभी सहसंबद्ध विशेषताएं - और जानकारी का दोहराव जो प्रदान करता है - एक पूर्वानुमान प्रणाली को नुकसान नहीं पहुंचाता है। निर्णय पेड़ों के एक समूह पर विचार करें, जिनमें से प्रत्येक पंक्तियों का एक नमूना और स्तंभों का एक नमूना मानता है। यदि दो स्तंभ अत्यधिक सहसंबद्ध हैं, तो एक मौका है कि उनमें से एक को किसी विशेष पेड़ के स्तंभ नमूने में नहीं चुना जाएगा, और वह पेड़ शेष स्तंभ पर निर्भर करेगा। सहसंबंधित सुविधाओं का मतलब है कि आप बहुत अधिक भविष्य कहनेवाला गुणवत्ता देने के बिना ओवरफिटिंग (स्तंभ नमूने के माध्यम से) को कम कर सकते हैं।


2

ऐसा करने के लिए न्यूनतम आवश्यक चर पर निर्णय लेना चाहिए। यह, जैसा कि ऊपर बताया गया है, ऊपर विवरण की न्यूनतम लंबाई के साथ ओकाम के रेजर की औपचारिकता है। मुझे वो वाला पसंद आया।

मैं एक HDDT की तरह कुछ में इस घटना को चिह्नित करना चाहते हैं करना कि इसका मतलब है कि सबसे कुशल पेड़, जो उपलब्ध आंकड़ों के आधार पर कोई निर्णय नहीं लेता है, और उन सभी फैसलों से बचना है जो अन्यथा कई डेटा बिंदुओं पर बिना समझे किए गए हैं कि वे सहसंबद्ध थे। ।


Datascience.stackexchange.com/users/38887/valentin-calomme टिप्पणी के बारे में : "सहसंबंधित विशेषताएं हमेशा आपके मॉडल को खराब नहीं करेंगी, लेकिन वे हमेशा इसे बेहतर नहीं बनाएंगे।" मैं नहीं देखता या सोच नहीं सकता कि चर के बीच उच्च सहसंबंध होने से आपका मॉडल खराब नहीं होता है। कम से कम इस अर्थ में कि, विकल्प दिया: मैं कम सहसंबद्ध सुविधाओं के साथ एक नेटवर्क को प्रशिक्षित करता हूँ। इसके अलावा कुछ भी कार्यात्मक रूप से और काफी खराब है। क्या ऐसे उदाहरण हैं जब यह सच नहीं है?
tjborromeo 10

1

डेटाबेस में डेटा संग्रहीत करने के परिप्रेक्ष्य में, सहसंबद्ध सुविधाओं को संग्रहीत करना किसी तरह से अनावश्यक जानकारी को संग्रहीत करने के समान है, जिसके कारण यह भंडारण की बर्बादी का कारण बन सकता है और साथ ही यह ट्यूपल्स को अपडेट या संपादित करने के बाद असंगत डेटा का कारण हो सकता है।

यदि हम मॉडल में बहुत अधिक सहसंबद्ध सुविधाएँ जोड़ते हैं तो हम मॉडल को अनावश्यक सुविधाओं पर विचार कर सकते हैं और हमारे पास उच्च व्यक्तित्व के अभिशाप हो सकते हैं , मुझे लगता है कि यह निर्मित मॉडल को खराब करने का कारण है।

मशीन लर्निंग के संदर्भ में हम आमतौर पर PCAइनपुट पैटर्न के आयाम को कम करने के लिए उपयोग करते हैं। यह दृष्टिकोण किसी न किसी तरह से सहसंबद्ध सुविधाओं को हटाने पर विचार करता है (उपयोग करके SVD) और एक अप्रयुक्त दृष्टिकोण है। यह निम्नलिखित उद्देश्यों को प्राप्त करने के लिए किया जाता है:

हालांकि यह ठीक नहीं लग सकता है, लेकिन मैंने ऐसे लोगों को देखा है जो ओवरफिटिंग से बचने के लिए सहसंबद्ध सुविधाओं को हटाने का उपयोग करते हैं लेकिन मुझे नहीं लगता कि यह एक अच्छा अभ्यास है। अधिक जानकारी के लिए मैं आपको यहां देखने की सलाह देता हूं ।

एक और कारण यह है कि गहन शिक्षण मॉडल में, जैसे MLPsयदि आप सहसंबद्ध विशेषताएं जोड़ते हैं , तो आप अनावश्यक जानकारी जोड़ते हैं जो मॉडल में अधिक गणना और पैरामीटर जोड़ता है।


0

इस प्रश्न का उत्तर मॉडल के उद्देश्य पर बहुत निर्भर करता है। संदर्भ में, अत्यधिक सहसंबद्ध विशेषताएं एक प्रसिद्ध समस्या है। उदाहरण के लिए, दो विशेषताएं एक-दूसरे के साथ और y के साथ अत्यधिक सहसंबद्ध हैं, दोनों एक निष्कर्ष मॉडल के रूप में महत्वहीन हो सकते हैं, संभवतः एक महत्वपूर्ण व्याख्यात्मक संकेत गायब है। इसलिए, अनुमान के अनुसार आमतौर पर उन्हें पतला करने की सिफारिश की जाती है।

यदि आपकी पर्यवेक्षित शिक्षा भविष्यवाणी के लिए है, तो उत्तर - पारंपरिक ज्ञान के प्रति - आमतौर पर विपरीत होता है। अत्यधिक सहसंबद्ध सुविधाओं को हटाने का एकमात्र कारण भंडारण और गति संबंधी चिंताएँ हैं। इसके अलावा, सुविधाओं के बारे में क्या मायने रखता है कि क्या वे भविष्यवाणी में योगदान करते हैं, और क्या उनकी डेटा गुणवत्ता पर्याप्त है।

शोर-वर्चस्व वाली सुविधाएँ अन्य सुविधाओं के साथ कम सहसंबद्ध हो जाएंगी, जो कि y के साथ सहसंबद्ध सुविधाओं की तुलना में हैं। इसलिए, जैसा कि वैलेंटाइन द्वारा उदाहरण में बताया गया है, बाद वाले को पतला करने से पूर्व के अनुपात में वृद्धि होगी।

विशेष रूप से, यादृच्छिक वन और केएनएन जैसी विधियां सभी सुविधाओं को समान रूप से व्यवहार करती हैं, इसलिए सहसंबंधित सुविधाओं को पतला करने से सीधे उनके सिग्नल-टू-शोर अनुपात कम हो जाता है।

एकल पेड़, "शुद्ध" लासो, या तंत्रिका नेटवर्क जैसे ऑटो-सेलेक्ट फीचर्स कम प्रभावित हो सकते हैं। लेकिन फिर भी, लंबे समय तक कंप्यूटिंग समय के अलावा, मिश्रण में सहसंबद्ध सुविधाओं को रखने से भविष्यवाणी-वार खोने के लिए शायद ही कुछ है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.