क्या गैर-रेखीय मॉडल का उपयोग करते समय बहु-संपुष्टि के बारे में चिंतित होना चाहिए?


13

मान लें कि हमारे पास ज्यादातर वर्गीकरण विशेषताओं के साथ एक द्विआधारी वर्गीकरण समस्या है। हम इसे सीखने के लिए कुछ गैर-रैखिक मॉडल (जैसे XGBoost या रैंडम फ़ॉरेस्ट) का उपयोग करते हैं।

  • क्या बहु-संप्रभुता के बारे में अभी भी चिंतित होना चाहिए? क्यों?
  • यदि उपरोक्त उत्तर सही है, तो किसी को यह विचार करके कैसे लड़ना चाहिए कि कोई इन प्रकार के गैर-रैखिक मॉडल का उपयोग कर रहा है?

जवाबों:


7

मल्टी-कोलिनैरिटी कुछ मॉडलों के लिए समस्या नहीं होगी। जैसे कि यादृच्छिक वन या निर्णय वृक्ष। उदाहरण के लिए, यदि हमारे पास दो समान स्तंभ हैं, तो निर्णय वृक्ष / यादृच्छिक वन स्वचालित रूप से प्रत्येक विभाजन पर एक कॉलम को "ड्रॉप" करेंगे। और मॉडल अभी भी अच्छी तरह से काम करेगा।

इसके अलावा, नियमितीकरण मल्टी-कोलीनैरिटी समस्या को "ठीक" करने का एक तरीका है। मेरा जवाब लॉजिस्टिक प्रतिगमन के लिए नियमितीकरण के तरीके विवरण देते हैं।


5
मुझे लगता है कि यदि आप नियमित रूप से समस्या को "ठीक" कर रहे हैं, तो इस बारे में विस्तार से बता दें कि इसमें सुधार होगा।
मैथ्यू डॉरी

2

पार्टी के लिए देर से, लेकिन यहां मेरा जवाब वैसे भी है, और यह "हां" है, किसी को हमेशा मॉडल / विधि के रैखिक या नहीं होने या मुख्य कार्य भविष्यवाणी या वर्गीकरण होने की परवाह किए बिना, कोलिनियरिटी के बारे में चिंतित होना चाहिए।

विधि के रूप में डेटा सेट और रैंडम फ़ॉरेस्ट में मौजूद रैखिक रूप से सहसंबंधित सहसंयोजक / सुविधाओं की एक संख्या मान लें। जाहिर है, प्रति नोड यादृच्छिक चयन केवल (या अधिकतर) कोलीनर विशेषताओं को चुन सकता है, जिसके परिणामस्वरूप / खराब विभाजन हो सकता है, और यह बार-बार हो सकता है, इस प्रकार प्रदर्शन को नकारात्मक रूप से प्रभावित कर सकता है।

अब, कोलिनर फीचर्स अन्य (नॉन-कोलीनियर) फीचर्स की तुलना में परिणाम के बारे में कम जानकारीपूर्ण हो सकते हैं और जैसे कि उन्हें वैसे भी सेट किए गए फीचर से एलिमिनेशन के लिए माना जाना चाहिए। हालाँकि, मान लें कि RF द्वारा निर्मित 'फ़ीचर महत्व' सूची में सुविधाएँ उच्च स्थान पर हैं। जैसे वे डेटा सेट में रखा जाएगा अनावश्यक रूप से आयामीता में वृद्धि। तो, व्यवहार में, मैं हमेशा खोजपूर्ण कदम (कई संबंधितों में से) के रूप में रैखिक सहसंबंध सहित सुविधाओं की जोड़ीबद्ध संघ की जांच करूंगा।


मेरा मानना ​​है कि ऐसे मामले हैं जब बहु-संपूर्नता को सुरक्षित रूप से नजरअंदाज किया जा सकता है, कुछ मामलों की चर्चा यहां की गई है: सांख्यिकीविद्यापीठों
डॉ। निशा अरोरा

0
  1. क्या बहु-संप्रभुता के बारे में अभी भी चिंतित होना चाहिए? क्यों?

यदि गैर-रेखीय मॉडल ट्री-आधारित मॉडल है, तो आपको इसे गंभीर नहीं मानना ​​चाहिए। अलग-अलग ट्री मॉडल में अलग-अलग सौदा विधि होगी, जैसे कि यादृच्छिक जंगल उन दोनों को रखेंगे (क्योंकि वे स्वतंत्र रूप से पेड़ का निर्माण करते हैं, और यादृच्छिक हर पेड़ के लिए सुविधा का चयन करते हैं), लेकिन यह भविष्यवाणी के प्रदर्शन के बारे में कोई प्रभाव नहीं है, यहां तक ​​कि आप भी हटा दें बेमानी। लेकिन xgboost के लिए, यह उनमें से किसी को भी चुनेगा, और अंतिम पेड़ के निर्माण तक इसका उपयोग करेगा।

  1. यदि उपरोक्त उत्तर सही है, तो किसी को यह विचार करके कैसे लड़ना चाहिए कि कोई इन प्रकार के गैर-रैखिक मॉडल का उपयोग कर रहा है?

यह सिर्फ व्याख्या अर्थ के बारे में है, इसलिए अत्यधिक सहसंबंध चर को हटाने का सुझाव दिया गया है।


-3

बहु-संपुष्टि हमेशा एक संभावित समस्या है। वेरिएबल्स जो मॉडल में भविष्यवाणियां हैं, वे भविष्यवाणी को प्रभावित करेंगे जब वे रैखिक रूप से संबंधित होते हैं (यानी, जब कोलीनियरिटी मौजूद है)।


1
धन्यवाद, अगर (1) ध्यान भविष्यवाणी का प्रदर्शन है (और व्याख्या नहीं है) और (2) मॉडल गैर-रैखिक है, तो क्या आप इस बात पर विस्तार से विचार करेंगे कि यह अभी भी एक समस्या क्यों हो सकती है? (और वास्तव में यह कैसे प्रकट होगा?)
जोश

ये चर जो मॉडल में भविष्यवाणियां हैं, भविष्यवाणी को प्रभावित करेंगे जब वे रैखिक रूप से संबंधित होते हैं (यानी कोलीनैरिटी मौजूद है)।
माइकल आर। चेर्निक

1
भविष्यवाणी को प्रभावित कैसे, बिल्कुल? बीटीडब्लू, सांख्यिकी.स्टैकएक्सचेंज . com / a / 138082 / 99274 , अपने उत्तर में कुछ लिंक डालें या "वहाँ, उस भीड़" के क्रोध का सामना करें।
कार्ल

7
चूंकि वर्गीकरण भविष्यवाणी से बहुत निकट से संबंधित है, और भविष्यवाणी बहुसंस्कृति से ग्रस्त नहीं होती है, इसलिए अपने विवाद का समर्थन करना महत्वपूर्ण है कि यह हमेशा "संभावित समस्या" है, विशेष रूप से प्रश्न में वर्णित विशेष मॉडल के लिए। वर्गीकरण के लिए किस तरह की समस्या होगी और क्यों?
whuber

12
मुझे पूरा यकीन है कि आप सवाल भीख माँग रहे हैं। Whuber ने पूछा कि भविष्यवाणी बहुसंस्कृति से क्यों ग्रस्त है, और आपने मूल रूप से जवाब दिया "भविष्यवाणी बहुसंस्कृति से ग्रस्त है क्योंकि भविष्यवाणी बहुसंस्कृति से ग्रस्त है।"
मैथ्यू ड्र्यू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.