जब सहसंबद्ध चर निकालने के लिए


11

क्या कोई यह सुझाव दे सकता है कि फीचर इंजीनियरिंग से पहले या फीचर इंजीनियरिंग के बाद सहसंबद्ध चर को हटाने के लिए सही चरण क्या है?

जवाबों:


8

आप सभी सहसंबद्ध चर नहीं निकालना चाहते हैं। यह तभी है जब सहसंबंध इतना मजबूत है कि वे अतिरिक्त जानकारी नहीं देते हैं। यह दोनों सहसंबंध की शक्ति का एक कार्य है, आपके पास कितना डेटा है और क्या सहसंबद्ध चर के बीच कोई छोटा अंतर आपको परिणाम के बारे में कुछ बताता है, आखिरकार।

पहले दो आप किसी भी मॉडल को करने से पहले बता सकते हैं, अंतिम एक नहीं। इसलिए, पहले दो विचारों के संयोजन के आधार पर चर निकालना बहुत ही उचित हो सकता है (यानी भले ही अतिरिक्त चर सिद्धांत में कुछ उपयोगी जानकारी हो, तो आप सहसंबंध की ताकत और कितना डेटा नहीं बता पाएंगे। आपके पास) इससे पहले कि आप कोई मॉडलिंग / फीचर इंजीनियरिंग करें। अंतिम बिंदु वास्तव में केवल कुछ मॉडलिंग करने के बाद मूल्यांकन किया जा सकता है।


2

अजीब है कि किसी और ने व्याख्या का उल्लेख नहीं किया ।

यदि आप सभी प्रदर्शन से चिंतित हैं , तो यह दो सहसंबद्ध चर को हटाने के लिए कोई मतलब नहीं है, जब तक कि सहसंबंध = 1 या -1 नहीं है, इस मामले में चर में से एक अतिरेक है।

लेकिन अगर व्याख्या के बारे में चिंतित हैं, तो यह एक चर निकालने के लिए समझ में आता है, भले ही सहसंबंध हल्का हो। यह रैखिक मॉडल के लिए विशेष रूप से सच है। रैखिक प्रतिगमन की मान्यताओं में से एक है, भविष्यवाणियों में सही बहुसंस्कृति का अभाव।

यदि A का B के साथ सहसंबंध है, तो आप न तो A और न ही B के गुणांक की व्याख्या नहीं कर सकते। यह देखने के लिए कि, A = B (पूर्ण सहसंबंध) के चरम मामले की कल्पना क्यों करें। फिर, मॉडल y = 100 * A + 50 * B मॉडल y = 5 * A + 10 * B या y = -2000 * A + 4000 * B के समान है। कम से कम वर्ग न्यूनतम समस्या के संभावित समाधान में कई संतुलन हैं इसलिए आप न तो "विश्वास" कर सकते हैं।

इसी तरह की चीजें अन्य मॉडलों के साथ हो सकती हैं। उदाहरण के लिए, यदि A, B के साथ बहुत सहसंबद्ध है, तो यदि निर्णय ट्री A को B के रूप में दोगुना चुनता है, तो आप यह नहीं कह सकते कि A, B से अधिक महत्वपूर्ण है। यदि आप मॉडल को फिर से देखते हैं, तो विपरीत हो सकता है।


2

आपको वीआईएफ (वेरिएंस इन्फ्लेशन फैक्टर) की जांच करने पर विचार करना चाहिए । उच्च VIF के साथ सुविधाओं को हटाने का प्रयास करें। आमतौर पर, यह पसंद किया जाता है कि वीआईएफ 10 से नीचे है।




हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.