आधुनिक सांख्यिकी / मशीन लर्निंग में मल्टीकोलिनरिटी की जाँच क्यों नहीं की जाती है


44

पारंपरिक आंकड़ों में, एक मॉडल का निर्माण करते समय, हम विचरण मुद्रास्फीति कारक (VIF) जैसे अनुमानों का उपयोग करते हुए मल्टीकोलिनरिटी की जांच करते हैं, लेकिन मशीन लर्निंग में, हम इसके बजाय सुविधा चयन के लिए नियमितीकरण का उपयोग करते हैं और यह जांचने के लिए प्रतीत नहीं होते हैं कि क्या सुविधाएँ सहसंबद्ध हैं बिल्कुल भी। हम ये क्यों करते हैं?

जवाबों:


51

मल्टीकोलिनियरिय को ध्यान में रखते हुए, प्रतिगमन विश्लेषण में महत्वपूर्ण है क्योंकि, एक्स्ट्रेमा में , यह सीधे इस बात पर निर्भर करता है कि आपके गुणांक डेटा में विशिष्ट रूप से पहचाने गए हैं या नहीं। कम गंभीर मामलों में, यह अभी भी आपके गुणांक अनुमानों के साथ खिलवाड़ कर सकता है; अनुमान के लिए उपयोग किए जाने वाले डेटा में छोटे परिवर्तन अनुमानित गुणांकों में जंगली झूलों का कारण हो सकते हैं। ये एक हीन दृष्टिकोण से समस्याग्रस्त हो सकते हैं: यदि दो चर अत्यधिक सहसंबद्ध हैं, तो एक में वृद्धि दूसरे में घट सकती है, इसलिए संयुक्त प्रभाव एक दूसरे को नकारना है। दो से अधिक चर के साथ, प्रभाव और भी अधिक सूक्ष्म हो सकता है, लेकिन यदि भविष्यवाणियां स्थिर हैं, तो यह अक्सर मशीन सीखने के अनुप्रयोगों के लिए पर्याप्त है।

विचार करें कि हम प्रतिगमन संदर्भ में नियमित क्यों करते हैं: हमें मॉडल को बहुत अधिक लचीला होने से रोकने की आवश्यकता है । नियमितीकरण की सही मात्रा को लागू करने से विचरण में बड़ी कमी के लिए पूर्वाग्रह थोड़ा बढ़ जाएगा। इसका उत्कृष्ट उदाहरण एक प्रतिगमन में बहुपद शब्द और अंतःक्रियात्मक प्रभाव जोड़ रहा है: पतित मामले में, भविष्यवाणी समीकरण डेटा बिंदुओं को प्रक्षेपित करेगा, लेकिन शायद अनदेखी डेटा बिंदुओं के मूल्यों की भविष्यवाणी करने का प्रयास करते समय भयानक हो। उन गुणांकों को सिकोड़ने से उन गुणांकों में से कुछ को कम करने या पूरी तरह से समाप्त करने की संभावना होगी और सामान्यीकरण में सुधार होगा।

एक यादृच्छिक जंगल, हालांकि, प्रत्येक विभाजन पर नमूना किए गए चर की संख्या के माध्यम से एक नियमितीकरण पैरामीटर देखा जा सकता है: आप बेहतर विभाजन को बड़ा करते हैं mtry(चुनने के लिए अधिक सुविधाएँ; उनमें से कुछ दूसरों की तुलना में बेहतर हैं), लेकिन वह भी प्रत्येक पेड़ एक दूसरे के पेड़ के साथ अधिक सहसंबद्ध बनाता है, पहली जगह में कई पेड़ों के आकलन के विविध प्रभाव को कम करता है। यह दुविधा एक सही संतुलन खोजने के लिए मजबूर करती है, आमतौर पर क्रॉस-वैलिडेशन का उपयोग करके हासिल की जाती है। महत्वपूर्ण रूप से, और एक प्रतिगमन विश्लेषण के विपरीत, यादृच्छिक वन मॉडल के किसी भी हिस्से को अत्यधिक मिलीभगत चर द्वारा नुकसान नहीं पहुंचाया जाता है: भले ही चर में से दो समान बाल नोड शुद्धता प्रदान करते हैं, आप परिणाम की गुणवत्ता को कम किए बिना सिर्फ एक चुन सकते हैं।

इसी तरह, एसवीएम जैसी किसी चीज के लिए, आप सुविधाओं की तुलना में अधिक भविष्यवाणियों को शामिल कर सकते हैं क्योंकि कर्नेल चाल आपको उन फीचर वैक्टर के आंतरिक उत्पाद पर पूरी तरह से काम करने देती है। टिप्पणियों की तुलना में अधिक विशेषताओं के होने से रिग्रेसन में समस्या होगी, लेकिन कर्नेल ट्रिक का अर्थ है कि हम केवल प्रत्येक उदाहरण के लिए गुणांक का अनुमान लगाते हैं, जबकि नियमितीकरण पैरामीटर समाधान के लचीलेपन को कम करता है - जो कि निश्चित रूप से एक अच्छी बात है, क्योंकि पैरामीटर के लिएCNNएक अप्रतिबंधित तरीके से अवलोकन हमेशा परीक्षण डेटा पर एक आदर्श मॉडल का उत्पादन करेगा - और हम पूर्ण सर्कल में आते हैं, रिज / LASSO / लोचदार नेट प्रतिगमन परिदृश्य पर वापस आते हैं, जहां हमारे पास एक ओवरऑल आशावादी मॉडल के खिलाफ जांच के रूप में मॉडल लचीलापन है। एसवीएम समस्या की केकेटी स्थितियों की समीक्षा से पता चलता है कि एसवीएम समाधान अद्वितीय है, इसलिए हमें पहचान की समस्याओं के बारे में चिंता करने की ज़रूरत नहीं है जो प्रतिगमन मामले में उत्पन्न हुई हैं।

अंत में, मल्टीकोलिनरिटी के वास्तविक प्रभाव पर विचार करें । यह मॉडल की भविष्य कहनेवाला शक्ति को नहीं बदलता है (कम से कम, प्रशिक्षण डेटा पर) लेकिन यह हमारे गुणांक अनुमानों के साथ पेंच करता है। अधिकांश एमएल अनुप्रयोगों में, हम खुद को गुणांक के बारे में परवाह नहीं करते हैं, हमारे मॉडल की भविष्यवाणियों का नुकसान, इसलिए उस अर्थ में, VIF की जाँच वास्तव में एक परिणामी प्रश्न का उत्तर नहीं देती है। (लेकिन अगर डेटा में थोड़ा सा भी बदलाव गुणांक [मल्टीकोलिनरिटी का एक क्लासिक लक्षण] में भारी उतार-चढ़ाव का कारण बनता है, तो यह भविष्यवाणियों को भी बदल सकता है, जिस स्थिति में हम देखभाल करते हैं - लेकिन यह सब [हमें उम्मीद है!] की विशेषता है जब हम क्रॉस-वेलिडेशन निष्पादित करें, जो वैसे भी मॉडलिंग प्रक्रिया का एक हिस्सा है।) एक प्रतिगमन अधिक आसानी से व्याख्या की जाती है, लेकिन व्याख्या कुछ कार्यों के लिए सबसे महत्वपूर्ण लक्ष्य नहीं हो सकती है।


1
कारण प्रतिगमन मॉडलिंग के लिए, प्रवृत्ति स्कोरिंग या प्रतिगमन समायोजन जैसी तकनीकों का उपयोग करते हुए, पूर्वानुमान के लिए भी कोलीनियरिटी एक समस्या हो सकती है, क्योंकि आमतौर पर लक्ष्य एक मॉडल को या तो विशेष रूप से नियंत्रण / अप्रकाशित समूह पर फिट करना होता है और फिर प्रायोगिक पर उस मॉडल के परिणामों का अनुमान लगाना होता है। समूह, या फिर दो समूहों को मिलाते हैं, लेकिन प्रभाव मापने के लिए एक संकेतक चर का उपयोग करते हैं, अन्य कारकों के लिए नियंत्रित करते हैं, प्रयोगात्मक समूह में हैं।
ely

1
यदि कोलिनियरिटी गुणांक में त्रुटियां पैदा करती है, तो प्रयोगात्मक समूह के लिए विस्तारित प्रतिगमन काम नहीं करेगा। इसी तरह, उपचार प्राप्त होने के सूचक चर के गुणांक का अनुमान लगाया जा सकता है, यदि दोनों उप-नमूनों में एक एकल प्रतिगमन कर रहा हो। आधुनिक मशीन लर्निंग तकनीक का उपयोग आमतौर पर इस प्रकार की करणीय समस्याओं का विश्लेषण करने के लिए नहीं किया जाता है, और इसलिए किसी को इसके लिए टूलिंग की आवश्यकता का सामना नहीं करना पड़ता है।
ely

@ इस प्रकार, आपके पहले उदाहरण में, कॉलिनैरिटी (कोवरिएट्स के बीच, उपचार नहीं) समस्या का कारण नहीं है, क्योंकि फिर से लक्ष्य प्रतिपक्षीय परिणामों की भविष्यवाणी है, और कॉलिनियरिटी भविष्यवाणी के लिए कोई समस्या नहीं है। इसके अलावा, आधुनिक एमएल विधियां अक्सर कार्य-कारण निष्कर्ष में उपयोग की जाती हैं; सामान्यीकृत बढ़ावा मॉडलिंग और यादृच्छिक जंगलों को व्यापक रूप से प्रवृत्ति स्कोर का अनुमान लगाने के लिए उपयोग किया जाता है, और TMLE काउंटरफैक्टुअल परिणामों को लागू करने के लिए एमएल तरीकों का उपयोग करता है। मैं तर्क करने के तरीकों की एक ताकत का तर्क दूंगा कि आमतौर पर कॉलिनियरिटी उनके लिए कोई समस्या नहीं है।
नूह

@ नोहा आमतौर पर यह एक्सपोज़र गुणांक की व्याख्या है जो मायने रखती है (और अन्य प्रभाव अनुमानों की व्याख्या भी), और केवल कच्ची भविष्यवाणी सटीकता नहीं है। मुझे पता है कि मेरी टिप्पणी से यह स्पष्ट नहीं हुआ, लेकिन इसीलिए यह एक मुद्दा है। यदि समग्र भविष्यवाणी अच्छी है, लेकिन वास्तव में एक्सपोज़र के लिए गुणांक से संबंधित होने के कारण प्रेरित नहीं है, तो यह आमतौर पर कारण के अनुमान के लिए एक अवांछनीय मॉडल है।
Ely

21

इसका कारण यह है कि "पारंपरिक आंकड़ों" के लक्ष्य कई मशीन लर्निंग तकनीकों से अलग हैं।

"पारंपरिक आंकड़ों" द्वारा, मेरा मानना ​​है कि आप प्रतिगमन और इसके प्रकारों का मतलब है। प्रतिगमन में, हम स्वतंत्र चर पर निर्भर चर पर पड़ने वाले प्रभाव को समझने की कोशिश कर रहे हैं। यदि मजबूत बहुसंस्कृति है, तो यह संभव नहीं है। कोई भी एल्गोरिथ्म इसे ठीक करने वाला नहीं है। यदि स्टूडियो उपस्थिति और ग्रेड के साथ अध्ययनशीलता का संबंध है, तो हम यह नहीं जान सकते हैं कि ग्रेड वास्तव में क्या कारण है - उपस्थिति या अध्ययन।

हालांकि, मशीन लर्निंग तकनीकों में जो भविष्यवाणिय सटीकता पर ध्यान केंद्रित करते हैं, हम सभी इस बात की परवाह करते हैं कि हम दूसरे सेट की भविष्यवाणी करने के लिए चर के एक सेट का उपयोग कैसे कर सकते हैं। इन चरों के एक दूसरे पर पड़ने वाले प्रभाव की हमें परवाह नहीं है।

मूल रूप से, मशीन लर्निंग तकनीकों में हम मल्टीकोलिनरिटी की जांच नहीं करते हैं, यह एल्गोरिथ्म का परिणाम नहीं है, यह लक्ष्य का परिणाम है। आप इसे देख सकते हैं कि चर के बीच मजबूत संपूर्नता प्रतिगमन विधियों की भविष्यवाणी सटीकता को चोट नहीं पहुंचाती है।


11

यहाँ एक अंतर्निहित धारणा प्रतीत होती है कि कोलीनियरिटी की जाँच करना एक उचित या सर्वोत्तम अभ्यास नहीं है। यह त्रुटिपूर्ण लगता है। उदाहरण के लिए, कई भविष्यवाणियों के साथ एक डेटासेट में पूर्ण संपुष्टता की जाँच करने से पता चलेगा कि क्या वास्तव में दो चर एक ही हैं जैसे जन्म तिथि और आयु (उदाहरण डोरेमॉन एट अल। (2013), पारिस्थितिकी , 36 , 1, पृष्ठ 27,46 )। )। मैंने कभी-कभी कागले प्रतियोगिताओं में पूरी तरह से सहसंबंधित भविष्यवक्ताओं का मुद्दा भी देखा है, जहां मंच पर प्रतियोगियों ने संभावित भविष्यवक्ताओं को समाप्त करने का प्रयास किया है, जो गुमनाम हो गए हैं (यानी भविष्यवक्ता लेबल छिपा हुआ है, कागले और कागले जैसी प्रतियोगिताओं में एक आम समस्या है)।

भविष्यवाणियों का चयन करने की मशीन सीखने में अभी भी एक गतिविधि है - अत्यधिक सहसंबद्ध भविष्यवक्ताओं की पहचान करना कार्यकर्ता को भविष्यवाणियों को खोजने की अनुमति दे सकता है जो एक अन्य अंतर्निहित (छिपे हुए) चर के लिए प्रॉक्सी हैं और अंततः एक चर पाते हैं जो अक्षांश चर का प्रतिनिधित्व करने का सबसे अच्छा काम करता है या वैकल्पिक रूप से वैरिएबल का सुझाव दें जो संयुक्त हो सकता है (जैसे पीसीए के माध्यम से)।

इसलिए, मैं सुझाव दूंगा कि हालांकि मशीन सीखने के तरीके आमतौर पर (या कम से कम अक्सर) सहसंबद्ध भविष्यवक्ताओं के चेहरे को मजबूत करने के लिए डिज़ाइन किए गए हैं, यह समझने के लिए कि किस हद तक भविष्यवक्ता सहसंबद्ध हैं, एक मजबूत और सटीक मॉडल बनाने में अक्सर एक उपयोगी कदम है। , और एक अनुकूलित मॉडल प्राप्त करने के लिए एक उपयोगी सहायता है।


9

मल्टीकोलिनरिटी के साथ मुख्य मुद्दा यह है कि यह स्वतंत्र चर के गुणांक (बेटास) को गड़बड़ कर देता है। इसलिए यह एक गंभीर मुद्दा है जब आप चर के बीच संबंधों का अध्ययन कर रहे हैं, कार्य-कारण स्थापित कर रहे हैं आदि।

हालाँकि, यदि आप इस घटना को समझने में कोई दिलचस्पी नहीं रखते हैं, लेकिन पूरी तरह से भविष्यवाणी और पूर्वानुमान पर ध्यान केंद्रित कर रहे हैं, तो बहुरूपता एक मुद्दे से कम नहीं है। या कम से कम यही है कि लोग इसके बारे में क्या सोचते हैं।

मैं यहां सही बहुसंस्कृति के बारे में बात नहीं कर रहा हूं , जो एक तकनीकी समस्या या पहचान का मुद्दा है। तकनीकी रूप से, इसका सीधा मतलब है कि डिज़ाइन मैट्रिक्स विलक्षणता की ओर जाता है, और समाधान परिभाषित नहीं है।


4
यहां तक ​​कि सही संपुष्टता के साथ, पूर्वानुमान अच्छी तरह से परिभाषित हैं।
whuber

यदि आप ओएलएस का उपयोग करते हैं, तो @ विधायक, त्रुटि के फेंकने की संभावना है, क्योंकि यह मैट्रिक्स को हटाने में सक्षम नहीं होगा। हो सकता है कि स्मार्ट स्वतंत्र संस्करण में से एक को छोड़ दें, और हालांकि आगे बढ़ें।
अक्कल

2
यदि आप सामान्यीकृत व्युत्क्रम का उपयोग करते हैं तो यह विलक्षणता कोई समस्या नहीं है।
विश्लेषक

1
मैं आपके तर्क का पालन नहीं करता, अक्षल: क्या आप यह सुझाव देने की कोशिश कर रहे हैं कि मशीन सीखने की तकनीक सांख्यिकीय तकनीकों से अलग है कि पूर्व में किसी भी तरह से कम-रैंक मेट्रिक्स के साथ समस्याएं नहीं हैं? यह एक दिलचस्प विचार है।
whuber

1
@user, स्वतंत्र चर लगभग हमेशा सहसंबद्ध हैं, और यह आमतौर पर ठीक है। केवल सही बहुस्तरीयता ही रैंक की कमी का कारण बनती है। Multicollinearity बहुत मजबूत सहसंबंधों को संदर्भित करता है, और आम तौर पर कोई वांछनीय नहीं है, लेकिन जैसा कि मैंने पहले लिखा था कि यह एक सौम्य मुद्दा है कई मामले।
अक्कल

7

उन मशीन लर्निंग में नियमितीकरण प्रतिगमन गुणांक को स्थिर करता है, इसलिए कम से कम मल्टीकोलिनरिटी के प्रभाव को समाप्त कर दिया जाता है। लेकिन इससे भी महत्वपूर्ण बात यह है कि यदि आप भविष्यवाणी के लिए जा रहे हैं (जो मशीन सीखने वाले अक्सर होते हैं), तो बहुसंख्या "समस्या" पहली समस्या में से एक बड़ी समस्या नहीं थी। यह एक समस्या है जब आपको किसी विशेष गुणांक का अनुमान लगाने की आवश्यकता होती है और आपके पास जानकारी नहीं होती है।

इसके अलावा, " जब LASSO सहसंबद्ध भविष्यवक्ताओं का चयन करता है " तो मेरा जवाब आपके लिए उपयोगी हो सकता है।


1

मुझे लगता है कि मशीन लर्निंग में मल्टीकोलीनिटी की जांच होनी चाहिए। यहाँ क्यों है: मान लीजिए कि हमारे डेटासेट में आपके पास दो अत्यधिक सहसंबद्ध सुविधाएँ X और Y हैं। इसका मतलब है कि प्रतिक्रिया विमान विश्वसनीय नहीं है (डेटा में एक छोटे से परिवर्तन से प्रतिक्रिया विमान के अभिविन्यास पर काफी प्रभाव पड़ सकता है)। जिसका तात्पर्य है कि डेटा बिंदुओं के लिए मॉडल की भविष्यवाणियाँ बहुत दूर हैंलाइन से, जहां X और Y गिरते हैं, विश्वसनीय नहीं हैं। यदि आप अपने मॉडल का उपयोग ऐसे बिंदुओं के लिए भविष्यवाणियों के लिए करते हैं तो भविष्यवाणियां बहुत खराब होंगी। इसे दूसरे शब्दों में कहें, जब आपके पास दो उच्च सहसंबंधित विशेषताएं हैं, तो एक मॉडल के रूप में, आप एक विमान सीख रहे हैं जहां वास्तव में डेटा ज्यादातर एक पंक्ति में आता है। इसलिए, अविश्वसनीय मॉडल और गलत भविष्यवाणियों को रोकने के लिए अपने डेटा से अत्यधिक सहसंबद्ध सुविधाओं को हटाना महत्वपूर्ण है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.