मल्टीकोलिनियरिय को ध्यान में रखते हुए, प्रतिगमन विश्लेषण में महत्वपूर्ण है क्योंकि, एक्स्ट्रेमा में , यह सीधे इस बात पर निर्भर करता है कि आपके गुणांक डेटा में विशिष्ट रूप से पहचाने गए हैं या नहीं। कम गंभीर मामलों में, यह अभी भी आपके गुणांक अनुमानों के साथ खिलवाड़ कर सकता है; अनुमान के लिए उपयोग किए जाने वाले डेटा में छोटे परिवर्तन अनुमानित गुणांकों में जंगली झूलों का कारण हो सकते हैं। ये एक हीन दृष्टिकोण से समस्याग्रस्त हो सकते हैं: यदि दो चर अत्यधिक सहसंबद्ध हैं, तो एक में वृद्धि दूसरे में घट सकती है, इसलिए संयुक्त प्रभाव एक दूसरे को नकारना है। दो से अधिक चर के साथ, प्रभाव और भी अधिक सूक्ष्म हो सकता है, लेकिन यदि भविष्यवाणियां स्थिर हैं, तो यह अक्सर मशीन सीखने के अनुप्रयोगों के लिए पर्याप्त है।
विचार करें कि हम प्रतिगमन संदर्भ में नियमित क्यों करते हैं: हमें मॉडल को बहुत अधिक लचीला होने से रोकने की आवश्यकता है । नियमितीकरण की सही मात्रा को लागू करने से विचरण में बड़ी कमी के लिए पूर्वाग्रह थोड़ा बढ़ जाएगा। इसका उत्कृष्ट उदाहरण एक प्रतिगमन में बहुपद शब्द और अंतःक्रियात्मक प्रभाव जोड़ रहा है: पतित मामले में, भविष्यवाणी समीकरण डेटा बिंदुओं को प्रक्षेपित करेगा, लेकिन शायद अनदेखी डेटा बिंदुओं के मूल्यों की भविष्यवाणी करने का प्रयास करते समय भयानक हो। उन गुणांकों को सिकोड़ने से उन गुणांकों में से कुछ को कम करने या पूरी तरह से समाप्त करने की संभावना होगी और सामान्यीकरण में सुधार होगा।
एक यादृच्छिक जंगल, हालांकि, प्रत्येक विभाजन पर नमूना किए गए चर की संख्या के माध्यम से एक नियमितीकरण पैरामीटर देखा जा सकता है: आप बेहतर विभाजन को बड़ा करते हैं mtry
(चुनने के लिए अधिक सुविधाएँ; उनमें से कुछ दूसरों की तुलना में बेहतर हैं), लेकिन वह भी प्रत्येक पेड़ एक दूसरे के पेड़ के साथ अधिक सहसंबद्ध बनाता है, पहली जगह में कई पेड़ों के आकलन के विविध प्रभाव को कम करता है। यह दुविधा एक सही संतुलन खोजने के लिए मजबूर करती है, आमतौर पर क्रॉस-वैलिडेशन का उपयोग करके हासिल की जाती है। महत्वपूर्ण रूप से, और एक प्रतिगमन विश्लेषण के विपरीत, यादृच्छिक वन मॉडल के किसी भी हिस्से को अत्यधिक मिलीभगत चर द्वारा नुकसान नहीं पहुंचाया जाता है: भले ही चर में से दो समान बाल नोड शुद्धता प्रदान करते हैं, आप परिणाम की गुणवत्ता को कम किए बिना सिर्फ एक चुन सकते हैं।
इसी तरह, एसवीएम जैसी किसी चीज के लिए, आप सुविधाओं की तुलना में अधिक भविष्यवाणियों को शामिल कर सकते हैं क्योंकि कर्नेल चाल आपको उन फीचर वैक्टर के आंतरिक उत्पाद पर पूरी तरह से काम करने देती है। टिप्पणियों की तुलना में अधिक विशेषताओं के होने से रिग्रेसन में समस्या होगी, लेकिन कर्नेल ट्रिक का अर्थ है कि हम केवल प्रत्येक उदाहरण के लिए गुणांक का अनुमान लगाते हैं, जबकि नियमितीकरण पैरामीटर समाधान के लचीलेपन को कम करता है - जो कि निश्चित रूप से एक अच्छी बात है, क्योंकि पैरामीटर के लिएसीएनएनएक अप्रतिबंधित तरीके से अवलोकन हमेशा परीक्षण डेटा पर एक आदर्श मॉडल का उत्पादन करेगा - और हम पूर्ण सर्कल में आते हैं, रिज / LASSO / लोचदार नेट प्रतिगमन परिदृश्य पर वापस आते हैं, जहां हमारे पास एक ओवरऑल आशावादी मॉडल के खिलाफ जांच के रूप में मॉडल लचीलापन है। एसवीएम समस्या की केकेटी स्थितियों की समीक्षा से पता चलता है कि एसवीएम समाधान अद्वितीय है, इसलिए हमें पहचान की समस्याओं के बारे में चिंता करने की ज़रूरत नहीं है जो प्रतिगमन मामले में उत्पन्न हुई हैं।
अंत में, मल्टीकोलिनरिटी के वास्तविक प्रभाव पर विचार करें । यह मॉडल की भविष्य कहनेवाला शक्ति को नहीं बदलता है (कम से कम, प्रशिक्षण डेटा पर) लेकिन यह हमारे गुणांक अनुमानों के साथ पेंच करता है। अधिकांश एमएल अनुप्रयोगों में, हम खुद को गुणांक के बारे में परवाह नहीं करते हैं, हमारे मॉडल की भविष्यवाणियों का नुकसान, इसलिए उस अर्थ में, VIF की जाँच वास्तव में एक परिणामी प्रश्न का उत्तर नहीं देती है। (लेकिन अगर डेटा में थोड़ा सा भी बदलाव गुणांक [मल्टीकोलिनरिटी का एक क्लासिक लक्षण] में भारी उतार-चढ़ाव का कारण बनता है, तो यह भविष्यवाणियों को भी बदल सकता है, जिस स्थिति में हम देखभाल करते हैं - लेकिन यह सब [हमें उम्मीद है!] की विशेषता है जब हम क्रॉस-वेलिडेशन निष्पादित करें, जो वैसे भी मॉडलिंग प्रक्रिया का एक हिस्सा है।) एक प्रतिगमन अधिक आसानी से व्याख्या की जाती है, लेकिन व्याख्या कुछ कार्यों के लिए सबसे महत्वपूर्ण लक्ष्य नहीं हो सकती है।