परिणाम की व्याख्या कैसे करें जब रिज और लासो दोनों अलग-अलग प्रदर्शन करते हैं लेकिन अलग-अलग गुणांक पैदा करते हैं


11

मैं लासो और रिज दोनों के साथ एक प्रतिगमन मॉडल चला रहा हूं (0-5 से भिन्न असतत परिणाम चर की भविष्यवाणी करने के लिए)। मॉडल को चलाने से पहले, मैं 250 से 25 तक सेट की गई सुविधा को कम करने SelectKBestके scikit-learnलिए विधि का उपयोग करता हूं । एक प्रारंभिक सुविधा के चयन के बिना, लैस्सो और रिज दोनों ही कम सटीकता स्कोर के लिए उपज देते हैं [जो कि छोटे नमूना आकार, 600 के कारण हो सकता है]। इसके अलावा, ध्यान दें कि कुछ विशेषताएं सहसंबद्ध हैं।

मॉडल को चलाने के बाद, मैं देखता हूं कि लसो और रिज के साथ भविष्यवाणी की सटीकता लगभग समान है। हालांकि, जब मैं गुणांक के पूर्ण मूल्य द्वारा उन्हें ऑर्डर करने के बाद पहले 10 विशेषताओं की जांच करता हूं, तो मैं देखता हूं कि अधिकांश% 50 ओवरलैप है।

यही है, यह देखते हुए कि प्रत्येक विधि द्वारा विशेषताओं के विभिन्न महत्व को सौंपा गया था, मेरे द्वारा चुने गए मॉडल पर मेरी पूरी तरह से अलग व्याख्या हो सकती है।

आम तौर पर, सुविधाएँ एक वेब साइट में उपयोगकर्ता व्यवहार के कुछ पहलुओं का प्रतिनिधित्व करती हैं। इसलिए, मैं सुविधाओं (उपयोगकर्ता व्यवहार) को मजबूत पूर्वानुमानात्मक क्षमता बनाम कमजोर सुविधाओं (उपयोगकर्ता व्यवहार) के साथ उजागर करके निष्कर्षों की व्याख्या करना चाहता हूं। हालांकि, मुझे नहीं पता कि इस बिंदु पर कैसे आगे बढ़ना है। मुझे मॉडल की व्याख्या करने के लिए कैसे दृष्टिकोण करना चाहिए? उदाहरण के लिए, दोनों को संयोजित करना चाहिए और ओवरलैपिंग को उजागर करना चाहिए, या क्या मुझे लस्सो के साथ जाना चाहिए क्योंकि यह अधिक व्याख्यात्मकता प्रदान करता है?


3
(+1) नई प्रतिक्रियाओं की भविष्यवाणी करने पर उनके सामूहिक प्रदर्शन में सुधार करते हुए नियमितीकरण को व्यक्तिगत गुणांक अनुमानों को बदतर बनाने के रूप में देखा जा सकता है। आप अपनी व्याख्या के साथ क्या हासिल करने की कोशिश कर रहे हैं?
Scortchi - को पुनः स्थापित मोनिका

1
@Scortchi जवाब देने के लिए धन्यवाद। मैंने इसे जोड़ाNormally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
रेनकेरे

3
+1 AFAIK रिज गुणांक और लैम्ब्डा के बीच संबंध मोनोटोनिक होने की आवश्यकता नहीं है, जबकि लासो में यह है। इस प्रकार, कुछ संकोचन स्तरों पर रिज और लास्सो में गुणांक के निरपेक्ष मान में बहुत अंतर हो सकता है। ऐसा कहने के बाद, मैं सराहना करूंगा कि अगर कोई इसका प्रमाण दे सकता है या शीघ्र ही इसे गणितीय रूप से समझाएगा
14ukasz Grad

सुनिश्चित करें कि आप "बीटा" गुणांक को सॉर्ट कर रहे हैं। आँकड़े देखें ।stackexchange.com/a/243439/70282 आप उन्हें मानकीकृत चर पर या बाद में लिंक में वर्णित समायोजन द्वारा प्रशिक्षण प्राप्त कर सकते हैं।
क्रिस

1
@ EukaszGrad LASSO गुणांकों को भविष्यवाणियों के सहसंबंधित होने पर मोनोटोनिक कार्यों की आवश्यकता नहीं है ; उदाहरण के लिए ISLR का आंकड़ा 6.6 देखें । λ
EdM

जवाबों:


7

रिज रिग्रेशन सभी गुणांक को छोटा बनने के लिए प्रोत्साहित करता है। लास्सो कई / सबसे अधिक [**] गुणांक को शून्य और कुछ गैर-शून्य बनने के लिए प्रोत्साहित करता है। वे दोनों प्रशिक्षण सेट पर सटीकता को कम कर देंगे, लेकिन किसी तरह से भविष्यवाणी में सुधार करेंगे:

  • रिज प्रतिगमन ओवरफिट को कम करके, परीक्षण सेट के सामान्यीकरण में सुधार करने का प्रयास करता है
  • लसो गैर-शून्य गुणांक की संख्या को कम कर देगा, भले ही यह प्रशिक्षण और परीक्षण सेट दोनों पर प्रदर्शन को दंडित करता हो

यदि आपका डेटा अत्यधिक सहसंबद्ध है, तो आप गुणांक के विभिन्न विकल्प प्राप्त कर सकते हैं। तो, आपके पास 5 सुविधाएँ हो सकती हैं जो सहसंबद्ध हैं:

  • इन सभी विशेषताओं के लिए छोटे लेकिन गैर-शून्य गुणांक निर्दिष्ट करके, रिज प्रतिगमन प्रशिक्षण सेट पर कम नुकसान प्राप्त कर सकता है, जो संभवतः परीक्षण सेट के लिए सामान्यीकृत कर सकता है
  • लैस्सो इनमें से केवल एक को चुन सकता है, जो अन्य चार के साथ अच्छी तरह से संबंध रखता है। और इसका कोई कारण नहीं है कि यह रिज प्रतिगमन संस्करण में उच्चतम गुणांक के साथ सुविधा को चुनना चाहिए

[*] 'चयन' की परिभाषा के लिए अर्थ: एक गैर-शून्य गुणांक प्रदान करता है, जो अभी भी थोड़ा सा हाथ लहराता है, क्योंकि रिज प्रतिगमन गुणांक सभी गैर-शून्य हो जाएगा, लेकिन उदाहरण के लिए कुछ १-8 की तरह हो सकते हैं , और अन्य जैसे 0.01 हो सकते हैं

[**] बारीकियाँ: जैसा कि रिचर्ड हार्डी बताते हैं, कुछ उपयोग-मामलों के लिए, का एक मूल्य चुना जा सकता है, जिसके परिणामस्वरूप सभी LASSO गुणांक गैर-शून्य होंगे, लेकिन कुछ संकोचन के साथλ


अच्छा सुझाव है। एक सहसंबंध मैट्रिक्स करने के लिए एक अच्छी जाँच करें। गैर-अतिव्यापी चर अत्यधिक सहसंबद्ध हो सकते हैं।
क्रिस

3
अच्छा उत्तर! हालांकि, मुझे यकीन नहीं है कि यह कहना उचित है कि रिज सार्वभौमिक रूप से टेस्ट प्रदर्शन को लागू करने का प्रयास करता है जबकि लैस्सो के लिए ऐसा नहीं कह रहा है। उदाहरण के लिए, यदि सच्चा मॉडल विरल है (और हमारे भविष्यवक्ताओं के सबसेट में), हम तुरंत
लस्सीओ

यह 'स्पार्सिटी' के सिद्धांत पर दांव है। उदाहरण के लिए, यहां पहला प्लॉट देखें: संकाय
।bscb.cornell.edu

2
डेटा के कई बूटस्ट्रैप नमूनों के बीच चर विकल्पों (LASSO) और प्रतिगमन गुणांक की तुलना अच्छी तरह से इन मुद्दों को चित्रित कर सकती है। सहसंबद्ध भविष्यवक्ताओं के साथ, जो विभिन्न बूटस्ट्रैप से LASSO द्वारा चुने गए हैं, वे अभी भी समान पूर्वानुमानात्मक प्रदर्शन प्रदान करते हुए काफी भिन्न हो सकते हैं। आदर्श रूप से, प्रक्रिया की गुणवत्ता का दस्तावेजीकरण करने के लिए प्रारंभिक फीचर-सेट कटौती सहित पूरी मॉडल-निर्माण प्रक्रिया को कई बूटस्ट्रैप पर दोहराया जाना चाहिए।
EdM

इन विशेषताओं में से 4 का चयन करके, नीच गुणांक वाले, या यहां तक ​​कि उन सभी को फिर से छोटे, लेकिन गैर-शून्य, गुणांक के साथ, रिज प्रतिगमन प्रशिक्षण सेट पर कम नुकसान पहुंचा सकता है - रिज प्रतिगमन चर नहीं चुनता है। इसके अलावा, कम मूल्यों के लिए , लासो सभी चर का चयन करेगा, लेकिन रिज की तरह कुछ संकोचन करें। λ
रिचर्ड हार्डी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.