क्या लैस्सो से पहले मानकीकरण वास्तव में आवश्यक है?


28

मैंने Lassoप्रतिगमन जैसे कुछ के पहले चर के मानकीकरण के तीन मुख्य कारण पढ़े हैं :

1) गुणांकों की व्याख्या।

2) बाद के संकोचन गुणांक अनुमानों के सापेक्ष परिमाण द्वारा गुणांक महत्व को रैंक करने की क्षमता।

3) अवरोधन की कोई आवश्यकता नहीं।

लेकिन मैं सबसे महत्वपूर्ण बिंदु के बारे में सोच रहा हूं। क्या हमारे पास यह सोचने का कारण है कि मानकीकरण से मॉडल के नमूना सामान्यीकरण में सुधार होगा? इसके अलावा, अगर मुझे अपने मॉडल में इंटरसेप्ट की ज़रूरत नहीं है, तो मुझे कोई फर्क नहीं पड़ता; मुझे जोड़ने से कोई दुख नहीं होता।


1
स्पष्टीकरण: आप पूछना चाहते हैं, "बशर्ते कि मानकीकरण वैकल्पिक हो (विशेष मामलों में से एक है जहाँ परिणाम विभिन्न परिमाण द्वारा तिरछा नहीं किए जाते हैं), तो मानकीकरण आउट-ऑफ-सैंपल सामान्यीकरण में सुधार करेगा?" क्या ये सही है?
15:75 पर Drew75

@ Drew75 मैं मामलों के टूटने को पसंद करता हूं जैसे कि जब परिणाम "अलग-अलग परिमाण द्वारा तिरछा होता है" तो यह मदद करता है, क्या यह मदद करता है जब परिणाम तिरछा नहीं किया जाता है, वगैरह, सबसे अच्छा उत्तर अलग-अलग स्थितियों को कवर करेगा।
जज

1
तब आपका प्रश्न लस्सो के बारे में नहीं है (क्योंकि लस्सो से पहले सामान्य मानकीकरण आवश्यक है)। यह अधिक सामान्य है। शायद शीर्षक और प्रश्न के पहले वाक्य को बदल दें।
Drew75

@ ड्रू: यह बल्कि सवाल-भीख है: यह क्यों आवश्यक है (जब यह नहीं है?) परिणामों को तिरछा करने का क्या मतलब है (तुलना में?) मुझे लगता है कि सवाल ठीक है क्योंकि यह खड़ा है।
Scortchi - को पुनः स्थापित मोनिका

@ Drew75 मेरा सवाल लासो के बारे में है।
जस

जवाबों:


21

लासो रिग्रेशन प्रत्येक चर से जुड़े गुणांकों के आकार पर अड़चन डालता है। हालाँकि, यह मान प्रत्येक चर के परिमाण पर निर्भर करेगा। इसलिए चर को कम करना और मानकीकृत या मानकीकृत करना आवश्यक है।

चर को केंद्रित करने के परिणाम का अर्थ है कि अब कोई अवरोधन नहीं है। यह वैसे ही रिज रिग्रेशन पर समान रूप से लागू होता है।

एक और अच्छी व्याख्या यह पोस्ट है: प्रतिगमन में डेटा को केंद्र और मानकीकृत करने की आवश्यकता


यह या तो मेरे प्रश्न का उत्तर या अत्यंत अप्रत्यक्ष उत्तर नहीं है। कृपया अपने उत्तर और नमूना सामान्यीकरण (जो प्रश्न था) के बीच के लिंक की व्याख्या करें।
जस

10
@ जज: यह मानकीकरण के मुख्य कारण को संबोधित करता है , जिसे आप अपनी सूची से हटा चुके हैं: यदि आप छोटे गुणांक वाले भविष्यवाणियों को छोड़ना चाहते हैं (या अन्यथा गुणांक परिमाण के आधार पर एक दंड शब्द का उपयोग करते हैं), तो आपको यह तय करने की आवश्यकता है कि "छोटे" के रूप में क्या मायने रखता है "। हालांकि LASSO या अन्य दंडित प्रतिगमन विधियों से पहले मानकीकरण अनिवार्य नहीं है, यह शायद ही कभी ऐसा होता है कि भविष्यवाणियों को मापने के लिए मूल पैमानों को इस उद्देश्य के लिए उपयोगी माना जाता है।
Scortchi - को पुनः स्थापित मोनिका

3
और केंद्र के बारे में बात यह है कि आप आम तौर पर अवरोधन को छोड़ना या छोटा नहीं करना चाहते हैं।
Scortchi - को पुनः स्थापित मोनिका

2
λ

2
बहुत व्यापक रूप से, आप समग्र रूप से कितना सिकुड़ते हैं, यादृच्छिक होल्ड-आउट नमूनों के सामान्यीकरण को प्रभावित करने वाला है; कुछ हद तक मनमाना निर्णय , दूसरों के सापेक्ष प्रत्येक भविष्यवक्ता को सिकोड़ने के लिए समान आबादी से नए नमूनों के सामान्यीकरण को प्रभावित करने वाला है, जहां गुणांक थोड़ा अलग हैं, जहां प्रशिक्षण सेट में भविष्यवाणियों का वितरण आवश्यक नहीं है , &सी। (बेशक अपने प्रश्न के हकदार एक और अधिक पूरी तरह से विचार कर निकाली जवाब।)
Scortchi - को पुनः स्थापित मोनिका

2

L1 पेनल्टी पैरामीटर पूर्ण बीटा शर्तों का एक योग है। यदि चर सभी अलग-अलग आयाम हैं तो यह शब्द वास्तव में योगात्मक नहीं है, भले ही गणितीय रूप से कोई त्रुटि नहीं है।

हालाँकि, मैं इस समस्या से पीड़ित डमी / श्रेणीबद्ध चर को नहीं देखता और सोचता हूं कि उन्हें मानकीकृत करने की आवश्यकता नहीं है। इन्हें मानकीकृत करने से केवल चर की व्याख्या कम हो सकती है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.