चाहे LASSO के लिए संकेतक / बाइनरी / डमी भविष्यवाणियों को पुनर्विक्रय करना है


30

LASSO (और अन्य मॉडल चयन प्रक्रियाओं के लिए) भविष्यवक्ताओं को पुनर्विक्रय करना महत्वपूर्ण है। मेरे द्वारा अनुसरण की जाने वाली सामान्य सिफारिश केवल निरंतर चर के लिए 0 मतलब, 1 मानक विचलन सामान्यीकरण का उपयोग करने के लिए है। लेकिन डमी के साथ क्या करना है?

उदाहरण के लिए उसी (उत्कृष्ट) समर स्कूल के कुछ लागू उदाहरणों को मैंने 0 और 1 (हालांकि आउटलेर के साथ महान नहीं) के बीच होने वाले निरंतर चरों से बचाया, संभवत: डमीज़ से तुलनीय होना चाहिए। लेकिन यहां तक ​​कि यह भी गारंटी नहीं है कि गुणांक परिमाण का एक ही क्रम होना चाहिए, और इस तरह समान रूप से दंडित किया गया है, rescaling के लिए महत्वपूर्ण कारण, नहीं?


2
संक्षिप्त उत्तर - नहीं,
डमियों को पुनर्विकसित

4
से संबंधित इस
julieth

@ जूलियट, बहुत बहुत धन्यवाद, मुझे बताएं कि क्या आपको कुछ जवाब मिला है।
लेज़्ज़्लो

जवाबों:


27

टिक्सिरानी के अनुसार ( COX MODEL में VARIABLE चयन के लिए मेडिसिन में सांख्यिकी, VOL 16, 385-395 (1997) ) के अनुसार, जिन्होंने शाब्दिक रूप से नियमितीकरण के तरीकों पर किताब लिखी है, आपको dummies को मानकीकृत करना चाहिए। हालाँकि, आप फिर अपने गुणांक की सीधी व्याख्या खो देते हैं। यदि आप नहीं करते हैं, तो आपके चर एक भी खेल के मैदान पर नहीं हैं। आप अनिवार्य रूप से अपने निरंतर चर (सबसे अधिक संभावना) के पक्ष में तराजू को बांध रहे हैं। इसलिए, यदि आपका प्राथमिक लक्ष्य मॉडल चयन है तो यह एक गंभीर त्रुटि है। हालाँकि, यदि आप व्याख्या में अधिक रुचि रखते हैं तो शायद यह सबसे अच्छा विचार नहीं है।

सिफारिश पृष्ठ 394 पर है:

लैस्सो विधि के लिए रजिस्टरों के प्रारंभिक मानकीकरण की आवश्यकता होती है, ताकि सभी रजिस्टरों के लिए दंड योजना उचित हो। श्रेणीबद्ध regressors के लिए, एक डमी चर के साथ regressor कोड और फिर डमी चर का मानकीकरण करता है। जैसा कि एक रेफरी ने बताया है, हालांकि, इस योजना में निरंतर और श्रेणीबद्ध चर के बीच सापेक्ष स्केलिंग कुछ हद तक मनमानी हो सकती है।


3
क्या आप एक सटीक संदर्भ प्रदान कर सकते हैं जहां टिब्शीरानी डमी को मानकीकृत करने का सुझाव देती है।
seanv507

@ seanv507 "... एक डमी चर के साथ रजिस्टरों को कोड करता है और फिर डमी वैरिएबल को मानकीकृत करता है "। मुझे लगता है कि rocrat स्पष्टीकरण सही है: सामान्य तौर पर आप सभी भविष्यवक्ता चाहते हैं, जिसमें डमी भी शामिल हैं, दंड के निष्पक्ष होने के लिए समान पैमाना और भिन्नता है।
रॉबर्ट कुब्रिक

1
@RobertKubrick मैं असहमत हूं। नियमितीकरण का मूल कारण यह है कि छोटे बदलावों के छोटे प्रभाव होने चाहिए। इसलिए आदर्श मामला यह है कि आपके सभी चरों में एक भौतिक भौतिक पैमाने है जो आपके आश्रित चर को दर्शाता है और आप उन्हें सामान्य नहीं करते हैं। आमतौर पर हम सही पैमाने नहीं जानते हैं, इसलिए हम सामान्यीकरण का सहारा लेते हैं। हालाँकि श्रेणीबद्ध चरों के पास ऐसा प्राकृतिक पैमाना होता है, अर्थात् संभावना यह है कि वे 0 या 1 हैं: मैं तर्क दूंगा कि एक चर जो कि अधिकतर समय 0 होता है, एक चर की तुलना में कम महत्वपूर्ण होता है जो 0/1 के बीच में प्रवाहित होता है। इसके बजाय जेफ का जवाब उचित लगता है।
seanv507

8

एंड्रयू जेलमैन का ब्लॉग पोस्ट, कब रिग्रेशन इनपुट को मानकीकृत करना और कब उन्हें अकेला छोड़ना है , यह भी देखने लायक है। विशेष रूप से यह हिस्सा प्रासंगिक है:

एक मॉडल के भीतर विभिन्न भविष्यवाणियों के लिए गुणांक की तुलना करने के लिए, मानकीकरण को मंजूरी मिलती है। (हालांकि मैं बाइनरी इनपुट को मानकीकृत नहीं करता हूं। मैं उन्हें 0/1 के रूप में कोड करता हूं, और फिर मैं दो मानक विचलन द्वारा विभाजित करके अन्य सभी संख्यात्मक इनपुट का मानकीकरण करता हूं, इस प्रकार उन्हें लगभग 0/1 चर के समान पैमाने पर डाल दिया जाता है।)


1
और जब वह कहता है कि "द्विआधारी इनपुट का मानकीकरण नहीं करते हैं" , तो वह किसी एक-गर्म समूह के चर का अर्थ लगता है, अर्थात श्रेणीबद्ध चर के लिए कोई डमी?
एसएमसीआई

2
तुलनात्मक गुणांक ( यानी व्याख्या) बिट के लिए सही है, लेकिन एक नियमितीकरण के नजरिए से कि सिफारिश ज्यादा मायने नहीं रखती है। कारण है एक द्विआधारी चर में विचरण । के लिए आप विचरण पाने के लिए बराबर है, जो डाल यह सिफारिश के रूप में ही पैमाने पर है, लेकिन से है कि आप उत्तरोत्तर कम विचरण पाने और कुछ। यह अनुकूलन के लिए मानकीकरण करने के लिए बेहतर है, और फिर मूल पैमाने के imo में गुणांक की रिपोर्ट करें । p(1p)p=0.50.25
फायरबग

"दो मानक विचलन" से उसका क्या अर्थ है? क्या यह ? x -> x / 2σ
एलेक्स

कोई बात नहीं, यह सब यहाँ बताया गया है: stat.columbia.edu/~gelman/research/unpublished/…
एलेक्स

3

यह एक टिप्पणी का अधिक है, लेकिन बहुत लंबा है। लासो (और दोस्तों) के लिए सबसे अधिक उपयोग किए जाने वाले सॉफ्टवेयर्स में से एक आर है glmnet। सहायता पृष्ठ से, द्वारा मुद्रित ?glmnet:

मानकीकरण: एक्स चर चर के लिए तार्किक ध्वज, मॉडल अनुक्रम फिटिंग से पहले। गुणांक को हमेशा मूल पैमाने पर लौटाया जाता है। डिफ़ॉल्ट 'मानकीकृत = सही' है। यदि चर समान इकाइयों में पहले से हैं, तो आप मानकीकरण की इच्छा नहीं कर सकते हैं। 'परिवार = "गाऊसी" के साथ वाई मानकीकरण के लिए नीचे दिए गए विवरण देखें।

मानकीकरण एक तर्क है, सत्य के लिए चूक है। इसलिए चर आमतौर पर मानकीकृत होते हैं, और इसमें डमियां शामिल हैं (क्योंकि उनके लिए अपवाद का कोई उल्लेख नहीं है)। लेकिन गुणांक मूल पैमाने पर रिपोर्ट किए जाते हैं।X

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.