LASSO में श्रेणीबद्ध भविष्यवाणियों का इलाज कैसे करें


17

मैं एक LASSO चला रहा हूं जिसमें कुछ श्रेणीबद्ध चर भविष्यवाणियां हैं और कुछ निरंतर हैं। मेरे पास श्रेणीबद्ध चर के बारे में एक प्रश्न है। पहला चरण जो मैं समझता हूं कि उनमें से प्रत्येक को डमी में तोड़ना है, उन्हें उचित दंड के लिए मानकीकृत करना है, और फिर पुनः प्राप्त करना है। डमी चर के इलाज के लिए कई विकल्प हैं:

  1. संदर्भ कारक स्तर के रूप में उस एक को छोड़कर, प्रत्येक कारक के लिए सभी डमी में से एक को शामिल करें। एक डमी गुणांक की व्याख्या बहिष्कृत "संदर्भ" श्रेणी के सापेक्ष है। अवरोधन अब संदर्भ श्रेणी के लिए माध्य प्रतिक्रिया है।

  2. प्रत्येक कारक में चर को समूहित करें ताकि वे या तो सभी को बाहर कर दें या सभी को छोड़ दें, लेकिन एक को शामिल किया गया है। मुझे विश्वास है कि @Glen_b यहाँ क्या सुझाव दे रहा है :

    आम तौर पर, हाँ, आप अपने कारकों को एक साथ रखते हैं। कई R संकुल हैं जो यह कर सकते हैं, जिसमें glmnet भी शामिल है

  3. सभी स्तरों को शामिल करें, जैसा कि @Andrew M द्वारा सुझाया गया है :

    आप डिफ़ॉल्ट कॉन्ट्रास्ट फ़ंक्शन को भी बदलना चाह सकते हैं, जो डिफ़ॉल्ट रूप से प्रत्येक कारक (उपचार कोडिंग) के एक स्तर को छोड़ देता है। लेकिन लासो दंड के कारण, यह अब पहचान के लिए आवश्यक नहीं है, और वास्तव में चयनित चर की व्याख्या को और अधिक जटिल बनाता है। ऐसा करने के लिए, सेट करें

    contr.Dummy <- function(contrasts, ...){
       conT <- contr.treatment(contrasts=FALSE, ...)
       conT
    }
    options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy'))
    

    अब, किसी भी कारक के स्तर का चयन किया जाता है, आप यह सुझाव दे सकते हैं कि ये विशिष्ट स्तर मायने रखते हैं, बनाम सभी छोड़े गए स्तर। मशीन लर्निंग में, मैंने इस कोडिंग को वन-हॉट एन्कोडिंग के रूप में देखा है।

प्रशन:

  1. इन दृष्टिकोणों में से प्रत्येक के तहत अवरोधन और गुणांक की व्याख्या क्या है ?
  2. उनमें से किसी एक को चुनने में क्या विचार शामिल हैं?
  3. क्या हम डमी गुणांक को अन-स्केल करते हैं और फिर उन्हें दूर से जाने के बदलाव के रूप में व्याख्या करते हैं?

जवाबों:


7

β

आपके विशिष्ट प्रश्नों के उत्तर में:

(1) LASSO गुणांक के लिए एक अनुमान विधि है , लेकिन गुणांक स्वयं को आपके प्रतिगमन के लिए प्रारंभिक मॉडल समीकरण द्वारा परिभाषित किया गया है। जैसे, गुणांक की व्याख्या एक मानक रैखिक प्रतिगमन के समान है; वे व्याख्यात्मक चर में बदलाव के कारण अपेक्षित प्रतिक्रिया के परिवर्तन का प्रतिनिधित्व करते हैं।

(२) उपरोक्त साहित्य चरों को समूहीकृत करने की अनुशंसा करता है, लेकिन एक संदर्भ श्रेणी रखते हुए। यह स्पष्ट रूप से मानता है कि आप एक मॉडल के साथ एक श्रेणीबद्ध चर की उपस्थिति की तुलना कर रहे हैं जो इसे हटाता है लेकिन अभी भी एक अवरोधन शब्द है।

(3) जैसा कि ऊपर कहा गया है, अनुमान विधि गुणांक की व्याख्या को प्रभावित नहीं करती है, जो कि मॉडल विवरण द्वारा निर्धारित की जाती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.