सेटिंग में प्रतिगमन : नियमितीकरण विधि (लासो, पीएलएस, पीसीआर, रिज) कैसे चुनें?


15

मैं यह देखने की कोशिश कर रहा हूं कि रिज रिग्रेशन , LASSO , प्रिंसिपल कंपोनेंट रिग्रेशन (PCR), या आंशिक लिटर स्क्वेयर (PLS) ऐसी स्थिति में जाना चाहिए, जहां बड़ी संख्या में वैरिएबल / फीचर्स ( p ) और कम संख्या में सैंपल हों ( n<p ), और मेरा उद्देश्य भविष्यवाणी है।

यह मेरी समझ:

  1. रिज रिग्रेशन , रिग्रेशन गुणांक को सिकोड़ देता है, लेकिन सभी गुणांक का उपयोग बिना किए करता है0

  2. LASSO गुणांक भी सिकुड़ता है, लेकिन उन्हें भी बनाता है0, जिसका अर्थ है कि यह चर चयन भी कर सकता है।

  3. प्रधान घटक प्रतिगमन घटकों को काट देता है ताकि np से कम हो जाए ; यह p - n घटकों को छोड़ देगा ।npn

  4. आंशिक कम से कम वर्ग भी प्रतिगमन के लिए इनपुट के रैखिक संयोजनों का एक सेट बनाता है, लेकिन पीसीआर के विपरीत यह आयामी कमी के लिए y ( अलावा X) का उपयोग करता है । पीसीआर और पीएलएस प्रतिगमन के बीच मुख्य व्यावहारिक अंतर यह है कि पीसीआर को अक्सर पीएलएस की तुलना में अधिक घटकों की आवश्यकता होती है ताकि एक ही भविष्यवाणी त्रुटि प्राप्त हो सके ( यहां देखें )।

निम्नलिखित डमी डेटा पर विचार करें (मैं जिस वास्तविक डेटा के साथ काम करने की कोशिश कर रहा हूं वह समान है):

#random population of 200 subjects with 1000 variables 

M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
  M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200

#random yvars 
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5 
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))

myd <- data.frame(y=y, M)

चार विधियों का कार्यान्वयन:

 require(glmnet)

 # LASSO 
 fit1=glmnet(M,y, family="gaussian", alpha=1)

 # Ridge   
 fit1=glmnet(M,y, family="gaussian", alpha=0)

 # PLS
 require(pls)
 fit3 <- plsr(y ~ ., ncomp = 198, data = myd, validation = "LOO")
 # taking 198 components and using leave-one-out cross validation 
 summary(fit3)
 plot(RMSEP(fit3), legendpos = "topright")

 # PCR 
 fit4 <- pcr(y ~ ., ncomp = 198, data = myd, validation = "LOO")

डेटा का सबसे अच्छा वर्णन है:

  1. p>n , अधिकांश समय p>10n ;

  2. चर ( X और Y ) विभिन्न डिग्री के साथ एक दूसरे के साथ सहसंबद्ध हैं ।

मेरा सवाल है कि इस स्थिति के लिए कौन सी रणनीति सर्वोत्तम हो सकती है? क्यों?


6
मेरे पास कोई उत्तर नहीं है, लेकिन अध्याय 18 के सांख्यिकीय शिक्षा के तत्व इस विषय के लिए समर्पित हैं और इसमें शामिल हैं, मुझे लगता है कि सभी तकनीकों का उल्लेख है।
छायाकार जू


@ssdecontrol आपके द्वारा पोस्ट की गई पुस्तक के लिए धन्यवाद। इतना मददगार
क्रिस्टीना

जवाबों:


30

मुझे लगता है कि आपके सवाल का एक भी जवाब नहीं है - यह कई स्थिति, डेटा और आप क्या करने की कोशिश कर रहे हैं पर निर्भर करता है। लक्ष्य को प्राप्त करने के लिए कुछ संशोधन किया जा सकता है या संशोधित किया जाना चाहिए। हालाँकि निम्नलिखित सामान्य चर्चा मदद कर सकती है।

अधिक उन्नत तरीकों में कूदने से पहले आइए पहले बुनियादी मॉडल की चर्चा करें: कम से कम वर्ग (एलएस) प्रतिगमन । पूर्ण मॉडल में मापदंडों का कम से कम वर्गों का अनुमान असंतोषजनक होने के दो कारण हैं:

  1. भविष्यवाणी की गुणवत्ता: कम से कम वर्गों का अनुमान अक्सर एक छोटा पूर्वाग्रह लेकिन एक उच्च विचरण होता है। प्रीडिक्शन क्वालिटी को कभी-कभी रिग्रेशन कॉइफ by ग्राहकों के सिकुड़न या शून्य के बराबर कुछ कॉइ। सेट करके सुधार किया जा सकता है। इस तरह पूर्वाग्रह बढ़ता है, लेकिन भविष्यवाणी का विचरण काफी कम हो जाता है जो समग्र सुधार की ओर जाता है। पूर्वाग्रह और विचरण के बीच के इस व्यापार को आसानी से माध्य चुकता त्रुटि (MSE) को हटाकर देखा जा सकता है एक छोटा एमएसई नए मूल्यों की बेहतर भविष्यवाणी करता है।

  2. व्याख्या : यदि कई भविष्यवाणियां उपलब्ध हैं, तो यह उन लोगों की पहचान करने के लिए समझ में आता है जिनके पास to uence में सबसे बड़ा है, और उन लोगों को शून्य पर सेट करने के लिए जो भविष्यवाणी के लिए प्रासंगिक नहीं हैं। इस प्रकार हम उन चरों को समाप्त करते हैं जो केवल कुछ विवरणों की व्याख्या करेंगे, लेकिन हम उन लोगों को रखते हैं जो प्रतिक्रिया चर के प्रमुख स्पष्टीकरण के लिए अनुमति देते हैं।

इस प्रकार परिवर्तनशील चयन विधियाँ दृश्य में आती हैं। चर चयन के साथ केवल सभी इनपुट चर का एक सबसेट उपयोग किया जाता है, बाकी को मॉडल से हटा दिया जाता है। बेस्ट सब्मिट रिग्रेशन प्रत्येक k , { 0 , 1 , के लिए आकार के सबसेट को nds , p } जो सबसे छोटा RSS देता है। एक e e cient एल्गोरिथ्म तथाकथित लीप्स और सीमा एल्गोरिथ्म है जो 30 या 40 प्रतिगामी चर तक संभाल सकता है । डेटा सेट के साथ 40 से अधिक हैkk{0,1,...,p}304040इनपुट सभी संभावित सबसेट के माध्यम से खोज को निष्क्रिय कर देता है। इस प्रकार फॉरवर्ड स्टेप वाइज सिलेक्शन और बैकवर्ड स्टेप वाइज सिलेक्शन उपयोगी हैं। पिछड़े चयन का उपयोग केवल तभी किया जा सकता है जब में अच्छी तरह से डे। मॉडल हो। जब पी बहुत अधिक है, तो इन तरीकों की गणना दक्षता संदिग्ध है।n>pp

कई स्थितियों में हमारे पास बड़ी संख्या में इनपुट होते हैं (आपके अनुसार), अक्सर अत्यधिक सहसंबद्ध (आपके मामले में)। अत्यधिक सहसंबद्ध रजिस्टरों के मामले में, ओएलएस एक संख्यात्मक रूप से अस्थिर मापदंडों की ओर जाता है , अर्थात अविश्वसनीय अनुमान। इस समस्या से बचने के लिए, हम उन तरीकों का उपयोग करते हैं जो व्युत्पन्न इनपुट दिशाओं का उपयोग करते हैं। ये विधियाँ कम संख्या में रैखिक संयोजनों z k , k = 1 , 2 , का उत्पादन करती हैं , क्ष मूल आदानों की x j जो तब प्रतिगमन में इनपुट के रूप में उपयोग किया जाता है।βzk,k=1,2,...,qxj

Di। Er के तरीके कैसे रैखिक संयोजनों का निर्माण करते हैं। प्रिंसिपल कंपोनेंट्स रिग्रेशन (पीसीआर) मूल डेटा के नए घटकों को नए घटकों में बदलने के लिए देखता है, जिन्हें प्रमुख घटक कहा जाता है ।

आंशिक कमानी वर्ग (पीएलएस) प्रतिगमन - यह तकनीक प्रतिगमन के लिए आदानों के रैखिक संयोजनों का एक सेट भी बनाती है, लेकिन प्रमुख घटक प्रतिगमन के विपरीत यह इस निर्माण के लिए X के अलावा का उपयोग करता है । हम मानते हैं कि y और X दोनों केंद्रित हैं। इसके बजाय की गणना मापदंडों का बीटा रेखीय मॉडल में, हमारा अनुमान है मापदंडों गामा तथाकथित में अव्यक्त चर मोड। हम मानते हैं कि नए कोए γ ग्राहक आयाम q p के हैं । पीएलएस एक्स के भारित संस्करण पर एक प्रतिगमन करता हैyXyXβγγqpXजिसमें अपूर्ण या आंशिक जानकारी हो। चूंकि पीएलएस पीएलएस-दिशाओं को निर्धारित करने के लिए भी का उपयोग करता है , इसलिए इस विधि को उदाहरण के लिए पीसीआर की तुलना में बेहतर भविष्यवाणी प्रदर्शन माना जाता है। पीसीआर के विपरीत, पीएलएस उच्च विचरण और वाई के साथ बड़े सहसंबंध वाले दिशा-निर्देशों की तलाश कर रहा है ।yy

संकोचन विधियाँ मॉडल में सभी चर रखती हैं और di ff erent ( निरंतर ) वज़न असाइन करती हैं। इस तरह हम एक छोटी परिवर्तनशीलता के साथ एक चिकनी प्रक्रिया प्राप्त करते हैं। रिज प्रतिगमन उनके आकार पर जुर्माना लगाकर कोए imp ग्राहकों को सिकोड़ता है। रिज कोए minimize ग्राहक वर्ग के दंडित अवशिष्ट योग को कम करते हैं। यहाँ एक जटिलता पैरामीटर है कि नियंत्रण संकोचन की राशि: बड़े का मूल्य λ , अधिक से अधिक संकोचन की राशि। सीओई are के रोगी शून्य की ओर सिकुड़ जाते हैं (और एक दूसरे की ओर)।λ0λ

आरएसएस को दंडित करके हम बचने की कोशिश करते हैं कि अत्यधिक सहसंबद्ध रजिस्ट्रार एक-दूसरे को रद्द कर दें। एक विशेष रूप से बड़ी सकारात्मक COE ffi दक्ष एक इसी तरह बड़ी नकारात्मक द्वारा रद्द किया जा सकता COE ffi दक्ष β । इस घटना को रोका जा सकता है osing के रोगियों पर एक आकार की बाधा को लागू करके।ββ

यह दिखाया जा सकता है कि पीसीआर रिज रिग्रेशन के समान है : दोनों तरीके इनपुट मैट्रिक्स के प्रमुख घटकों का उपयोग करते हैं । रिज प्रतिगमन प्रिंसिपल घटकों के कोए the रोगियों को सिकोड़ता है, सिकुड़न संबंधित प्रतिजन पर निर्भर करता है; पीसीआर पूरी तरह से छोटे पी - क्यू eigenvalues ​​के लिए घटकों को त्यागता है।Xpq

YiL1 और L2 के बीच का अंतर सिर्फ इतना है कि L2 वज़न के वर्ग का योग है, जबकि L1 केवल वज़न का योग है। L1- मानक विरल गुणांक पैदा करता है और इसमें अंतर्निहित सुविधा का चयन होता है । एल 1-मानदंड का एक विश्लेषणात्मक समाधान नहीं है, लेकिन एल 2-मानक करता है। यह L2- मानक समाधान को कम्प्यूटेशनल रूप से कुशलता से गणना करने की अनुमति देता है। L2- मानक के पास अद्वितीय समाधान हैं जबकि L1- मान नहीं है।

s0s

pN

मुख्य घटकों का विश्लेषण सुविधाओं के रैखिक संयोजनों को खोजने के लिए एक प्रभावी तरीका है जो किसी डेटासेट में बड़े बदलाव को प्रदर्शित करता है। लेकिन जो हम यहां चाहते हैं, परिणाम के साथ उच्च विचरण और महत्वपूर्ण सहसंबंध दोनों के साथ रैखिक संयोजन हैं। इसलिए हम प्रमुख घटक विश्लेषण को प्रोत्साहित करना चाहते हैं ताकि परिणाम के साथ उच्च सहसंबंध हो - पर्यवेक्षित प्रमुख घटकों (पृष्ठ 678, एल्गोरिथ्म 18.1 की पुस्तक में, लर्निंग ऑफ़ एलिमेंट ऑफ़ स्टैटिस्टिकल लर्निंग ) में सुविधाओं के रैखिक संयोजन को खोजने के लिए ।

आंशिक रूप से कम से कम शोर सुविधाओं को कम करता है, लेकिन उन्हें दूर नहीं फेंकता है; परिणामस्वरूप बड़ी संख्या में शोर सुविधाएँ भविष्यवाणियों को दूषित कर सकती हैं। थ्रेसहोल्ड पीएलएस को पर्यवेक्षित प्रमुख घटकों के शोर संस्करण के रूप में देखा जा सकता है, और इसलिए हम इसे व्यवहार में भी काम करने की उम्मीद नहीं कर सकते हैं। पर्यवेक्षित प्रमुख घटक थ्रेशोल्ड पीएलएस की तुलना में कम परीक्षण त्रुटियों का उत्पादन कर सकते हैं । हालांकि, यह हमेशा एक विरल मॉडल का उत्पादन नहीं करता है जिसमें केवल कुछ ही विशेषताएं शामिल होती हैं।

p


1
Bias2+झगड़ा

2
जब आप कहते हैं कि "L2- मानक के पास अद्वितीय समाधान हैं जबकि L1- मानक नहीं है" तो आपका क्या मतलब है? लास्सो उद्देश्य उत्तल है ...
एंड्रयू एम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.