मुझे लगता है कि जब से गुणांकों के इन भूखंडों की व्याख्या करने की कोशिश कर रहा , , या, यह जानने में बहुत मदद करता है कि वे कुछ सरल मामलों में कैसे दिखते हैं। विशेष रूप से, वे कैसे दिखते हैं जब आपका मॉडल डिज़ाइन मैट्रिक्स असंबंधित होता है, बनाम जब आपके डिज़ाइन में सहसंबंध होता है।लॉग ऑन ( λ ) Σ मैं | β i |λलॉग( λ )Σमैं| βमैं|
उस अंत तक, मैंने प्रदर्शित करने के लिए कुछ सहसंबद्ध और असंबद्ध डेटा बनाया:
x_uncorr <- matrix(runif(30000), nrow=10000)
y_uncorr <- 1 + 2*x_uncorr[,1] - x_uncorr[,2] + .5*x_uncorr[,3]
sigma <- matrix(c( 1, -.5, 0,
-.5, 1, -.5,
0, -.5, 1), nrow=3, byrow=TRUE
)
x_corr <- x_uncorr %*% sqrtm(sigma)
y_corr <- y_uncorr <- 1 + 2*x_corr[,1] - x_corr[,2] + .5*x_corr[,3]
डेटा x_uncorr
में असंबद्ध कॉलम हैं
> round(cor(x_uncorr), 2)
[,1] [,2] [,3]
[1,] 1.00 0.01 0.00
[2,] 0.01 1.00 -0.01
[3,] 0.00 -0.01 1.00
जबकि x_corr
स्तंभों के बीच एक पूर्व निर्धारित सहसंबंध है
> round(cor(x_corr), 2)
[,1] [,2] [,3]
[1,] 1.00 -0.49 0.00
[2,] -0.49 1.00 -0.51
[3,] 0.00 -0.51 1.00
अब इन दोनों मामलों के लिए लैस्सो भूखंडों को देखें। पहले असंबंधित डेटा
gnet_uncorr <- glmnet(x_uncorr, y_uncorr)
plot(gnet_uncorr)
एक युगल सुविधाएँ बाहर खड़े हैं
- भविष्यवक्ता सच्चे रेखीय प्रतिगमन गुणांक के अपने परिमाण के क्रम में मॉडल में जाते हैं।
- प्रत्येक सुविधा का गुणांक पथ एक पंक्ति है (सम्मान के साथ ) टुकड़ा-रेखीय है, और केवल तभी बदलता है जब एक नया भविष्यवक्ता मॉडल में प्रवेश करता है। यह केवल संबंध में कथानक के लिए सही है , और दूसरों पर इसे पसंद करने का एक अच्छा कारण है।∑ i | β i |Σमैं| βमैं|Σमैं| βमैं|
- जब एक नया भविष्यवक्ता मॉडल में प्रवेश करता है, तो यह सभी भविष्यवक्ताओं के गुणांक के ढलान को मॉडल में पहले से ही एक नियतात्मक तरीके से प्रभावित करता है। उदाहरण के लिए, जब दूसरा भविष्यवक्ता मॉडल में प्रवेश करता है, तो पहले गुणांक के ढलान को आधा में काट दिया जाता है। जब तीसरा भविष्यवक्ता मॉडल में प्रवेश करता है, तो गुणांक पथ का ढलान उसका मूल मूल्य एक तिहाई होता है।
ये सभी सामान्य तथ्य हैं जो असंबद्ध डेटा के साथ लास्सो प्रतिगमन पर लागू होते हैं, और वे सभी या तो (अच्छे व्यायाम!) या साहित्य में पाए गए साबित हो सकते हैं।
अब सहसंबद्ध डेटा करते हैं
gnet_corr <- glmnet(x_corr, y_corr)
plot(gnet_corr)
आप इस साजिश से कुछ बातें पढ़ सकते हैं और इसे असंबंधित मामले से तुलना कर सकते हैं
- पहले और दूसरे भविष्यवक्ता रास्तों में असंबद्ध मामले के समान संरचना होती है जब तक कि तीसरा भविष्यवक्ता मॉडल में प्रवेश नहीं करता है, भले ही वे सहसंबद्ध हों। यह दो भविष्यवाणियों के मामले की एक विशेष विशेषता है, जिसे मैं एक अन्य उत्तर में समझा सकता हूं यदि रुचि है, तो यह मुझे वर्तमान चर्चा से थोड़ा दूर ले जाएगा।
- दूसरी ओर, एक बार तीसरे भविष्यवक्ता ने मॉडल में प्रवेश किया, हम चित्र से विचलन देखते हैं, हम उम्मीद करेंगे कि यदि तीनों सुविधाएँ असंबद्ध थीं। दूसरी विशेषता का गुणांक समतल हो जाता है, और तीसरी विशेषता अपने अंतिम मूल्य तक बढ़ जाती है। ध्यान दें कि पहली सुविधा का ढलान अप्रभावित है, जिसका हम अनुमान नहीं लगाते यदि कोई संबंध नहीं होता! अनिवार्य रूप से, संसाधन तीन या उससे अधिक के समूह के भीतर गुणांक पर खर्च करते हैं, "न्यूनतम कारोबार" तक असाइन किया जा सकता हैपाया जाता है।∑|βi|
तो अब चलो कारों के डेटासेट से अपने प्लॉट को देखें और कुछ दिलचस्प बातें पढ़ें (मैंने आपका प्लॉट यहाँ पुन: पेश किया है, इसलिए यह चर्चा पढ़ने में आसान है):
चेतावनी का एक शब्द : मैंने निम्नलिखित विश्लेषण को इस धारणा पर समर्पित किया है कि वक्र मानकीकृत गुणांक दिखाते हैं , इस उदाहरण में वे नहीं करते हैं। गैर-मानकीकृत गुणांक आयामहीन नहीं हैं, और तुलनीय नहीं हैं, इसलिए भविष्य कहनेवाला महत्व के संदर्भ में उनसे कोई निष्कर्ष नहीं निकाला जा सकता है। निम्न विश्लेषण के मान्य होने के लिए, कृपया यह दिखावा करें कि प्लॉट मानकीकृत गुणांक का है, और कृपया आप मानकीकृत गुणांक पथ पर अपना विश्लेषण करें।
- जैसा कि आप कहते हैं,
wt
भविष्यवक्ता बहुत महत्वपूर्ण लगता है। यह पहले मॉडल में प्रवेश करता है, और इसके अंतिम मूल्य के लिए धीमा और स्थिर वंश होता है। इसमें कुछ सहसंबंध होते हैं जो इसे थोड़ा ऊबड़ सवारी बनाते हैं, am
विशेष रूप से ऐसा लगता है कि जब यह प्रवेश करता है तो एक कठोर प्रभाव पड़ता है।
am
भी महत्वपूर्ण है। यह बाद में आता है, और इसके साथ सहसंबद्ध होता है wt
, क्योंकि यह wt
हिंसक तरीके से ढलान को प्रभावित करता है । यह भी सहसंबद्ध है carb
और qsec
, क्योंकि हम प्रवेश करते समय ढलान के अनुमान को नरम नहीं देखते हैं। बाद इन चार चर हालांकि प्रवेश किया है, हम करते हैं अच्छा असहसंबद्ध पैटर्न को देखने, तो यह अंत में सभी भविष्यवक्ताओं के साथ असहसंबद्ध हो रहा है।
- एक्स-एक्सिस पर लगभग 2.25 पर कुछ प्रवेश करता है, लेकिन इसका रास्ता स्वयं अभेद्य है, आप केवल इसके
cyl
और wt
मापदंडों को प्रभावित करके इसका पता लगा सकते हैं ।
cyl
काफी मुखर है। यह दूसरे में प्रवेश करता है, इसलिए छोटे मॉडल के लिए महत्वपूर्ण है। अन्य चर के बाद, और विशेष रूप से am
प्रवेश करते हैं, यह अब इतना महत्वपूर्ण नहीं है, और इसकी प्रवृत्ति उलट जाती है, अंततः सभी को हटा दिया जाता है। ऐसा लगता है cyl
कि इस प्रक्रिया के अंत में प्रवेश करने वाले चर द्वारा पूरी तरह से कब्जा किया जा सकता है। चाहे वह उपयोग करने के लिए अधिक उपयुक्त हो cyl
, या चर का पूरक समूह, वास्तव में पूर्वाग्रह-भिन्नता व्यापार पर निर्भर करता है। आपके अंतिम मॉडल में समूह होने से इसके विचरण में काफी वृद्धि होगी, लेकिन ऐसा हो सकता है कि निम्न पूर्वाग्रह इसके लिए तैयार हों!
यह एक छोटा सा परिचय है कि मैंने इन भूखंडों की जानकारी को पढ़ना कैसे सीखा है। मुझे लगता है कि वे बहुत सारे मज़ेदार हैं!
एक महान विश्लेषण के लिए धन्यवाद। सरल शब्दों में रिपोर्ट करने के लिए, क्या आप कहेंगे कि डब्ल्यूटी, एम और सिलेंडर mpg के 3 सबसे महत्वपूर्ण भविष्यवक्ता हैं। इसके अलावा, यदि आप भविष्यवाणी के लिए एक मॉडल बनाना चाहते हैं, तो आप इस आंकड़े के आधार पर किन लोगों को शामिल करेंगे: wt, am और सिलेंडर? या कोई और संयोजन। इसके अलावा, आपको विश्लेषण के लिए सबसे अच्छा लैम्ब्डा की आवश्यकता नहीं है। क्या यह रिज रिग्रेशन की तरह महत्वपूर्ण नहीं है?
मैं कहता हूँ कि मामले के लिए wt
और am
स्पष्ट कटौती कर रहे हैं, वे महत्वपूर्ण हैं। cyl
बहुत अधिक सूक्ष्म है, यह एक छोटे मॉडल में महत्वपूर्ण है, लेकिन एक बड़े में सभी प्रासंगिक नहीं है।
मैं केवल इस बात का निर्धारण नहीं कर पाऊंगा कि केवल आकृति के आधार पर क्या शामिल किया जाए, जो वास्तव में आप क्या कर रहे हैं, इस संदर्भ में उत्तर दिया जाना चाहिए। आप कह सकते हैं कि यदि आप तीन भविष्यवक्ता मॉडल चाहते हैं, तो wt
, am
और cyl
अच्छे विकल्प हैं, क्योंकि वे चीजों की भव्य योजना में प्रासंगिक हैं, और एक छोटे मॉडल में उचित प्रभाव के आकार को समाप्त करना चाहिए। यह इस धारणा पर आधारित है कि आपके पास एक छोटे से तीन भविष्यवक्ता मॉडल की इच्छा के लिए कोई बाहरी कारण है।
यह सच है, इस प्रकार का विश्लेषण लैम्ब्डा के पूरे स्पेक्ट्रम पर दिखता है और आपको मॉडल जटिलताओं की एक सीमा से अधिक रिश्तों को खत्म करने देता है। उस ने कहा, एक अंतिम मॉडल के लिए, मुझे लगता है कि एक इष्टतम मेमने को ट्यूनिंग करना बहुत महत्वपूर्ण है। अन्य बाधाओं की अनुपस्थिति में, मैं निश्चित रूप से यह पता लगाने के लिए क्रॉस सत्यापन का उपयोग करूंगा कि इस स्पेक्ट्रम के साथ सबसे अधिक अनुमानित लैम्ब्डा कहां है, और फिर एक अंतिम मॉडल के लिए उस लैम्ब्डा का उपयोग करें , और एक अंतिम विश्लेषण।
मेरे द्वारा सुझाए गए कारण का ग्राफ के दाहिने हाथ की तरफ बाएं हाथ की तरफ से अधिक है। कुछ बड़े लंबोधों के लिए, यह मामला हो सकता है कि मॉडल प्रशिक्षण डेटा से अधिक है। इस स्थिति में, आप इस व्यवस्था में प्लॉट से जो कुछ भी काटते हैं वह सांख्यिकीय प्रक्रिया में संरचना के बजाय डेटासेट में शोर का गुण होगा । एक बार जब आपके पास इष्टतम का अनुमान होता है , तो आपके पास यह समझ में आता है कि प्लॉट का कितना भरोसा किया जा सकता है।λ
दूसरी दिशा में, कभी-कभी बाहरी बाधाएं होती हैं कि कोई मॉडल कितना जटिल हो सकता है (कार्यान्वयन लागत, विरासत प्रणाली, व्याख्यात्मक न्यूनतावाद, व्यापार व्याख्यात्मकता, सौंदर्यपूर्ण सामंजस्य) और इस तरह का निरीक्षण वास्तव में आपके डेटा के आकार को समझने में आपकी मदद कर सकता है, और आपके द्वारा बनाए गए ट्रेडऑफ़ को इष्टतम मॉडल से छोटा चुनकर बनाया जाता है।
-1
थेglmnet(as.matrix(mtcars[-1]), mtcars[,1])
।