LASSO की स्वतंत्रता की डिग्री के लिए अंतर्ज्ञान


12

Zou एट अल। "लास्सो की" स्वतंत्रता की डिग्री "" (2007) से पता चलता है कि गैरज़रो गुणांक की संख्या लसो की स्वतंत्रता की डिग्री के लिए एक निष्पक्ष और सुसंगत अनुमान है।

यह मुझे थोड़ा उल्टा लगता है।

  • मान लें कि हमारे पास एक प्रतिगमन मॉडल है (जहां चर शून्य माध्य हैं)

y=βx+ε.
  • मान लीजिए कि का एक अप्रतिबंधित OLS अनुमान । यह मोटे तौर पर की एक LASSO अनुमान के साथ मेल खाना सकता है एक बहुत कम दंड तीव्रता के लिए।ββ^OLS=0.5β
  • आगे मान लीजिए कि एक विशेष दंड तीव्रता लिए एक LASSO का अनुमान है, तो । उदाहरण के लिए, क्रॉस सत्यापन का उपयोग करते हुए पाए गए डेटा सेट के लिए " " "इष्टतम" हो सकता है । λβ^LASSO,λ=0.4λλ
  • अगर मैं सही ढंग से समझूं, तो दोनों मामलों में स्वतंत्रता की डिग्री 1 है क्योंकि दोनों बार एक नॉनजरो रिग्रेशन गुणांक है।

सवाल:

  • दोनों मामलों में स्वतंत्रता की डिग्री समान कैसे होती है, भले ही " से कम फिटिंग में" स्वतंत्रता "का सुझाव देती हो ?β^LASSO,λ=0.4β^OLS=0.5

संदर्भ:


1
महान सवाल, कि अधिक ध्यान देने योग्य होगा!
मतिफॉ

जवाबों:


8

मान लें कि हमें -dimensional टिप्पणियों का एक सेट दिया गया है , , । फ़ॉर्म का एक मॉडल मान लें: जहां , , और आंतरिक उत्पाद को दर्शाते हुए। Let फिटिंग विधि (या तो ओएलएस या हमारे उद्देश्यों के लिए LASSO) का उपयोग करके का अनुमान है । लेख में दी गई स्वतंत्रता की डिग्री का सूत्र (समीकरण 1.2) है: n pxiRpi=1,,n

Yi=β,xi+ϵ
ϵN(0,σ2)βRp,β^=δ({Yi}i=1n)βδ
df(β^)=i=1nCov(β^,xi,Yi)σ2.

इस सूत्र का निरीक्षण करके हम यह अनुमान लगा सकते हैं कि, आपके अंतर्ज्ञान के अनुसार, LASSO के लिए सही DOF वास्तव में OLS के सच्चे DOF से कम होगा ; LASSO से प्रभावित गुणांक-संकोचन को कोविरियन को कम करना चाहिए।

अब, आपके प्रश्न का उत्तर देने के लिए, कि LASSO के लिए DOF वही है जो आपके उदाहरण में OLS के लिए DOF है, केवल यह है कि आप अनुमानों (यद्यपि निष्पक्ष) से निपट रहे हैं , जो किसी विशेष डेटासेट से प्राप्त मॉडल से बंद है। सही DOF मूल्यों का। किसी विशेष डेटासेट के लिए, ऐसा अनुमान सही मान के बराबर नहीं होगा (विशेषकर चूंकि अनुमान पूर्णांक होना आवश्यक है, जबकि वास्तविक मूल्य सामान्य रूप से वास्तविक संख्या है)।

हालांकि, जब इस तरह के अनुमानों को मॉडल से नमूना किए गए कई डेटासेट पर औसतन किया जाता है, तो निष्पक्षता और बड़ी संख्या के कानून से ऐसा औसत सही DOF में परिवर्तित हो जाएगा। LASSO के मामले में, उनमें से कुछ डेटासेट एक अनुमानक का परिणाम देंगे जिसमें गुणांक वास्तव में 0 है (हालांकि ऐसे डेटासेट दुर्लभ हो सकते हैं यदि छोटा है)। ओएलएस के मामले में, डीओएफ का अनुमान हमेशा गुणांक की संख्या है, कि शून्य शून्य गुणांक की संख्या, और इसलिए ओएलएस मामले के लिए औसत में ये शून्य नहीं होंगे। इससे पता चलता है कि कैसे अनुमानक अलग-अलग होते हैं, और कैसे LASSO DOF के लिए औसत अनुमानक OLS DOF के लिए औसत अनुमानक से कुछ छोटे में परिवर्तित हो सकता है।λ


1
मेरी गलतियों को सुधारने और योगों को लागू करने के लिए धन्यवाद। मुझे देखने दो अगर मैं तुम्हें अच्छी तरह से समझ गया। अनिवार्य रूप से, यदि हम प्रयोग को कई बार दोहराते थे (या एक ही जनसंख्या से कई बार नमूना लेते हैं), तो हम कभी-कभी (गुणांक शून्य तक सभी तरह से सिकुड़ जाएगा) और औसतन (प्रयोगों के दौरान) मुझे ओएलएस (जाहिर है) के लिए DoF जबकि LASSO लिए DoF मिलेगा । β^LASSO=0<1=1
रिचर्ड हार्डी

वैसे, स्वतंत्रता की डिग्री का अनुमान पूर्णांक बनाने की आवश्यकता क्यों है? क्या यह वास्तव में है? मुझे यह भी बताने दें कि आंतरिक उत्पाद संकेतन अनावश्यक रूप से जटिल प्रतीत होता है और शायद ही कभी इस साइट पर उपयोग किया जाता है; मैट्रिक्स संकेतन पर्याप्त होगा। लेकिन यह आपकी पसंद है, बिल्कुल।
रिचर्ड हार्डी

1
हाँ कि इसके बारे में रकम है। स्वतंत्रता की डिग्री का अनुमान LASSO (कम से कम एक एकल डाटासेट के लिए) के लिए पूर्णांक होना चाहिए, क्योंकि यह अनुमान गैर-शून्य गुणांक की संख्या है।
e2crawfo

1
कथन स्वतंत्रता की डिग्री का अनुमान केवल LASSO के लिए एक पूर्णांक होना चाहिए, क्योंकि यह अनुमान है कि गैर-शून्य गुणांक की संख्या मेरे लिए अत्यधिक उपचारात्मक है। सामान्य तौर पर, मुझे नहीं लगता कि आपके द्वारा लिखे गए df की परिभाषा से df को पूर्णांक होना चाहिए। इसी तरह, रिज मामले में, यह शून्य रूप से शून्य नहीं है।
मतिफॉ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.