कम-से-कम वर्गों के गुणांक को छोड़ कर स्पार्सिटी


14

मान लीजिए कि मैं एक सामान्यीकृत एक्स के खिलाफ को फिर से प्राप्त करना चाहता हूं , लेकिन मैं एक विरल समाधान चाहूंगा। प्रतिगमन के बाद, सबसे छोटे परिमाण वाले गुणांक को क्यों अनुमति नहीं दे रहा है?YX

रिकॉर्ड के लिए, मैंने सुना है, और अक्सर उपयोग करते हैं, LARS और LASSO विधियाँ। मैं बस उत्सुक हूं कि उपरोक्त दृष्टिकोण लागू क्यों नहीं है।


2
+1 ये सरल प्रश्न कठिन हो सकते हैं - वे बुनियादी अवधारणाओं के बारे में कठिन सोचते हैं।
whuber

जवाबों:


14

कोई समस्या नहीं होगी अगर ऑर्थोनॉर्मल थे। हालांकि, व्याख्यात्मक चर के बीच मजबूत संबंध की संभावना को हमें विराम देना चाहिए।X

जब आप कम से कम वर्गों के प्रतिगमन की ज्यामितीय व्याख्या पर विचार करते हैं, तो काउंटरटेक्मल्स द्वारा आना आसान होता है। लो , है कहने के लिए है, लगभग सामान्य रूप से वितरित गुणांक और एक्स 2 लगभग यह के समानांतर किया जाना है। चलो एक्स 3 हो ओर्थोगोनल द्वारा उत्पन्न विमान को एक्स 1 और एक्स 2 । हम एक वाई की कल्पना कर सकते हैं जो मुख्य रूप से एक्स 3 दिशा में है, फिर भी एक्स 1 में मूल से अपेक्षाकृत छोटी राशि विस्थापित हैX1X2X3X1X2YX3 प्लेन। क्योंकि एक्स 1 औरX1,X2X1 लगभग समानांतर हैं, उस विमान में इसके घटक दोनों में बड़े गुणांक हो सकते हैं, जिससे हमें X 3 को छोड़नापड़ेगा, जो एक बड़ी गलती होगी।X2X3

ज्यामिति को एक सिमुलेशन के साथ फिर से बनाया जा सकता है, जैसे कि इन Rगणनाओं द्वारा किया जाता है :

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

संस्करण 1 के करीब हैं कि हम मानकीकृत गुणांक के लिए समरूपता के रूप में फिट के गुणांक का निरीक्षण कर सकते हैं। पूर्ण मॉडल में गुणांक 0.99, -0.99, और 0.1 (सभी अत्यधिक महत्वपूर्ण) हैं, डिजाइन द्वारा एक्स 3 के साथ सबसे छोटा (अब तक) जुड़ा हुआ है । अवशिष्ट मानक त्रुटि 0.00498 है। कम ("विरल") मॉडल में अवशिष्ट मानक त्रुटि, 0.09803 पर, 20 गुना अधिक है: एक बड़ी वृद्धि, जो छोटे से मानकीकृत गुणांक के साथ चर को छोड़ने से वाई के बारे में लगभग सभी जानकारी के नुकसान को दर्शाती है । आर 2 से हटा दिया गया है .9975Xi1X320YR20.9975लगभग शून्य। न तो गुणांक स्तर से बेहतर है।0.38

बिखराव मैट्रिक्स सभी का पता चलता है:

X1, x2, x3 और y का स्कैटरप्लॉट मैट्रिक्स

और y के बीच मजबूत सहसंबंध निचले दाएं में बिंदुओं के रैखिक संरेखण से स्पष्ट है। एक्स 1 और वाई और एक्स 2 और वाई के बीच खराब सहसंबंध अन्य पैनलों में परिपत्र बिखराव से समान रूप से स्पष्ट है। फिर भी, सबसे छोटी मानकीकृत गुणांक के अंतर्गत आता है एक्स 3 के बजाय करने के लिए एक्स 1 या एक्स 2x3yx1yx2yx3x1x2


2

मुझे लगता है कि अगर एक अनुमानित गुणांक 0 के पास है और डेटा को सामान्यीकृत किया जाता है कि चर को छोड़ने से भविष्यवाणी को चोट नहीं पहुंचेगी। निश्चित रूप से अगर गुणांक सांख्यिकीय रूप से महत्वपूर्ण नहीं था, तो कोई समस्या नहीं होगी। लेकिन यह सावधानी से किया जाना चाहिए। IVs को सहसंबद्ध किया जा सकता है और एक को हटाने से दूसरों के गुणांक बदल सकते हैं। यह और अधिक खतरनाक हो जाता है यदि आप इस तरह से कई चर को फिर से शुरू करते हैं। इस तरह की समस्याओं से बचने और चर को शामिल करने और बाहर करने के लिए समझदार मानदंडों का उपयोग करने के लिए सबसेट चयन प्रक्रियाओं को डिज़ाइन किया गया है। यदि आप फ्रैंक हरेल से पूछते हैं कि वह चरणबद्ध प्रक्रियाओं के खिलाफ होगा। आप LARS और LASSO का उल्लेख करते हैं जो दो बहुत ही आधुनिक तरीके हैं। लेकिन बहुत सारे ऐसे भी हैं जिनमें सूचना मानदंड भी शामिल हैं जो बहुत अधिक चर के परिचय को बढ़ाते हैं।

यदि आप एक उप-चयन प्रक्रिया की कोशिश करते हैं, जिसके बारे में बहुत सारे साहित्य के साथ सावधानीपूर्वक अध्ययन किया गया है, तो आप शायद पाएंगे कि यह एक ऐसे समाधान की ओर ले जाएगा जो छोटे गुणांक वाले चर को फिर से ग्रहण करता है, खासकर यदि वे 0 से सांख्यिकीय रूप से भिन्न होने के लिए परीक्षण में विफल होते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.