कम-से-कम वर्गों के गुणांक को छोड़ कर स्पार्सिटी

14

मान लीजिए कि मैं एक सामान्यीकृत खिलाफ को फिर से प्राप्त करना चाहता हूं , लेकिन मैं एक विरल समाधान चाहूंगा। प्रतिगमन के बाद, सबसे छोटे परिमाण वाले गुणांक को क्यों अनुमति नहीं दे रहा है? $Y$ $X$

रिकॉर्ड के लिए, मैंने सुना है, और अक्सर उपयोग करते हैं, LARS और LASSO विधियाँ। मैं बस उत्सुक हूं कि उपरोक्त दृष्टिकोण लागू क्यों नहीं है।

regression regression-coefficients

— Cam.Davidson.Pilon
स्रोत

2

+1 ये सरल प्रश्न कठिन हो सकते हैं - वे बुनियादी अवधारणाओं के बारे में कठिन सोचते हैं।

— whuber

14

कोई समस्या नहीं होगी अगर ऑर्थोनॉर्मल थे। हालांकि, व्याख्यात्मक चर के बीच मजबूत संबंध की संभावना को हमें विराम देना चाहिए। $X$

जब आप कम से कम वर्गों के प्रतिगमन की ज्यामितीय व्याख्या पर विचार करते हैं, तो काउंटरटेक्मल्स द्वारा आना आसान होता है। लो , है कहने के लिए है, लगभग सामान्य रूप से वितरित गुणांक और लगभग यह के समानांतर किया जाना है। चलो हो ओर्थोगोनल द्वारा उत्पन्न विमान को और । हम एक कल्पना कर सकते हैं जो मुख्य रूप से दिशा में है, फिर भी में मूल से अपेक्षाकृत छोटी राशि विस्थापित है $X_1$ $X_2$ $X_3$ $X_1$ $X_2$ $Y$ $X_3$ प्लेन। क्योंकि और $X_1,X_2$ $X_1$ लगभग समानांतर हैं, उस विमान में इसके घटक दोनों में बड़े गुणांक हो सकते हैं, जिससे हमें को छोड़नापड़ेगा, जो एक बड़ी गलती होगी। $X_2$ $X_3$

ज्यामिति को एक सिमुलेशन के साथ फिर से बनाया जा सकता है, जैसे कि इन Rगणनाओं द्वारा किया जाता है :

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

संस्करण करीब हैं कि हम मानकीकृत गुणांक के लिए समरूपता के रूप में फिट के गुणांक का निरीक्षण कर सकते हैं। पूर्ण मॉडल में गुणांक 0.99, -0.99, और 0.1 (सभी अत्यधिक महत्वपूर्ण) हैं, डिजाइन द्वारा साथ सबसे छोटा (अब तक) जुड़ा हुआ है । अवशिष्ट मानक त्रुटि 0.00498 है। कम ("विरल") मॉडल में अवशिष्ट मानक त्रुटि, 0.09803 पर, गुना अधिक है: एक बड़ी वृद्धि, जो छोटे से मानकीकृत गुणांक के साथ चर को छोड़ने से बारे में लगभग सभी जानकारी के नुकसान को दर्शाती है । से हटा दिया गया है $X_i$ $1$ $X_3$ $20$ $Y$ $R^2$ $0.9975$ लगभग शून्य। न तो गुणांक स्तर से बेहतर है। $0.38$

बिखराव मैट्रिक्स सभी का पता चलता है:

X1, x2, x3 और y का स्कैटरप्लॉट मैट्रिक्स

और बीच मजबूत सहसंबंध निचले दाएं में बिंदुओं के रैखिक संरेखण से स्पष्ट है। और और और बीच खराब सहसंबंध अन्य पैनलों में परिपत्र बिखराव से समान रूप से स्पष्ट है। फिर भी, सबसे छोटी मानकीकृत गुणांक के अंतर्गत आता है के बजाय करने के लिए या । $x_3$ $y$ $x_1$ $y$ $x_2$ $y$ $x_3$ $x_1$ $x_2$

— व्हीबर
स्रोत

2

मुझे लगता है कि अगर एक अनुमानित गुणांक 0 के पास है और डेटा को सामान्यीकृत किया जाता है कि चर को छोड़ने से भविष्यवाणी को चोट नहीं पहुंचेगी। निश्चित रूप से अगर गुणांक सांख्यिकीय रूप से महत्वपूर्ण नहीं था, तो कोई समस्या नहीं होगी। लेकिन यह सावधानी से किया जाना चाहिए। IVs को सहसंबद्ध किया जा सकता है और एक को हटाने से दूसरों के गुणांक बदल सकते हैं। यह और अधिक खतरनाक हो जाता है यदि आप इस तरह से कई चर को फिर से शुरू करते हैं। इस तरह की समस्याओं से बचने और चर को शामिल करने और बाहर करने के लिए समझदार मानदंडों का उपयोग करने के लिए सबसेट चयन प्रक्रियाओं को डिज़ाइन किया गया है। यदि आप फ्रैंक हरेल से पूछते हैं कि वह चरणबद्ध प्रक्रियाओं के खिलाफ होगा। आप LARS और LASSO का उल्लेख करते हैं जो दो बहुत ही आधुनिक तरीके हैं। लेकिन बहुत सारे ऐसे भी हैं जिनमें सूचना मानदंड भी शामिल हैं जो बहुत अधिक चर के परिचय को बढ़ाते हैं।

यदि आप एक उप-चयन प्रक्रिया की कोशिश करते हैं, जिसके बारे में बहुत सारे साहित्य के साथ सावधानीपूर्वक अध्ययन किया गया है, तो आप शायद पाएंगे कि यह एक ऐसे समाधान की ओर ले जाएगा जो छोटे गुणांक वाले चर को फिर से ग्रहण करता है, खासकर यदि वे 0 से सांख्यिकीय रूप से भिन्न होने के लिए परीक्षण में विफल होते हैं।

— माइकल आर
स्रोत