आप किस खोज में LARS द्वारा प्राप्त मॉडल की अपेक्षा करते हैं जो संपूर्ण खोज से मिले मॉडल से सबसे अलग है?


9

थोड़ी और जानकारी; मान लो कि

  1. आप हाथ से पहले जानते हैं कि कितने चर का चयन करना है और आपने लार्स प्रक्रिया में जटिलता का दंड निर्धारित किया है जैसे कि ठीक 0 के साथ कई चर नं 0 गुणांक के साथ,
  2. संगणना लागत एक मुद्दा नहीं है (चर की कुल संख्या छोटी है, 50 का कहना है),
  3. कि सभी चर (y, x) निरंतर हैं।

LARS मॉडल (अर्थात LARS में गैर शून्य गुणांक वाले उन चर के ओएलएस फिट) को किस सेटिंग में समान गुणांक वाले मॉडल से सबसे अलग होगा, लेकिन संपूर्ण खोज (एक ला रीजर्सेट्स ()) के माध्यम से पाया जाएगा?

संपादित करें: मैं 50 चर और 250 प्रेक्षणों का उपयोग कर रहा हूं, जिसमें 10 के सिवाय एक मानक गाऊसी से निकाले गए वास्तविक गुणांक 0 के 'वास्तविक' गुणांक वाले (और सभी विशेषताओं को एक दूसरे के साथ दृढ़ता से सहसंबद्ध किया जा रहा है)। ये सेटिंग्स स्पष्ट रूप से अच्छी नहीं हैं क्योंकि चयनित चर के दो सेट के बीच अंतर मिनट हैं। यह वास्तव में एक सवाल है कि सबसे अधिक अंतर प्राप्त करने के लिए किस प्रकार के डेटा कॉन्फ़िगरेशन को अनुकरण करना चाहिए।

जवाबों:


1

यहाँ LARS एल्गोरिथ्म का वर्णन है: http://www-stat.stanford.edu/~tibs/lasso/simple.html यह रजिस्टरों के बीच के संबंध को अनदेखा करता है, इसलिए मैं यह अनुमान लगाने के लिए उद्यम करूँगा कि शायद याद आ जाए बहुसंस्कृति के मामले में फिट।


यह वही है जो वास्तव में मेरे प्रश्न को प्रेरित कर रहा है। मैंने 50 चर के साथ सेटिंग की है, जहां दो दृष्टिकोण के बीच vif का सबसे बड़ा मूल्य 30 से अधिक है और मुझे अभी भी बहुत कम अंतर (उदाहरण के लिए चयनित मॉडल के आर 2) के रूप में दिखाई देता है।
user603

1
मुझे स्वयं स्टेप एआईसी और लार्स के साथ अलग-अलग उत्तर मिले हैं और कल्पना करेंगे कि मेरे मुद्दे को समूह LASSO के साथ व्यवहार किया जाना है - यह पूरे मैट्रिक्स के VIF के बारे में नहीं है, लेकिन सहसंबद्ध चर के समूहों की संख्या है।
एलेक्स

रुकावट ... आप इस तरह के डेटा कैसे उत्पन्न करते हैं? (यानी सहसंबद्ध चर के समूहों के साथ)
user603

उनके साथ सहसंबंध के साथ कई स्वतंत्र समूहों को ढेर करें। मैं स्वयं कई ब्रांडों के बारे में पूछे गए सवालों का एक गुच्छा रखता हूं - लोग अपनी पसंद के ब्रांड को पसंद करते हैं और दूसरों को नापसंद करते हैं।
एलेक्स

3

आपके पास जितनी अधिक सुविधाएँ हैं, नमूनों की संख्या के संबंध में, LARS की तुलना में आपको अधिक खोज करने की संभावना अधिक है। LARS में उपयोग किया जाने वाला दंड शब्द एक एकल नियमितीकरण पैरामीटर द्वारा अनुक्रमित तेजी से जटिल मॉडल की एक नेस्टेड संरचना को लागू करता है, इसलिए LARS के साथ सुविधा चयन की "स्वतंत्रता की डिग्री" काफी कम है। एक्सैस्टिव सर्च के लिए, प्रभावी रूप से प्रति सुविधा स्वतंत्रता की एक (बाइनरी) डिग्री है, जिसका अर्थ है कि एक्सटेसिव सर्च डेटा के यादृच्छिक नमूने के कारण फीचर चयन मानदंड में यादृच्छिक परिवर्तनशीलता का फायदा उठाने में सक्षम है। नतीजतन, अतिउत्पादक खोज मॉडल को गंभीर रूप से फ़ीचर चयन मानदंड के अनुरूप होने की संभावना है, क्योंकि "परिकल्पना वर्ग" बड़ा है।


आपका उत्तर मेरे प्रश्न से असंबंधित लगता है। यह स्पष्ट करने के लिए: मैं उन स्थितियों को उत्पन्न करने में वास्तव में दिलचस्पी रखता हूं, जहां एलएआरएस द्वारा सक्रिय रूप से चुने गए चरों के सबसेट, संपूर्ण खोज द्वारा चयनित लोगों से सबसे अलग होंगे, इसके साथ, यह कहा जाता है कि, LARS मॉडल के बीच R ^ 2 में अंतर और एक ही संख्या में सक्रिय चर के साथ संपूर्ण खोज मॉडल । क्या आप किसी भी प्रतिकूल मामले के बारे में सोच सकते हैं जहां यह अंतर बड़ा होगा? क्या आप इन शब्दों में अपना उत्तर पुनः दे सकते हैं?
user603

3
मेरा उत्तर सीधे आपके प्रश्न से संबंधित है। ओवर-फिटिंग की डिग्री केवल सुविधाओं की संख्या से नहीं, बल्कि वजन के मूल्यों से नियंत्रित होती है। इस प्रकार अधिक सुविधाओं का उपयोग किए बिना ओवर-फिट करना संभव है। LARS वज़न के परिमाण पर एक दंड लगाता है, इसलिए यह उन विशेषताओं का चयन नहीं करता है जो केवल बड़े परिमाण वज़न की कीमत पर चुकता नुकसान को कम करते हैं, यही कारण है कि यह ओवर-फिटिंग के लिए कम प्रवण है। एक्सटेसिव सर्च के तरीके मूल रूप से ओवर-फिटिंग के लिए एक नुस्खा है, इसलिए आपको उन स्थितियों में बहुत अलग समाधान मिलेंगे जहां ओवर-फिटिंग होने की संभावना है।
डिक्रान मार्सुपियल

ठीक है, मुझे आपकी बात मिल गई है: यह मेरे मूल प्रश्न में चमकती हुई चीज़ से आता है (और उम्मीद है कि अब और अधिक स्पष्ट हो गया है)। मैं वास्तव में सेब की तुलना यहाँ सेब से कर रहा हूँ (अर्थात चयनित मॉडल), या दूसरे शब्दों में, (R ^ 2) OLS LARS द्वारा चयनित उन चर का उपयोग करके फिट होता है और (R ^ 2 का) OLS उन का उपयोग करके फिट होता है संपूर्ण खोज द्वारा चयनित चर। मैं सीधे लार्स गुणांक का उपयोग नहीं कर रहा हूँ ....
user603

3
यह ऑर्थोगोनल नहीं है, एक मॉडल अलग होने के बिना दूसरे से बेहतर होने की संभावना नहीं है। उन स्थितियों में जहां ओवर-फिटिंग की संभावना है, एक अतिरिक्त खोज आधारित मॉडल अस्थिर होने की संभावना है, अर्थात यदि आप एक अलग 500 नमूने एकत्र करते हैं, तो आपको सुविधाओं का एक अलग सेट मिलने की संभावना है। दूसरी ओर LARS समान रूप से अधिक स्थिर होता है। ओवरफिटिंग में परिणाम के लिए 50 फीचर्स और 500 सैंपल की संभावना है या नहीं, यह डाटासेट की प्रकृति पर निर्भर करता है, लेकिन यह निश्चित रूप से संभव है। व्यापक खोज उन विशेषताओं को लेने के लिए उत्तरदायी है जो इस नमूने में परिवर्तनशीलता की विशेषता को समझाते हैं; कम इतना कम।
डिक्रान मार्सुपियल

2
यदि आप समझा सकते हैं कि आप ऐसा क्यों करना चाहते हैं तो यह मदद कर सकता है। मुझे संदेह है कि जिस चीज को आपको देखना चाहिए, वह सही मॉडल के वजन के साथ-साथ डेटा के वितरण की भयावहता है। दंडित प्रतिगमन मॉडल (LASSO, LARS, एलारिस नेट, रिज रिग्रेशन) वजन के अपेक्षित वितरण पर एक पूर्व है, इसलिए यदि आपके पास कोई डेटासेट है जहां यह अमान्य है, तो यह शुरू करने के लिए एक अच्छी जगह हो सकती है।
डिक्रान मार्सुपियल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.