लैसो-इंग ने एक लैग का आदेश दिया?


9

मान लीजिए कि मेरे पास फॉर्म का अनुदैर्ध्य डेटा है Y=(Y1,,YJ)N(μ,Σ)(मेरे पास कई अवलोकन हैं, यह सिर्फ एक एकल का रूप है)। मुझे प्रतिबंधों में दिलचस्पी हैΣ। एक अप्रतिबंधितΣ लेने के बराबर है

Yj=αj+=1j1ϕjYj+εj
साथ में εjN(0,σj)

यह आम तौर पर नहीं किया जाता है क्योंकि इसे अनुमान लगाने की आवश्यकता होती है O(J2)covariance पैरामीटर। एक मॉडल है "अंतराल-k“अगर हम लेते हैं

Yj=αj+=1kϕjYj+εj,
अर्थात हम केवल पूर्ववर्ती का उपयोग करते हैं k भविष्यवाणी करने की शर्तें Yj इतिहास से।

मैं वास्तव में क्या करना चाहूंगा कि कुछ को शून्य करने के लिए किसी प्रकार के संकोचन विचार का उपयोग किया जाए ϕj, LASSO की तरह। लेकिन बात यह है कि, मैं उन तरीकों को भी पसंद करूंगा जिनका उपयोग मैं उन मॉडलों को पसंद करने के लिए करता हूं जो अंतराल हैं-k कुछ के लिए k; मैं कम ऑर्डर वाले लैग से अधिक ऑर्डर लैग्स को दंडित करना चाहता हूं। मुझे लगता है कि यह ऐसी चीज है जिसे हम विशेष रूप से देना चाहेंगे कि भविष्यवक्ता अत्यधिक सहसंबद्ध हैं।

एक अतिरिक्त मुद्दा यह है कि अगर (कहते हैं) ϕ35 सिकुड़ रहा है 0 मुझे भी अच्छा लगेगा अगर ϕ36 सिकुड़ रहा है 0, यानी सशर्त वितरण के सभी में एक ही अंतराल का उपयोग किया जाता है।

मैं इस पर अटकलें लगा सकता था, लेकिन मैं पहिया को फिर से मजबूत नहीं करना चाहता था। क्या इस तरह की समस्या को प्राप्त करने के लिए कोई LASSO तकनीक तैयार की गई है? क्या मैं पूरी तरह से कुछ और कर रहा हूं, जैसे कि स्टेप वाइज लैग ऑर्डर को शामिल करना? चूंकि मेरा मॉडल स्थान छोटा है, इसलिए मैं ए का उपयोग भी कर सकता थाL0 इस समस्या पर दंड मुझे लगता है?

जवाबों:


2

आप k = 0 से बार-बार सत्यापन को पार कर सकते हैं, जो भी अधिकतम हो, और k के खिलाफ प्रदर्शन को प्लॉट करें। चूंकि मॉडल का परीक्षण उन डेटा पर किया जा रहा है जो पहले नहीं देखा गया है, इसलिए कोई गारंटी नहीं है कि जटिल मॉडल बेहतर प्रदर्शन करेंगे, और वास्तव में आपको प्रदर्शन में गिरावट देखनी चाहिए अगर मॉडल ओवरफिटिंग के कारण बहुत जटिल हो जाता है। व्यक्तिगत रूप से मुझे लगता है कि यह एक मनमाना जुर्माना कारक होने की तुलना में अधिक सुरक्षित और आसान है, लेकिन आपका लाभ भिन्न हो सकता है।

मैं वास्तव में यह भी नहीं जानता कि कैसे लास्सो ने सवाल का जवाब दिया। यह बहुत अधिक प्रतिबंधात्मक लगता है, यह पूरी तरह से गुणांक के आदेश को मजबूर कर रहा है। जबकि मूल प्रश्न कुछ डेटा के लिए समाप्त हो सकता है जहां एक समाधान हैϕlj एल के साथ सख्ती से कम नहीं है।


अपने प्रश्न में LaTeX जोड़ने के लिए, डॉलर के संकेतों ($) के बीच की अभिव्यक्ति को संलग्न करें।
पैट्रिक कूलोम्बे

1
(1) अकेले मॉडल से, यह स्पष्ट नहीं है कि गुणांक आदेश वांछनीय है, लेकिन निश्चित रूप से यह उचित है। उदाहरण के लिए, बार-बार किए गए नैदानिक ​​परीक्षण में, इस बात का कोई ठोस कारण नहीं है कि एक छोटे से गड़बड़ी की उम्मीद हैYj2 stochastically प्रभाव के लिए Yj के एक छोटे से गड़बड़ी से अधिक Yj1। आदेशित LASSO इस प्राथमिकता के ज्ञान का बेहतर उपयोग करता है, मामूली जोखिम के साथ कि यह सच नहीं हो सकता है।
लड़का

(2) आम तौर पर, मैं इस सीवी रणनीति का कम से कम आंशिक रूप से उपयोग नहीं करूंगा क्योंकि यह बहुत हठधर्मी है। मैं पूरी तरह से इसे बाहर फेंकने के बजाय, विवेकपूर्वक एक अंतराल को छोटा करके बेहतर भविष्यवाणियां कर सकता हूं।
लड़का

Nir, आदेशित LASSO पर एक उपयोगी टिप्पणी। मैंने अपने उत्तर को थोड़ा और व्यापक बनाने के लिए संपादित किया है। धन्यवाद!
शॉन ईस्टर

धन्यवाद शॉन। लड़का, मुझे नहीं लगता कि यह बहुत हठधर्मी है। आप पत्थर में आक की स्थापना नहीं कर रहे हैं, बल्कि इसे अलग-अलग करने की अनुमति दे रहे हैं। K इसे चुनता है जो ओवरफिटिंग की शुरुआत में होगा। मैं भी एक प्राथमिक ज्ञान के अपने बयान से दृढ़ता से असहमत हूं। कुछ उचित प्रतीत होता है और उस चीज को जानना पूरी तरह से अलग है। मुझे स्वीकार करना चाहिए कि मैंने कभी नहीं समझा सत्यापन को पार करने के लिए पारंपरिक आँकड़ों में एक प्रतिरोध है। मैं किसी भी दिन मान्यताओं को जोड़ने के लिए नमूना डेटा के बाहर भविष्य कहनेवाला दक्षता चुनूंगा।
Nir Friedman

2

आदेश दिया LASSO जा क्या आप देख रहे हैं लगता है: यह गणना करता है नियमित प्रतिगमन गुणांकβ1...j मानक LASSO के रूप में, लेकिन अतिरिक्त बाधा के अधीन है कि |β1||β2|...|βj|

यह उच्च-क्रम वाले लैग के लिए गुणांक को शून्य करने के दूसरे लक्ष्य को पूरा करता है, लेकिन कम अंतराल वाले मॉडल को प्राथमिकता देने के एकमात्र प्रतिबंध से अधिक प्रतिबंधात्मक है। और जैसा कि अन्य लोग बताते हैं, यह एक भारी प्रतिबंध है जिसे सही ठहराना बहुत मुश्किल हो सकता है।

कैवियट्स के साथ तिरस्कृत होने के बाद, पेपर गुणांक खोजने के लिए वास्तविक और सिम्युलेटेड टाइम सीरीज़ डेटा और विवरण एल्गोरिदम दोनों पर विधि के परिणाम प्रस्तुत करता है। निष्कर्ष में एक आर पैकेज का उल्लेख है, लेकिन कागज बल्कि हाल ही में है और "ऑर्डर किए गए एलएएसओ" के लिए सीआरएएन पर एक खोज खाली आती है, इसलिए मुझे संदेह है कि पैकेज अभी भी विकास में है।

कागज एक सामान्यीकृत दृष्टिकोण भी प्रदान करता है जिसमें दो नियमितीकरण पैरामीटर "निकट-अखंडता को प्रोत्साहित करते हैं।" (पी। 6. देखें।) दूसरे शब्दों में, किसी को एक सुव्यवस्थित क्रम के लिए अनुमति देने के लिए मापदंडों को ट्यून करने में सक्षम होना चाहिए। अफसोस की बात है, न तो उदाहरण और न ही आराम की विधि की तुलना प्रदान की जाती है। लेकिन, लेखक लिखते हैं कि इस परिवर्तन को लागू करना एक एल्गोरिथ्म को दूसरे के साथ बदलने का एक सरल मामला है, इसलिए एक उम्मीद है कि यह आने वाले पैकेज का हिस्सा होगा।


धन्यवाद, यह वास्तव में दिलचस्प है कि यह एक हालिया विचार है। मैं वास्तव में एक ही विचार के साथ एक दोस्त के साथ समस्या पर चर्चा करने के लिए आया था जब मैंने 9 महीने पहले सवाल पूछा था, लेकिन कभी भी इसकी गहराई से जांच नहीं की! मैंने सिर्फ यह मान लिया था कि यह विचार वह उपन्यास नहीं था, या कि किसी और ने इसके बारे में पहले से ही एक पेपर लिखा था।
आदमी

काफी स्वागत है! मुझे आश्चर्य हुआ कि यह हाल ही में ऐसा था।
शॉन ईस्टर

1

नेस्टेड LASSO पेनल्टी ( पीडीएफ ) को नियोजित किया जा सकता है लेकिन इसके लिए कोई आर पैकेज नहीं हैं।


1
वर्तमान में, यह एक जवाब की तुलना में अधिक टिप्पणी है। क्या आप नेस्टेड LASSO पेनल्टी, आदि पर चर्चा करके इसे थोड़ा विस्तार कर सकते हैं?
गंग -

0

मुझे पता है कि आपने इसे एक आधार के रूप में लिखा था, लेकिन मैं आदेश दिए गए LASSO का उपयोग पूरी तरह से सुनिश्चित किए बिना नहीं करूंगा कि यह वह चीज है जिसकी आवश्यकता है, क्योंकि आदेशित LASSO की धारणाएं समय-श्रृंखला की भविष्यवाणी के लिए सीधे उपयुक्त नहीं हैं। एक काउंटर-उदाहरण के रूप में, उस मामले पर विचार करें जहां आपके पास देरी का समय है, कहते हैं, माप और लक्ष्य के बीच दस समय-चरण। जाहिर है, आदेशित LASSO बाधाएं पहले नौ मापदंडों के बकवास के बिना इस तरह के प्रभावों को संभाल नहीं सकती हैं।

इसके विपरीत, मैं सामान्य LASSO से चिपके रहना चाहता हूं और इसमें पिछले सभी अवलोकन शामिल हैं - विशेष रूप से क्योंकि आपने लिखा है कि आपका मॉडल स्थान छोटा है, और LASSO (जैसा कि यहां बताया गया है ) के लिए समन्वय-वंशीय अनुकूलन अनुकूलन कुशलतापूर्वक बड़े डेटासेट के लिए भी काम कर रहे हैं। फिर नियमितीकरण शक्ति पैरामीटर के लिए पथ की गणना करेंλ और देखो कि कौन से पैरामीटर शामिल हैं जैसे कि आप बड़े से जाते हैं λ सेवा λ=0। विशेष रूप से जो पहले शामिल थे वे महत्वपूर्ण हैं।

अंत में, आपको एक उपयुक्त मानदंड चुनना होगा और पैरामीटर को अनुकूलित करना होगा λक्रॉस-मान्यता, मानक एक-आयामी न्यूनता या जो भी हो का उपयोग करना। उदाहरण के लिए मानदंड "पूर्वानुमान त्रुटि + शामिल चर की संख्या" (- एआईसी मानदंड-जैसे) के रूप में कुछ हो सकता है।


मुझे स्पष्ट रूप से गुणांक के आदेश पर बाधाओं में दिलचस्पी नहीं होगी अगर मेरे पास इस पर विश्वास करने के लिए एक प्राथमिक कारण मजबूत नहीं थे । उन मॉडलों के लिए जिन पर मुझे संदेह है कि, संभवतया, आदेशित LASSO अधिक कुशल होना चाहिए। अन्य 9 0 होने के साथ लैग -10 गुणांक होने से मेरे मूल सेटिंग में कोई मतलब नहीं है । यह एक ऐसी समस्या है, जिस पर मेरे सहयोगियों ने काम किया है (लैग्स पर आधारित संकोचन का आदेश दिया है), लेकिन उन्होंने बेयसुआन विचारों का इस्तेमाल किया और इसलिए वे (गैर-बायेसियन) LASSO पर विचार नहीं करेंगे।
लड़के

ठीक है, आप जानते हैं कि आप क्या करते हैं। लेकिन याद रखें कि LASSO आपके "एक बार शून्य - हमेशा शून्य" कथन की तुलना में अधिक दृढ़ता से विवश है। वैकल्पिक रूप से, आप एक मॉडल पर भी विचार कर सकते हैं जहां पैरामीटर कई गुणा तरीके से प्रवेश करते हैं। फिर, सापेक्ष महत्व या तो बढ़ सकता है या घट सकता है जब तक कि एक गुणांक शून्य नहीं हो जाता।
davidhigh
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.