लोचदार / रिज / लासो विश्लेषण, फिर क्या?


19

मैं वास्तव में पूर्वसूचक संकोचन / चयन के लिए लोचदार शुद्ध प्रक्रिया में दिलचस्पी ले रहा हूं। यह बहुत शक्तिशाली लगता है।

लेकिन वैज्ञानिक दृष्टिकोण से मुझे पता नहीं है कि मुझे एक बार गुणांक प्राप्त करने के लिए क्या करना चाहिए। मैं किस प्रश्न का उत्तर दे रहा हूं? ये वे चर हैं जो परिणाम को सबसे अधिक प्रभावित करते हैं और ये गुणांक हैं जो सत्यापन के दौरान सबसे अच्छा विचरण / पूर्वाग्रह अनुपात देते हैं?

यह निश्चित रूप से शास्त्रीय पी मूल्य / आत्मविश्वास अंतराल दृष्टिकोण की तुलना में एक बहुत ही वर्णनात्मक / भविष्य कहनेवाला दृष्टिकोण है। टिफ़िरानी एंड कंपनी द्वारा अब तक अनुमान का अध्ययन किया जा रहा है, लेकिन अभी भी प्रायोगिक है।

कुछ लोग शास्त्रीय हीन विश्लेषण करने के लिए लोचदार जाल द्वारा चुने गए चर का उपयोग कर रहे हैं, लेकिन यह तकनीक द्वारा लाए गए विचरण में सीमा को समाप्त कर देगा।

एक और समस्या यह है कि चूँकि इलास्टिक नेट के लिए लैम्ब्डा और अल्फा पैरामीटर क्रॉस वेलिडेशन द्वारा चुने जाते हैं, वे यादृच्छिक परिवर्तनशीलता के अधीन होते हैं। इसलिए हर बार जब आप दौड़ते हैं (उदाहरण के लिए) cv.glmnet () आप हमेशा अलग-अलग गुणांक वाले भविष्यवक्ताओं के थोड़े अलग उपसमूह का चयन करेंगे।

हालांकि मैं इसे सही लैम्ब्डा और अल्फा को रैंडम वैरिएबल मानकर इसे हल करने के बारे में हूं और इन पैरामीटर्स का डिस्ट्रीब्यूशन पाने के लिए क्रॉस वेलिडेशन स्टेप n रन करता हूं। इस तरह हर भविष्यवक्ता के लिए मेरे पास घटनाओं की संख्या होगी और प्रत्येक गुणांक के लिए मेरे पास परिणामों का वितरण होगा। यह मुझे रेंज के आँकड़ों (जैसे गुणांक के एसडी) के साथ अधिक सामान्य परिणाम देने चाहिए। यह देखना भी दिलचस्प होगा कि लैम्ब्डा और अल्फा ने इस तरह से कुछ वितरण के लिए आसन्न रूप से चुना, क्योंकि इससे कुछ इंट्रेंस टेस्ट का रास्ता खुल जाएगा (लेकिन मैं एक सांख्यिकीविद् नहीं हूं इसलिए मुझे इस बारे में नहीं कहना चाहिए। 'पूरी तरह से समझते हैं)।

तो अंत में मेरा सवाल यह है: एक बार जब आप भविष्यवाणियों और गुणांक एक लोचदार नेट से क्रॉस सत्यापन आधारित अल्फा और लैम्ब्डा के साथ प्राप्त करते हैं, तो आपको इन परिणामों को किस और कैसे प्रस्तुत करना चाहिए? आपको उनकी चर्चा कैसे करनी चाहिए? हमने क्या सीखा? हम किस परिकल्पना / सामान्यीकरण का सामना कर रहे हैं?


मुझे लगता है कि यह उचित रूप से व्यापक / अस्पष्ट रूप से उचित जवाब देने के लिए है। कुछ मामलों में मुझे आपके कथन अस्पष्ट लगते हैं (उदाहरण के लिए आपका क्या मतलब है " लेकिन यह तकनीक द्वारा विचरण में सीमा को समाप्त कर देगा। ") और कुछ अन्य मामलों में गुमराह किया गया (जैसे।) हर बार जब आप दौड़ते हैं (जैसे।) cv.glmnet () आप हमेशा अलग-अलग गुणांक वाले भविष्यवक्ताओं के थोड़े अलग उपसमूह का चयन करेंगे "- ऐसा हर बार नहीं होता है और तब भी जब यह आमतौर पर होता है कि यह सीवी को सही ढंग से नहीं दिया गया था।)
usr .11852 का कहना है कि रिइनेट मॉनिक

एक प्रेरणा मैंने इलास्टिक नेट से संबंधित है, इसे वेरिएबल क्लस्टरिंग (ज़ू की धारा 2.3 के माध्यम से, हैस्टी इलास्टिक नेट पेपर) से संबंधित किया है, जिसे और अधिक विस्तार से (कुछ हद तक अलग तरीके से) यहाँ विस्तारित किया गया है: ncbi.nlm.nih .gov / पीएमसी / लेख / पीएमसी 4011669
उपयोगकर्ता 795305

जवाबों:


8

इन विधियों - लैस्सो और इलास्टिक नेट - का जन्म फीचर चयन और भविष्यवाणी दोनों की समस्याओं से हुआ था। यह इन दो लेंसों के माध्यम से है जो मुझे लगता है कि एक स्पष्टीकरण मिल सकता है।

मैथ्यू गुन अच्छी तरह से अपने जवाब में बताते हैं कि ये दोनों लक्ष्य अलग-अलग हैं और अक्सर विभिन्न लोगों द्वारा उठाए जाते हैं। हालांकि, सौभाग्य से, हमारे लिए, जिन तरीकों में हम रुचि रखते हैं, वे दोनों एरेनास में अच्छा प्रदर्शन कर सकते हैं।

फीचर चयन

सबसे पहले, फीचर चयन के बारे में बात करते हैं। हमें पहले लसो के दृष्टिकोण से लोचदार जाल को प्रेरित करना चाहिए। यही है, हस्ती और ज़ो के हवाले से , "अगर चर का एक समूह है जिसके बीच युग्मक सहसंबंध बहुत अधिक हैं, तो लसो समूह से केवल एक चर का चयन करता है और परवाह नहीं करता है कि कौन सा चुना गया है।" यह एक समस्या है, उदाहरण के लिए, क्योंकि इसका मतलब है कि हम लसो का उपयोग करके सच्चे समर्थन के एक तत्व को खोजने की संभावना नहीं रखते हैं - इसके साथ केवल एक अत्यधिक सहसंबद्ध। (पेपर में उल्लेख किया गया है कि यह LARS पेपर में साबित हुआ है, जिसे मैंने अभी तक नहीं पढ़ा है।) सहसंबंध की उपस्थिति में समर्थन वसूली की कठिनाई को भी Wainwright द्वारा इंगित किया गया है , जब सच्चे समर्थन के बीच उच्च संबंध है और यह पूरक है।0.5

| | = | बी |(a,b)=argmina,b:c=|a|+|b|(a)2+(b)2|a|=|b|

एक तरफ के रूप में, यह इंगित करने योग्य है कि यह तथ्य कि अत्यधिक सहसंबद्ध विशेषताएं बहुत समान गुणांक अनुमान लगाएंगी, ताकि हम अनुमानित समर्थन के भीतर सुविधाओं के समूह का पता लगा सकें जो समान रूप से प्रतिक्रिया को प्रभावित करते हैं।

भविष्यवाणी

अब, हम भविष्यवाणी के लिए आगे बढ़ते हैं। जैसा कि मैथ्यू गन बताते हैं, क्रॉस सत्यापन के माध्यम से ट्यूनिंग मापदंडों को चुनना, न्यूनतम भविष्यवाणी त्रुटि वाले मॉडल को चुनने का उद्देश्य है। चूंकि लैस्सो द्वारा चुने गए किसी भी मॉडल को लोचदार नेट ( लेने से ) द्वारा चुना जा सकता है , यह कुछ समझ में आता है कि लोचदार नेट एक मॉडल खोजने में सक्षम है जो लैस्सो की तुलना में बेहतर भविष्यवाणी करता है।α=1

लेडरर, यू, और गायनोवा शो, जो किसी भी तरह की विशेषताओं पर आधारित नहीं है, के अनुसार, कि लासो और इलास्टिक नेट दोनों में समान मात्रा में बंधी उनकी एल 2 भविष्यवाणी त्रुटि हो सकती है। यह जरूरी नहीं है कि उनकी सीमा तंग है, लेकिन यह ध्यान रखना दिलचस्प हो सकता है क्योंकि अनुमानों की भविष्यवाणी के प्रदर्शन को निर्धारित करने के लिए सांख्यिकीय साहित्य में मानक असमानता प्रतीत होता है - शायद वितरण के बहुत जटिल होने के बाद से! यह भी ध्यान देने योग्य है कि लेडरर (1) (2) के पास सहसंबंधित विशेषताओं की उपस्थिति में लासो भविष्यवाणियों पर कुछ कागजात हैं।

सारांश

संक्षेप में, ब्याज की समस्याएं अनुमानित समर्थन और भविष्यवाणी के भीतर सही समर्थन हैं। समर्थन पुनर्प्राप्ति के लिए, कड़ाई से सिद्ध गारंटी (वेनराइट के माध्यम से) है कि लैस्सो सही समर्थन के बीच कम सहसंबंध की मान्यताओं के तहत मॉडल में रहने के लिए सही सुविधाओं का चयन करता है और यह पूरक है। हालांकि, सहसंबंध की उपस्थिति में, हम उन सभी के बीच होने वाले सच्चे समर्थन में सुविधाओं का चयन करने की अधिक संभावना होने के लिए लोचदार नेट पर वापस गिर सकते हैं। (ध्यान दें कि हमें ध्यान से यहां ट्यूनिंग मापदंडों का चयन करना है।) और भविष्यवाणी के लिए, जब हम क्रॉस सत्यापन के माध्यम से ट्यूनिंग पैरामीटर चुनते हैं, तो यह सहज ज्ञान युक्त बनाता है कि लोचदार जाल लसो से बेहतर प्रदर्शन करना चाहिए - विशेष रूप से सहसंबंध की उपस्थिति में ।

भविष्यवाणी और कुछ औपचारिकता को अलग रखते हुए, हमने क्या सीखा? हमने सच्चे समर्थन के बारे में सीखा।

विश्वास अंतराल

यह इंगित करने योग्य है कि पिछले 2 वर्षों में लैस्सो के वैध वैधता के संबंध में बहुत कुछ बदल गया है। विशेष रूप से, ली, सन, सन, और टेलर द्वारा काम दिए गए मॉडल पर लैस्सो सशर्त के गुणांक के लिए सटीक अनुमान प्रदान करता है। (ओपी के पद के समय के आसपास सच्चे गुणांकों के लिए लसो में परिणाम पर परिणाम, और वे लिंक किए गए पेपर में अच्छी तरह से संक्षेप में बताए गए हैं।)


क्या यह मान लेना सही होगा कि नियमित रूप से सहसंयोजक अनुमान शायद उन लोगों के समान हैं जिन्हें हम एक अध्ययन दोहरा सकते हैं? यह है कि, नियमितीकरण नमूना भविष्यवाणी त्रुटि के बाहर कम करने में मदद के रूप में, यह नमूना और नमूना आकलन से बाहर के अंतर को कम करने में मदद कर सकता है?
बकाबुर्ग

1
@ बाकाबर्ग, हाँ, यह कहने के लिए समझ में आता है। नियमितीकरण कम विचरण के साथ अनुमानक बनाता है।
user795305

9

आप नियमितीकरण मापदंडों का चयन करने के लिए क्रॉस-मान्यता का उपयोग करके लोचदार, रिज, या लासो के साथ क्या कर रहे हैं, भविष्यवाणी को अनुकूलित करने के लिए कुछ रैखिक रूप से फिटिंग कर रहा है । ये विशेष नियमितीकरण पैरामीटर क्यों? क्योंकि वे नए डेटा पर भविष्यवाणी के लिए सबसे अच्छा काम करते हैं। शून्य के प्रति गुणांक अनुमानों को सिकोड़ना, पूर्वाग्रह का परिचय देना, (जैसा कि रिज या लासो में किया जाता है) ओवरफिटिंग और सिकुड़न विचरण को कम कर सकता है । नए डेटा पर भविष्यवाणी का अनुकूलन करने के लिए सही पेनाल्टी पर हमला करने के लिए विचार आपके पेनल्टी पैरामीटर के लिए है।

डेटा बनाने की प्रक्रिया की कल्पना करें:

yi=f(xi,β)+ϵi

Let हमारे पैरामीटर का अनुमान है , और let अवलोकन लिए हमारा पूर्वानुमान हो बीटा y जेजेβ^βy^jj

आपको अपने परिणाम कैसे प्रस्तुत करने चाहिए? यह निर्भर करता है कि आपका अंतर्निहित शोध प्रश्न क्या है! आप वापस कदम रखना चाहते हैं और गहराई से सोच सकते हैं कि आप किस सवाल का जवाब देने की कोशिश कर रहे हैं। आपके दर्शकों को क्या परवाह है? तुम क्या करने की कोशिश कर रहे हो?

  • भविष्यवाणी?
  • गुणांक का अनुमान है?
  • परिवर्तनशील चयन?

दो प्रकार के शोध प्रश्नों में अंतर करना महत्वपूर्ण है:

  1. प्रश्न जहां आप मुख्य रूप से भविष्यवाणी के बारे में परवाह करते हैं, क्या आप बारे में परवाह करते हैंy^j
  2. प्रश्न जहाँ आप मुख्य रूप से पैरामीटर अनुमानों के बारे में परवाह करते हैं ।β^

पूर्व के लिए शेल्फ मशीन सीखने की तकनीक बेहद शक्तिशाली हो सकती है, भविष्यवाणी समस्याएं। जैसा कि आप पहचान रहे हैं, हालांकि, शेल मशीन लर्निंग तकनीक के मानक लिए अत्यधिक समस्याग्रस्त हो सकते हैं , पैरामीटर का अनुमान है: βy^β^

  • एक उच्च आयामी सेटिंग में, कई अलग-अलग मानकीकरण आपको एक ही भविष्यवाणियों देंगे । पैरामीटर की संख्या तो टिप्पणियों की संख्या के सापेक्ष है , आप अच्छी तरह से किसी भी व्यक्ति के पैरामीटर अनुमान लगाने के लिए सक्षम नहीं हो सकता। कश्मीरny^kn
  • विभिन्न सिलवटों पर प्रशिक्षित एल्गोरिदम में काफी भिन्न पैरामीटर अनुमान हो सकते हैं।
  • मशीन लर्निंग में जोर भविष्यवाणी पर है, लगातार कारण प्रभावों का अनुमान नहीं लगाता है। (यह अर्थमिति के साथ विरोधाभास है जहां आम तौर पर मुख्य मुद्दा लगातार कारण प्रभाव का आकलन करता है)। भविष्यवाणी, कुछ कार्यात्मक रूप का आकलन, कार्य-कारण आकलन से अलग है। पुलिस स्तर अपराध के स्तर का एक अच्छा भविष्यवक्ता हो सकता है, और इसका मतलब यह नहीं है कि पुलिस अपराध का कारण बनती है।

और जैसा कि आप पहचानते हैं, कुछ मशीन लर्निंग पैरामीटराइजेशन क्यों काम करता है , इसकी व्याख्या करने में समस्या हो सकती है । क्या आपके दर्शक एक भविष्यवाणी ब्लैक बॉक्स के साथ सहज हैं? या कैसे भविष्यवाणी आपके प्रश्न के लिए केंद्रीय काम करती है?

लैस्सो और रिज: क्लासिक कारणों का उपयोग करने के लिए

  • आप क्लासिक मशीन लर्निंग, भविष्यवाणी समस्याओं, स्थितियों के लिए लोचदार नेट का उपयोग कर सकते हैं, जहां आपकी मुख्य चिंता । कुछ अर्थों में नियमितीकरण आपको अधिक भविष्यवाणियों को शामिल करने की अनुमति देता है लेकिन फिर भी नियंत्रण में रहता है।y^

  • ओवरफिटिंग को रोकने के लिए आप नियमितीकरण का उपयोग कर सकते हैं। उदाहरण के लिए। बहुपद वक्र फिटिंग के संदर्भ में रिज प्रतिगमन काफी अच्छी तरह से काम कर सकता है।

  • जैसा कि @Benjamin अपने उत्तर में बताता है, लास्सो का उपयोग परिवर्तनीय चयन के लिए भी किया जा सकता है। कुछ नियमित परिस्थितियों के तहत, लासो लगातार उपयुक्त मॉडल का चयन करेगा: अप्रासंगिक गुणांक शून्य पर सेट किया जाएगा।

L1L2

जो मैं वापस आ रहा हूं, वह यह है कि रिज रिग्रेशन, लासो, या इलास्टिक नेट के परिणामों की व्याख्या करना काफी कठिन है, जिसे आप समझ नहीं पा रहे हैं!


प्रो। सेंथिल मुलैनाथन ने जनवरी, 2017 एएफए की बैठक में मशीन लर्निंग पर एक बात की, जिसने इस पोस्ट के कुछ हिस्सों को प्रेरित किया।


3
इस तरह की सोच मेरी राय में त्रुटिपूर्ण है। यह इस धारणा पर आधारित है कि अंतर्निहित घटना एक इंसान द्वारा समझे जाने के लिए काफी सरल है। उच्च आयामी मॉडल अधिकांश समय मनुष्यों द्वारा समझे जाने के लिए बहुत जटिल होते हैं, लेकिन वे बड़े पैमाने पर कृत्रिम बुद्धिमत्ता के लिए बहुत उपयुक्त होते हैं। वास्तव में सबसे अच्छा भविष्यवक्ता घटना की सबसे अच्छी व्याख्या है, चाहे आप इसे समझ सकते हैं या नहीं।
कागदस ओजेंक

2
@CagdasOzgenc मुझे लगता है कि यह एक मान्य बिंदु है कि कुछ कार्य छिपकर जटिल हैं, मनुष्यों के लिए वर्णन करना मुश्किल है, लेकिन मशीनों द्वारा समझ और सीखने योग्य है (उदाहरण। शतरंज बोर्ड मूल्यांकन)। इन स्थितियों में, अपने हाथों को फेंकना बेहतर हो सकता है, यहां तक ​​कि मशीन ने जो भी सीखा उसकी व्याख्या करने की कोशिश न करें। दूसरी ओर, ड्रग ट्रायल जैसी स्थितियां होती हैं, जहां एक कारण प्रभाव होता है, कुछ औसत प्रभावशीलता जो आप कन्फ्यूजर्स, चयन प्रभाव आदि की भीड़ की उपस्थिति में अनुमान लगाने की कोशिश कर रहे हैं ... ये कुछ अर्थों में अलग-अलग समस्याएं और आवश्यकताएं हैं विभिन्न तकनीकों।
मैथ्यू गुन

1
y^
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.