संकोचन विधियों से क्या समस्या हल होती है?


61

छुट्टियों के मौसम ने मुझे द एलिमेंट्स ऑफ स्टैटिस्टिकल लर्निंग के साथ आग के बगल में कर्ल करने का मौका दिया है । (बार-बार) अर्थमिति के परिप्रेक्ष्य में आने से, मुझे रिज रेज्रेशन, लासो, और कम से कम कोण रिग्रेशन (LAR) जैसे संकोचन विधियों के उपयोग को समझने में परेशानी हो रही है। आमतौर पर, मैं पैरामीटर में दिलचस्पी रखता हूं खुद का अनुमान लगाता हूं और निष्पक्षता या कम से कम स्थिरता प्राप्त करने में। संकोचन विधियाँ ऐसा नहीं करती हैं।

मुझे ऐसा लगता है कि इन विधियों का उपयोग तब किया जाता है जब सांख्यिकीविद् चिंतित होते हैं कि प्रतिगमन फ़ंक्शन भविष्यवाणियों के लिए बहुत अधिक संवेदनशील हो जाता है, कि यह भविष्यवाणियों को वास्तव में की तुलना में अधिक महत्वपूर्ण (गुणांक के परिमाण द्वारा मापा गया) मानता है। दूसरे शब्दों में, ओवरफिटिंग।

लेकिन, ओएलएस आम तौर पर निष्पक्ष और सुसंगत अनुमान प्रदान करता है। (फुटनोट) मैंने हमेशा अनुमान लगाने की समस्या को देखा है जो कि बहुत बड़ा नहीं है, लेकिन विश्वास अंतराल बहुत छोटा है क्योंकि चयन प्रक्रिया को ध्यान में नहीं रखा गया है ( ईएसएल इस उत्तरार्द्ध बिंदु का उल्लेख करता है)।

निष्पक्ष / सुसंगत गुणांक अनुमान परिणाम के निष्पक्ष / सुसंगत पूर्वानुमान के लिए नेतृत्व करते हैं। श्रिंक तरीके ओएलएस की तुलना में अनुमानित परिणाम के करीब भविष्यवाणियों को धक्का देते हैं, प्रतीत होता है कि मेज पर जानकारी छोड़ रहे हैं।

दोहराना करने के लिए, मैं नहीं देखता कि क्या संकोचन विधियों को हल करने की कोशिश कर रहे हैं। क्या मैं कुछ भूल रहा हूँ?

फुटनोट: हमें गुणांकों की पहचान के लिए पूर्ण स्तंभ रैंक स्थिति की आवश्यकता है। त्रुटियों के लिए अतिशयता / शून्य सशर्त धारणा का अर्थ है और रैखिक सशर्त अपेक्षा धारणा यह व्याख्या निर्धारित करती है कि हम गुणांक को दे सकते हैं, लेकिन हमें इन मान्यताओं के सही होने पर भी किसी चीज़ का निष्पक्ष या सुसंगत अनुमान मिलता है।


1
यहां कई संबंधित प्रश्न हैं। यह एक है: आंकड़े.stackexchange.com/questions/10478/…
कार्डिनल

2
ध्यान दें कि पैरामीटर स्थिरता प्राप्त करने के लिए संकोचन पैरामीटर की पसंद पर सरल और काफी कमजोर स्थितियां हैं। यह प्रसिद्ध नाइट एंड फू (2000) पेपर और कवर मामलों में रिज रिग्रेशन और लैस्सो से परे है। पिछले कुछ वर्षों में मॉडल चयन स्थिरता भी एक लोकप्रिय विषय बन गया है।
कार्डिनल

@cardinal, लास्सो के लिए स्थिरता के परिणामों को इंगित करने के लिए संकेत के लिए धन्यवाद; मैं एक बार नजर डालूँगा। बेशक, ये परिणाम ओएलएस के लिए भी पाए जा सकते हैं। परिणाम का अर्थ है कि दोनों प्रक्रियाएं एक ही स्थान पर मिलती हैं। इसलिए मुझे अभी तक समझ में नहीं आया है कि हम ओएलएस से अधिक लासो का उपयोग क्यों करेंगे।
चार्ली

1
मॉडल की संगतता पैरामीटर अनुमानों की एसिम्प्टोटिक स्थिरता की तुलना में एक अलग अवधारणा है। क्या आप इस अंतर से परिचित (परिचित) हैं?
कार्डिनल

@ कार्डिनल, मॉडल स्थिरता के द्वारा, मुझे लगता है कि आपका मतलब है कि सही भविष्यवक्ता शामिल हैं। हम ओएलएस का उपयोग करके चयन प्रक्रिया में एआईसी मानदंड का उपयोग करके इसे प्राप्त कर सकते हैं। मुझे लगता है कि आप उस सीमा को लागू कर रहे हैं, सीमा में, लासो "गलत" गुणांक वाले सही मॉडल का चयन करता है?
चार्ली

जवाबों:


47

मुझे संदेह है कि आप एक गहरा उत्तर चाहते हैं, और मुझे किसी और को यह प्रदान करने देना होगा, लेकिन मैं आपको ढीले, वैचारिक दृष्टिकोण से रिज प्रतिगमन पर कुछ विचार दे सकता हूं।

OLS प्रतिगमन पैदावार पैरामीटर का अनुमान है कि निष्पक्ष हैं (यानी, अगर इस तरह के नमूने एकत्र किए जाते हैं और मापदंडों को अनिश्चित काल के लिए अनुमानित किया जाता है, तो पैरामीटर अनुमानों का नमूना वितरण सही मूल्य पर केंद्रित होगा)। इसके अलावा, नमूना वितरण में सभी संभावित निष्पक्ष अनुमानों का सबसे कम संस्करण होगा (इसका मतलब है कि, औसतन, एक ओएलएस पैरामीटर अनुमान कुछ अन्य निष्पक्ष अनुमान प्रक्रिया से अनुमान की तुलना में सही मूल्य के करीब होगा)। यह पुरानी खबर है (और मैं माफी मांगता हूं, मुझे पता है कि आप इसे अच्छी तरह से जानते हैं), हालांकि, तथ्य यह है कि विचरण कम है इसका मतलब यह नहीं है कि यह बहुत कम है। कुछ परिस्थितियों में, नमूना वितरण का विचरण इतना बड़ा हो सकता है कि ओएलएस अनुमानक को अनिवार्य रूप से बेकार बना दिया जाए। (एक स्थिति जहां ऐसा हो सकता है, जब मल्टीकोलिनरिटी की उच्च डिग्री होती है।)

ऐसी स्थिति में क्या करना है? खैर, एक अलग अनुमानक पाया जा सकता है जिसमें कम विचरण होता है (हालांकि, जाहिर है, इसे पक्षपाती होना चाहिए, यह देखते हुए कि ऊपर क्या दिया गया था)। यही है, हम कम विचरण के लिए निष्पक्षता से व्यापार कर रहे हैं। उदाहरण के लिए, हमें ऐसे पैरामीटर अनुमान मिलते हैं, जो वास्तविक मूल्य के काफी करीब होने की संभावना रखते हैं, भले ही वह वास्तविक मूल्य से थोड़ा कम हो। चाहे यह ट्रेडऑफ सार्थक हो, एक निर्णय है जिसे विश्लेषक को इस स्थिति के साथ सामना करना चाहिए। किसी भी दर पर, रिज प्रतिगमन सिर्फ एक ऐसी तकनीक है। निम्नलिखित (पूरी तरह से गढ़ी गई) आकृति का उद्देश्य इन विचारों को चित्रित करना है।

यहाँ छवि विवरण दर्ज करें

यह रिज प्रतिगमन के लिए एक छोटा, सरल, वैचारिक परिचय प्रदान करता है। मैं लासो और लार के बारे में कम जानता हूं, लेकिन मेरा मानना ​​है कि समान विचारों को लागू किया जा सकता है। लासो और कम से कम कोण प्रतिगमन के बारे में अधिक जानकारी यहां पाई जा सकती है , "सरल स्पष्टीकरण ..." लिंक विशेष रूप से उपयोगी है। यह संकोचन विधियों के बारे में अधिक जानकारी प्रदान करता है।

मुझे उम्मीद है कि यह कुछ मूल्य का है।


12
यह कुछ अच्छे वैचारिक संकेत देता है। दूसरे पैराग्राफ में निष्पक्षता पर बहुत अधिक ध्यान दिया गया है, लेकिन एक महत्वपूर्ण चेतावनी गायब है। जब तक (ए) रैखिक मॉडल "सही" है (और, यह कब है?) और (बी) सभी प्रासंगिक भविष्यवाणियों को मॉडल में शामिल किया जाता है, तो गुणांक अनुमान अभी भी सामान्य रूप से पक्षपाती होंगे।
कार्डिनल

5
पूर्वाग्रह / विचरण व्यापार की मेरी सीमित समझ यह है कि कोई व्यक्ति स्पष्टीकरण की तलाश कर रहा है (जैसा कि शायद मूल पोस्टर) निष्पक्षता को पसंद करेगा, भले ही विचरण बड़ा हो, लेकिन पूर्वानुमान लगाने वाला कोई व्यक्ति छोटे रूपांतर के साथ कुछ पसंद कर सकता है, भले ही पूर्वाग्रह शुरू किया है।
वेन

2
@Wayne: वास्तव में, यह इस मामले की क्रूरता (तों) में से एक है। ईएसएल में अधिकांश दृष्टिकोण भविष्यवाणी के दृष्टिकोण से आ रहा है और इसलिए यह उनके विश्लेषण का एक बड़ा हिस्सा है। किसी एकल गुणांक पर, विशेष रूप से एक अवलोकन सेटिंग में, एक बहुत ही फिसलन भरा मामला है। यह दावा करने के लिए कुछ गंभीर आश्वस्त होगा कि गुणांक अनुमान वास्तव में "निष्पक्ष" थे।
कार्डिनल

1
कुछ समय को देखते हुए, मैं थोड़ी देर बाद अपनी पहले से ही अधिक स्पष्ट टिप्पणियों पर विस्तार करने की कोशिश कर सकता हूं।
कार्डिनल

@ शुंग, यहां एक संबंधित मेटा थ्रेड है जिसमें आपकी रुचि हो सकती है।
रिचर्ड हार्डी

16

एक अनुमानक की त्रुटि पक्षपात और विचरण घटकों का एक संयोजन है । हालाँकि व्यवहार में हम एक मॉडल को डेटा के एक विशेष परिमित नमूने में फिट करना चाहते हैं और हम नमूनों की कुछ आबादी पर औसतन एक शून्य त्रुटि के बजाय डेटा के विशेष नमूने पर मूल्यांकन किए गए आकलनकर्ता की कुल त्रुटि को कम करना चाहते हैं। (हमारे पास नहीं है)। इस प्रकार हम त्रुटि को कम करने के लिए पूर्वाग्रह और विचरण दोनों को कम करना चाहते हैं, जिसका अर्थ है कि विचरण घटक में अधिक से अधिक कमी लाने के लिए निष्पक्षता का त्याग करना। यह छोटे डेटासेट के साथ काम करते समय विशेष रूप से सच है, जहां विचरण अधिक होने की संभावना है।

मुझे लगता है कि फ़ोकस में अंतर इस बात पर निर्भर करता है कि क्या कोई प्रक्रिया के गुणों में रुचि रखता है, या किसी विशेष नमूने पर सर्वोत्तम परिणाम प्राप्त कर रहा है। फ़्रीक्वोलॉजर्स आमतौर पर उस ढांचे के भीतर से निपटने के लिए पूर्व आसान पाते हैं; बायेसियन अक्सर उत्तरार्द्ध पर अधिक ध्यान केंद्रित करते हैं।


9

मुझे लगता है कि कुछ जवाब हैं जो लागू हो सकते हैं:

  • जब रिज्यूमर्स का मैट्रिक्स पूर्ण स्तंभ रैंक नहीं होता है तो रिज रिग्रेशन पहचान प्रदान कर सकता है।
  • लैस्सो और एलएआर का उपयोग तब किया जा सकता है जब भविष्यवक्ताओं की संख्या टिप्पणियों की संख्या (गैर-विलक्षण मुद्दे का दूसरा संस्करण) से अधिक हो।
  • Lasso और LAR स्वचालित चर चयन एल्गोरिदम हैं।

मुझे यकीन नहीं है कि रिज प्रतिगमन के बारे में पहला बिंदु वास्तव में एक विशेषता है; मुझे लगता है कि मैं गैर-पहचान से निपटने के लिए अपने मॉडल को बदलूंगा। मॉडलिंग परिवर्तन के बिना भी, ओएलएस इस मामले में परिणाम की अनूठी (और निष्पक्ष / सुसंगत) भविष्यवाणियां प्रदान करता है।

मैं देख सकता था कि दूसरा बिंदु कैसे सहायक हो सकता है, लेकिन निष्पक्ष चयन / निरंतर अनुमानों की पैदावार लेते समय आगे की चयन भी मापदंडों की संख्या से अधिक हो सकती है।

अंतिम बिंदु पर, आगे / पिछड़े चयन, उदाहरण के लिए, आसानी से स्वचालित हैं।

इसलिए मुझे अभी भी असली फायदे नहीं दिख रहे हैं।


6
कुछ टिप्पणी: ( 1 ) OLS अनुमान हैं नहीं जब भविष्यवक्ताओं की मैट्रिक्स पूर्ण पद नहीं है अद्वितीय। ( ) संगति एक अस्मितावादी अवधारणा है और इसके लिए अनुमानकों के अनुक्रम की आवश्यकता होती है । इसका मतलब है कि आपको उस प्रकार के अनुक्रम को परिभाषित करने की आवश्यकता है, जिस पर आप विचार कर रहे हैं, और जिस प्रकार की वृद्धि आप चाहते हैं, वह इस मामले में है। ( ) कई प्रकार की संगति होती है और उनके बीच के मतभेदों को समझना चित्रमय हो सकता है। झाओ और यू (2006) कागज एक अच्छा विचार-विमर्श किया है। ( ) निष्पक्षता खत्म हो गई है।
कार्डिनल

1
( ) होर्ल एंड केनार्ड (१ ९ mot० ) में रिज रिग्रेशन की मूल प्रेरणा बीमार हालत डिजाइन मेट्रिस को संभालना था, जो रैंक की कमी का "नरम" रूप है।
कार्डिनल

1
@ कार्डिनल, री। (1): क्षमा करें, मेरा मतलब था कि गुणांक के अनुमानों के बजाय, परिणाम का पूर्वानुमान।
चार्ली

1
आह अच्छा। प्रश्न में आपके फुटनोट के साथ यह बेहतर है।
कार्डिनल

यहाँ नीचे टिप्पणी के रूप में झाओ और यू (2006) के सार्वजनिक रूप से उपलब्ध संस्करण का लिंक दिया गया है।
रिचर्ड हार्डी

4

यहाँ Biostatistics से एक बुनियादी लागू उदाहरण है

मान लेते हैं कि मैं डिम्बग्रंथि के कैंसर की उपस्थिति और जीन के एक सेट के बीच संभावित संबंधों का अध्ययन कर रहा हूं।

मेरा आश्रित चर एक बाइनरी है (एक शून्य या 1 के रूप में कोडित) मेरा स्वतंत्र चर एक प्रोटिओमिक डेटाबेस से डेटा कोड करता है।

जैसा कि कई आनुवंशिकी अध्ययनों में आम है, मेरा डेटा लंबा होने की तुलना में बहुत व्यापक है। मेरे पास 216 अलग-अलग अवलोकन हैं लेकिन 4000 या इतने संभव भविष्यवक्ता हैं।

रैखिक प्रतिगमन सही है (सिस्टम निर्धारित से अधिक भयानक है)।

सुविधा चयन तकनीक वास्तव में संभव नहीं हैं। 4,000+ विभिन्न स्वतंत्र चर के साथ सभी संभव सबसेट तकनीकें पूरी तरह से सवाल से बाहर हैं और यहां तक ​​कि अनुक्रमिक सुविधा का चयन संदिग्ध है।

सबसे अच्छा विकल्प शायद एक लोचदार नेट के साथ लॉजिस्टिक प्रतिगमन का उपयोग करना है।

मैं सुविधा चयन करना चाहता हूं (पहचानें कि कौन से स्वतंत्र चर महत्वपूर्ण हैं) इसलिए रिज प्रतिगमन वास्तव में उपयुक्त नहीं है।

यह पूरी तरह से संभव है कि 216 से अधिक स्वतंत्र चर हैं जिनके पास महत्वपूर्ण प्रभाव है, इसलिए मुझे संभवतः एक लैस्सो का उपयोग नहीं करना चाहिए (लस्सो आपके पास टिप्पणियों की तुलना में अधिक भविष्यवाणियों की पहचान नहीं कर सकता है ...)

लोचदार नेट दर्ज करें ...


1
क्या आप पाठ्यपुस्तक प्रदान कर सकते हैं जो आपके द्वारा बताई गई ऐसी स्थितियों से संबंधित है?
20

0

एक अन्य समस्या जो रैखिक प्रतिगमन संकोचन विधियों को संबोधित कर सकती है, अवलोकन डेटा पर उच्च-आयामी केस-कंट्रोल अध्ययनों में एक औसत उपचार प्रभाव (एटीई) का कम विचरण (संभवतः निष्पक्ष) अनुमान प्राप्त कर रही है।

विशेष रूप से, ऐसे मामलों में जहां 1) बड़ी संख्या में चर होते हैं (सटीक मिलान के लिए चर का चयन करना कठिन होता है), 2) उपचार और नियंत्रण नमूनों में असंतुलन को खत्म करने के लिए प्रवृत्ति स्कोर मिलान विफल रहता है, और 3) बहुरूपता मौजूद है, कई तकनीकें हैं, जैसे कि अनुकूली लसो (Zou, 2006) जो कि विषम रूप से निष्पक्ष अनुमान प्राप्त करती हैं। ऐसे कई शोधपत्र हैं, जो गुणांक अनुमानों के लिए लास्सो प्रतिगमन का उपयोग करने और गुणांक अनुमानों पर विश्वास अंतराल उत्पन्न करने पर चर्चा करते हैं (निम्न पद देखें: चर चयन के लिए लास्सो का उपयोग करने के बाद इंजेक्शन )।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.