क्रॉस-मान्यता का उपयोग करते समय एक मानक त्रुटि नियम के लिए अनुभवजन्य औचित्य


39

क्या कोई अनुभवजन्य अध्ययन पारसीमोनी के पक्ष में एक मानक त्रुटि नियम के उपयोग को सही ठहरा रहा है? जाहिर है कि यह डेटा के डेटा-जनरेशन प्रोसेस पर निर्भर करता है, लेकिन डेटासेट के एक बड़े कॉर्पस का विश्लेषण करने वाली कोई भी चीज़ बहुत दिलचस्प होगी।


क्रॉस-वेलिडेशन के माध्यम से मॉडल का चयन करते समय (या किसी भी यादृच्छिक-आधारित प्रक्रिया के माध्यम से) आमतौर पर "एक मानक त्रुटि नियम" लागू किया जाता है।

मान लें कि हम पैरामीटर द्वारा अनुक्रमित करते हैं, ऐसा मानते हैं कि , तुलना में "अधिक जटिल" है, बिल्कुल " । आगे मान लें कि हम कुछ यादृच्छिककरण प्रक्रिया, जैसे, क्रॉस-मान्यता के द्वारा एक मॉडल की गुणवत्ता का आकलन करते हैं । चलो को निरूपित की "औसत" गुणवत्ता , जैसे, कई पार सत्यापन रन के पार मतलब बाहर के बैग भविष्यवाणी त्रुटि। हम इस मात्रा को कम से कम करना चाहते हैं । τ आर एम τ एम τ ' τ > τ ' एम क्यू ( एम ) एमMττRMτMττ>τMq(M)M

हालाँकि, चूंकि हमारा गुणवत्ता माप कुछ यादृच्छिककरण प्रक्रिया से आता है, इसलिए यह परिवर्तनशीलता के साथ आता है। आइए यादृच्छिकरण रन के दौरान की गुणवत्ता की मानक त्रुटि को निरूपित करता है , उदाहरण के लिए, क्रॉस-सत्यापन रन ओवर के आउट-ऑफ-बैग भविष्यवाणी त्रुटि के मानक विचलन ।M Ms(M)MM

तब हम मॉडल चुनते हैं , जहां ऐसा सबसे छोटा है τ τMτττ

q(Mτ)q(Mτ)+s(Mτ),

जहाँ (औसतन) सर्वश्रेष्ठ मॉडल को अनुक्रमित करता है, ।τq(Mτ)=minτq(Mτ)

यही है, हम सबसे सरल मॉडल (सबसे छोटा τ ) चुनते हैं जो यादृच्छिकरण प्रक्रिया में सर्वश्रेष्ठ मॉडल M _ {\ tau '} से एक मानक त्रुटि से अधिक नहीं है Mτ

मुझे यह "एक मानक त्रुटि नियम" निम्नलिखित स्थानों में मिला है, लेकिन किसी भी स्पष्ट औचित्य के साथ कभी नहीं:


7
हालाँकि मुझे पता है कि आप "वन स्टैंडर्ड एरर रूल" का क्या जिक्र कर रहे हैं, मुझे बहुत संदेह है कि बहुत से लोग नहीं करेंगे, लेकिन अगर वे ऐसा करते हैं तो इस सवाल में दिलचस्पी लेंगे। शायद आप व्याख्यात्मक वाक्यों के एक जोड़े को जोड़ने के लिए संपादित कर सकते हैं? (बस एक सुझाव ...)
जुम्मन

2
@ जंबोमैन: मैंने केवल एक मानक त्रुटि नियम की व्याख्या करने के लिए प्रश्न को संपादित किया है, क्योंकि मैं भी इस में बहुत दिलचस्पी रखता हूं, और यह नीचे दिए गए उत्तर वास्तव में मेरे सवालों का जवाब नहीं देता। कोई भी, कृपया सुधार करने के लिए स्वतंत्र महसूस करें।
एस। कोलासा -


2
यह एक पेपर के लिए एक अच्छा विषय होगा। यह एक समझदार इंजीनियरिंग अनुमानी की तरह लगता है, लेकिन सभी एसईएच अभ्यास में काम नहीं करते हैं, इसलिए बड़ी संख्या में डेटासेट पर एक अध्ययन दिलचस्प होगा। मुझे आश्चर्य है कि अगर एक से अधिक परिकल्पना परीक्षण मुद्दा शामिल है, जिसका मतलब यह हो सकता है कि यह बहुत अच्छी तरह से कैलिब्रेटेड नहीं है, लेकिन मुझे लगता है कि यह डेटासेट पर कुछ भी नहीं करने से बेहतर होगा जहां इस तरह के अति-ट्यूनिंग होने की संभावना है संकट। सवाल यह है कि यह डेटासेट पर प्रदर्शन को बहुत खराब कर देता है जहां यह एक मुद्दा नहीं है?
डिक्रान मार्सुपियल

जवाबों:


12

निम्नलिखित एक अनुभवजन्य अध्ययन नहीं है, यही वजह है कि मैं मूल रूप से इसे टिप्पणी के रूप में पोस्ट करना चाहता था, जवाब नहीं - लेकिन यह वास्तव में एक टिप्पणी के लिए बहुत लंबा हो जाता है।

Cawley & Talbot ( J का मशीन लर्निंग रिसर्च , 2010) मॉडल चयन चरण के दौरान ओवरफिटिंग और मॉडल फिटिंग चरण के दौरान ओवरफिटिंग के बीच के अंतर पर ध्यान आकर्षित करता है।

ओवरफिटिंग का दूसरा प्रकार वह है जिससे सबसे अधिक लोग परिचित हैं: किसी विशेष मॉडल को देखते हुए , हम इसे ओवरफिट नहीं करना चाहते हैं, अर्थात, इसे उस एकल डेटा सेट के विशेष रूप से बहुत करीब से फिट करने के लिए, जो हमारे पास आमतौर पर है। ( यह वह जगह है जहाँ सिकुड़न / नियमितीकरण मदद कर सकता है, पूर्वाग्रह में एक बड़ी कमी के खिलाफ पूर्वाग्रह में एक छोटी सी वृद्धि का व्यापार करके। )

हालाँकि, Cawley & Talbot का तर्क है कि हम मॉडल चयन चरण के दौरान ही ओवरफिट कर सकते हैं। आखिरकार, हमारे पास अभी भी केवल एक ही डेटा सेट है, और हम अलग-अलग जटिलता के विभिन्न मॉडलों के बीच निर्णय ले रहे हैं। प्रत्येक उम्मीदवार मॉडल का मूल्यांकन करने के लिए एक का चयन करने के लिए आमतौर पर उस मॉडल को फिट करना शामिल होता है, जिसे नियमितीकरण का उपयोग करके किया जा सकता है या नहीं। लेकिन अपने आप में यह मूल्यांकन फिर से एक यादृच्छिक चर है, क्योंकि यह हमारे द्वारा निर्धारित विशिष्ट डेटा सेट पर निर्भर करता है। इसलिए "इष्टतम" मॉडल की हमारी पसंद अपने आप में एक पूर्वाग्रह प्रदर्शित कर सकती है, और एक विचरण प्रदर्शित करेगी , जैसा कि हम सभी डेटा सेटों से प्राप्त विशिष्ट डेटा के आधार पर कर सकते हैं जो हम आबादी से खींच सकते हैं।

इसलिए Cawley & Talbot का तर्क है कि इस मूल्यांकन में सबसे अच्छा प्रदर्शन करने वाले मॉडल को चुनना छोटे पूर्वाग्रह के साथ अच्छी तरह से चयन नियम हो सकता है - लेकिन यह बड़े विचरण को प्रदर्शित कर सकता है। अर्थात्, एक ही डेटा जनरेटिंग प्रक्रिया (DGP) से अलग-अलग प्रशिक्षण डेटासेट दिए जाते हैं, यह नियम बहुत भिन्न मॉडल का चयन कर सकता है, जिसे बाद में फिट किया जाएगा और नए डेटासेट में भविष्यवाणी करने के लिए उपयोग किया जाएगा जो फिर से उसी DGP का पालन करते हैं। इस प्रकाश में, मॉडल चयन प्रक्रिया के विचरण को प्रतिबंधित करना लेकिन सरल मॉडल के प्रति एक छोटे पूर्वाग्रह को उकसाना छोटे आउट-ऑफ-सैंपल त्रुटियों को उत्पन्न कर सकता है।

Cawley और टैलबोट इसे स्पष्ट रूप से एक मानक त्रुटि नियम से नहीं जोड़ते हैं, और "मॉडल चयन को नियमित करने" पर उनका अनुभाग बहुत छोटा है। हालाँकि, एक मानक त्रुटि नियम वास्तव में यह नियमितीकरण करेगा, और मॉडल चयन में भिन्नता और आउट-ऑफ-बैग क्रॉस-सत्यापन त्रुटि के प्रसरण के बीच संबंध को ध्यान में रखेगा।

उदाहरण के लिए, हस्ती , टिबशिरानी और वेनराइट (2015) द्वारा स्पार्सिटी के साथ सांख्यिकीय सीखना से नीचे चित्रा 2.3 है । मॉडल का चयन विचरण ब्लैक लाइन के उत्तलता द्वारा दिया जाता है। यहां, न्यूनतम बहुत स्पष्ट नहीं है, और रेखा बल्कि कमजोर रूप से उत्तल है, इसलिए मॉडल चयन संभवतः एक उच्च विचरण के साथ अनिश्चित है। और OOB CV त्रुटि अनुमान का भिन्नता निश्चित रूप से मानक त्रुटियों को इंगित करने वाली कई हल्की नीली रेखाओं द्वारा दिया गया है।

एक मानक त्रुटि नियम


1
Haha, इस खोज का प्रयास करें (या अपनी क्वेरी में एक हाइफ़न डालें)।
अमीबा का कहना है कि मोनिका

2
यदि आपके पास केवल एक नियमितीकरण पैरामीटर है, तो उस प्रकार की ओवर-फिटिंग बहुत अधिक समस्याग्रस्त नहीं होती है (क्योंकि अनुकूलन समस्या में केवल एक डिग्री की स्वतंत्रता है), लेकिन अगर आपके पास कई नियमितीकरण पैरामीटर हैं (जैसे तंत्रिका जाल के लिए स्वचालित प्रासंगिकता निर्धारण) तो यह जल्दी से समाप्त हो सकता है बहुत महत्वपूर्ण है।
रेगुलराइजेशन

1
हम (श्रीमती मार्सुपियल और I) ने जिन दो तरीकों की जांच की है, वह हाइपर-हाइपर-पैरामीटर के साथ हाइपर-मापदंडों को नियमित करना है जो विश्लेषणात्मक रूप से एकीकृत है ( jmlr.csail.mit.edu/papers/volley8/cawley07a/cawley07a.pdf ) या कुछ अति-मापदंडों को मापदंडों में परिवर्तित करने के लिए और उन्हें डेटा के साथ सीधे फिट करने के लिए, एक अतिरिक्त नियमितीकरण पैरामीटर जोड़ने की कीमत पर (लेकिन फिर भी मॉडल चयन के लिए स्वतंत्रता की डिग्री कम कर देता है, इसलिए यह अभी भी मदद करता है) ( Theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)
डिक्रान मार्सुपियल

1
संयोग से, मॉडल चयन में ओवर-फिटिंग मॉडल ओवर-फिटिंग या प्रशिक्षण सेट को अंडर-फिटिंग कर सकती है, जिससे समस्या का निदान करने के लिए थोड़ा और मुश्किल हो सकता है। एक बायेसियन परिप्रेक्ष्य से, सबसे अच्छी बात यह है कि ऑप्टिमाइज़ करना नहीं है, लेकिन ओवर को हाशिए पर , लेकिन यह कम्प्यूटेशनल रूप से महंगा या मुश्किल या दोनों है। 1sd नियम का एक बड़ा लाभ यह है कि यह उस स्पेक्ट्रम के दूसरे छोर पर है, और एक इंजीनियर होने के नाते, मुझे ऐसी चीजें पसंद हैं जो काम करती हैं; ओ) (3/2)λ
डिक्रान मार्सुपियल

1
@DikranMarsupial का उल्लेख करने वाले विषय-लंबा-बनाम-सीमांत-अति-लंबोदर विषय के बारे में एक धागा है, आँकड़े ।stackexhange.com/questions/24799 । यह चर्चा रिज रिग्रेशन के बारे में है, और हाशिए / लोचदार नेट / आदि के लिए सीमांतकारी शायद (?) है, जबकि सीवी की सुंदरता यह है कि इसे लागू करना इतना आसान है।
अमीबा का कहना है 15-13 पर मोनिका

12

अनुभवजन्य औचित्य के लिए, इन तिब्शीरानी डेटा-माइनिंग कोर्स नोट्स पर पृष्ठ 12 पर एक नज़र डालें , जो एक विशेष मॉडलिंग समस्या के लिए लैम्ब्डा के कार्य के रूप में सीवी त्रुटि को दर्शाता है। सुझाव से ऐसा प्रतीत होता है कि एक निश्चित मूल्य से नीचे, सभी लंबोदर एक ही सीवी त्रुटि के बारे में देते हैं। यह समझ में आता है, क्योंकि रिज प्रतिगमन के विपरीत, LASSO का उपयोग आमतौर पर केवल, या यहां तक ​​कि प्राथमिक रूप से, भविष्यवाणी सटीकता में सुधार करने के लिए नहीं किया जाता है। इसका मुख्य विक्रय बिंदु यह है कि यह कम से कम प्रासंगिक / मूल्यवान भविष्यवक्ताओं को समाप्त करके मॉडल को सरल और अधिक व्याख्यात्मक बनाता है।

अब, एक मानक त्रुटि नियम को समझने के लिए, के मॉडल के परिवार हम अलग से मिलता है के बारे में सोचते हैं । तिब्शीरानी का आंकड़ा हमें बता रहा है कि हमारे पास मध्यम से उच्च जटिलता वाले मॉडल का एक गुच्छा है जो भविष्यवाणियां सटीकता में समान हैं, और कम-जटिलता मॉडल का एक गुच्छा है जो भविष्यवाणी में अच्छा नहीं है। हमें क्या चुनना चाहिए? ठीक है, अगर हम का उपयोग कर रहे हैं, तो हम शायद एक पारसी मॉडल में रुचि रखते हैं, इसलिए हम संभवत: सरलतम मॉडल को प्राथमिकता देंगे जो हमारे डेटा को यथोचित रूप से अच्छी तरह से , । तो कैसे सबसे कम जटिलता मॉडल के बारे में है कि "के बारे में अच्छा है" उन सभी उच्च जटिलता मॉडल के रूप में? और "के रूप में अच्छे के बारे में" मापने का एक अच्छा तरीका क्या है? एक मानक त्रुटि।λL1


1
मुझे इस उत्तर का तर्क नहीं मिलता। उदाहरण: "रिज प्रतिगमन के विपरीत, LASSO भविष्यवाणी सटीकता में सुधार के लिए एक तंत्र नहीं है" - क्यों? L1 L2 से इतना अलग क्यों है? अगले वाक्य में आप वर्णन करते हैं कि निम्न लैम्ब्डा के लिए L1 के साथ क्या होता है, लेकिन मुझे लगता है कि कम लैम्ब्डा के लिए L2 के साथ भी वही चीजें होती हैं।
अमीबा का कहना है कि मोनिका

1
ध्यान दें कि यह एक व्याख्यात्मक स्पष्टीकरण है और कुछ अस्थिर धारणाओं पर निर्भर करता है, जैसे सभी भविष्यवक्ता सूचनात्मक होते हैं। यदि आपके पास एक टन का शोर पूर्वसूचक है और कुछ सूचनात्मक हैं, तो वास्तव में लंबोदर का एक मूल्य हो सकता है जो स्पष्ट रूप से और स्पष्ट रूप से सीवी मीट्रिक का अनुकूलन करता है: वह जो सूचनात्मक भविष्यवाणियों के सबसेट का चयन करने से मेल खाती है। जैसा कि लैम्ब्डा उस मूल्य से कम हो जाता है, आप मॉडल में शोर कर रहे हैं और चोट पहुँचा रहे हैं।
पॉल

1
मुझे लगता है कि तर्क रिज और लासो के लिए समान रूप से अच्छी तरह से काम करता है, यदि आप पार्सिमनी की एक व्यापक परिभाषा का उपयोग करते हैं जिसमें अधिक नियमितीकरण -> सरल मॉडल। हालाँकि, L2 की तुलना में L2 के लिए प्रेरित करना आसान है क्योंकि विभिन्न प्रकार की समस्याओं और डेटासेट के कारण उनका उपयोग किया जाता है। जो लोग L1 का उपयोग करते हैं, वे एक सरल मॉडल होने में अधिक रुचि रखते हैं, और वे तिब्शीरानी द्वारा प्रदर्शित सीवी त्रुटि वक्र के प्रकार का सामना करने की अधिक संभावना रखते हैं।
पॉल

1
क्लासिक ईएसएल पाठ से, पी। 224: "अक्सर" एक-मानक त्रुटि "नियम का उपयोग क्रॉस-वेलिडेशन के साथ किया जाता है, जिसमें हम सबसे पारसी मॉडल चुनते हैं, जिसकी त्रुटि सर्वश्रेष्ठ मॉडल की त्रुटि के ऊपर एक मानक त्रुटि से अधिक नहीं है।" जो उदाहरण दिया गया है वह सबसेट प्रतिगमन है और एक घुटने के आकार का वक्र बनाम भविष्यवक्ताओं की संख्या दर्शाई गई है। वक्र भविष्यवक्ताओं के # सही के ऊपर सपाट है, जो फिर से मेरे द्वारा दिए गए स्पष्टीकरण के अनुरूप है। किसी भी कठोर या गणितीय औचित्य का उल्लेख नहीं किया गया है।
पॉल

1
इसलिए मुझे लगता है कि यहां मुख्य मुद्दा यह है कि न्यूनतम खराब निर्धारित है, लेकिन न्यूनतम के एक सिग्मा के भीतर सबसे नियमित मॉडल अच्छी तरह से परिभाषित है।
पॉल

1

लास्सो अनुमानक द्वारा चुने गए चर की संख्या एक दंड मान द्वारा तय की जाती है । बड़ा , छोटा चयनित चर का सेट है। Let पेनल्टी रूप में चयनित चर का सेट हो । λλS^(λ)λ

चलो दंड पार सत्यापन समारोह की न्यूनतम का उपयोग कर चयन किया हो। यह साबित हो सकता है कि । जहाँ उन चरों का समूह है जो वास्तव में गैर 0. हैं (सही चर का सेट क्रास-वैल्यूएशन के न्यूनतम के रूप में उपयोग किए जाने वाले सेट में कड़ाई से अनुमानित सामग्री है।)λP(S0S^(λ))1S0

Bühlmann और van de Geer द्वारा उच्च आयामी डेटा के लिए सांख्यिकी में यह बताया जाना चाहिए ।

दंड मान अक्सर क्रॉस-सत्यापन के माध्यम से चुना जाता है; इसका मतलब है कि उच्च संभावना के साथ कई चर भी चुने गए हैं। चयनित चर की संख्या को कम करने के लिए एक मानक त्रुटि नियम का उपयोग करके जुर्माना थोड़ा बढ़ा दिया जाता है।λ


1
क्या आप यहां कुछ और विस्तार में जा सकते हैं? यह आकर्षक लगता है।
डेविडशोर

1
इसका अर्थ है कि उच्च संभावना के साथ बहुत अधिक चर का चयन किया जाता है। - मेरे लिए यह स्पष्ट नहीं है कि क्यों, और क्यों उच्च संभावना के साथ बहुत कम चर का चयन नहीं किया जा सकता है। आखिरकार, क्रॉस- वैलिड सिलेक्शन को \ _ का एक अनुमान देना चाहिए जिसमें थोड़ा पूर्वाग्रह है, लेकिन शायद उच्च विचरण है, जैसा कि स्टीफन कोलासा द्वारा उत्तर में दिया गया है। λ
रिचर्ड हार्डी

मुझे लगता है कि तथ्य यह है कि आवश्यकता से अधिक चर का चयन करने से पर्याप्त चर नहीं चुनने की तुलना में भविष्यवाणी का प्रदर्शन कम हो जाएगा। इस कारण से CV अधिक चर का चयन करता है।
डोनाबे

एक इस पुस्तक पर नजर है springer.com/gp/book/9783642201912 और लैसो अध्याय यहाँ के drive.google.com/open?id=0B3FIuCA5bZUaT2ZLWFBIZ1JYbHM
Donbeo

यह वह पुस्तक है जिसका मैंने मतलब है
डोनाबे
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.