क्रॉस-सत्यापन से पहले सामान्यीकरण


17

क्या बार-बार के-फोल्ड क्रॉस-सत्यापन करने से पहले डेटा को सामान्य करना (शून्य माध्य और एकता मानक विचलन करना) ओवरफिटिंग जैसी कोई नकारात्मक जीत है?

नोट: यह ऐसी स्थिति के लिए है जहां # मामलों> कुल #features

मैं अपने कुछ डेटा को लॉग ट्रांसफ़ॉर्म का उपयोग करके बदल रहा हूं, फिर ऊपर के सभी डेटा को सामान्य कर रहा हूं। मैं तब फीचर चयन कर रहा हूं। अगला मैं चयनित सुविधाओं को लागू करता हूं और सामान्यीकृत क्लासिफायर प्रदर्शन की कोशिश करने और अनुमान लगाने के लिए 10-गुना क्रॉस-सत्यापन के लिए सामान्य डेटा को लागू करता हूं और चिंतित हूं कि सामान्य करने के लिए सभी डेटा का उपयोग करना उचित नहीं हो सकता है। क्या मुझे उस तह के लिए प्रशिक्षण डेटा से प्राप्त डेटा को सामान्य बनाने का उपयोग करके प्रत्येक गुना के लिए परीक्षण डेटा को सामान्य करना चाहिए?

किसी भी राय कृतज्ञता प्राप्त! माफी अगर यह सवाल स्पष्ट लगता है।

संपादित करें: यह परीक्षण करने पर (नीचे दिए गए सुझावों के अनुरूप) मैंने पाया कि सीवी से पहले के सामान्यीकरण की तुलना में सीवी के भीतर सामान्यीकरण की तुलना में अधिक अंतर प्रदर्शन-वार नहीं हुआ।

जवाबों:


14

अपने मुख्य प्रश्न का उत्तर देने के लिए, यह सीवी के भीतर पैमाने पर इष्टतम और अधिक उपयुक्त होगा। लेकिन यह शायद ज्यादा मायने नहीं रखेगा और व्यवहार में यह महत्वपूर्ण नहीं हो सकता है यदि आपका क्लासिफायर डेटा को बचाता है, जो कि अधिकांश करते हैं (कम से कम आर में)।

हालांकि, क्रॉस वैरिफिकेशन से पहले फीचर का चयन करना BIG NO है और इससे ओवरफिटिंग हो जाएगी, क्योंकि आप उन्हें पूरे डेटा सेट पर प्रदर्शन के आधार पर चुनेंगे। लॉग-ट्रांसफॉर्मेशन बाहर करना ठीक है, क्योंकि ट्रांसफॉर्मेशन वास्तविक डेटा (डेटा के प्रकार पर अधिक) पर निर्भर नहीं करता है और ऐसा कुछ नहीं है जो आप नहीं करेंगे यदि आपके पास 100% के बजाय केवल 90% डेटा हो और डेटा के अनुसार ट्विक नहीं किया गया है।

आपकी टिप्पणी का जवाब देने के लिए, जाहिर है कि क्या इसका परिणाम ओवरफिटिंग होगा, यह आपके चयन के तरीके पर निर्भर करेगा। यदि आप उन्हें संयोग से चुनते हैं (तो आप ऐसा क्यों करेंगे?) या एक प्राथमिक सैद्धांतिक विचारों (अन्य साहित्य) के कारण यह कोई फर्क नहीं पड़ेगा। लेकिन अगर यह आपके डेटा सेट पर निर्भर करता है तो यह होगा। सांख्यिकीय सीखने के तत्वों की एक अच्छी व्याख्या है। आप स्वतंत्र रूप से और कानूनी तौर पर एक .pdf यहाँ डाउनलोड कर सकते हैं http://www-stat.stanford.edu/~tibs/ElemStatLearn/

आपके संबंध में बिंदु पांचवें मुद्रण के पृष्ठ 245 पर खंड 7.10.2 में है। इसका शीर्षक है "गलत और सही तरीके से करने के लिए क्रॉस-मान्यता"।


धन्यवाद - निश्चित रूप से यदि केवल रिपोर्ट किए गए परिणाम प्रदर्शन के लिए हैं जो प्रत्येक गुना में चयनित मॉडल (सुविधाओं) का उपयोग करके प्राप्त किए गए हैं, तो इसका परिणाम ओवरफिटिंग में नहीं हो सकता है? बाद में आप केवल दिए गए फ़ीचर के सामान्यीकृत प्रदर्शन की रिपोर्ट कर रहे हैं।
बीजीरीन

मैंने आपकी टिप्पणी को स्वीकार करने के लिए अपने उत्तर का विस्तार किया। मुझे लगता है कि लिंक में स्पष्टीकरण मैं अभी क्या पका सकता हूं, उससे बेहतर है।
एरिक

धन्यवाद। इससे पता चलता है कि मानक फ़िल्टर आधारित सुविधा चयन का उपयोग कभी नहीं किया जाना चाहिए और इसके बजाय रैपर आधारित सुविधा चयन या समकक्ष का उपयोग किया जाना चाहिए। क्या यह अभी भी उस स्थिति के लिए सही है जहाँ # मामलों> # सुविधाएँ? (मेरे पास 259 मामले हैं, कुल 56 सुविधाएँ)। मुझे लगता है कि त्रुटि की संभावना यहाँ कम है?
बीग्रीन

5

क्रॉस-मान्यता को एक सांख्यिकीय प्रक्रिया के प्रदर्शन का अनुमान लगाने के लिए एक विधि के रूप में देखा जाता है, न कि एक सांख्यिकीय मॉडल के बजाय। इस प्रकार एक निष्पक्ष प्रदर्शन अनुमान प्राप्त करने के लिए, आपको क्रॉस-सत्यापन के प्रत्येक तह में उस प्रक्रिया के प्रत्येक तत्व को अलग से दोहराने की आवश्यकता होती है , जिसमें सामान्यीकरण शामिल होगा। तो मैं कहूंगा कि प्रत्येक गुना में सामान्यीकरण करें।

केवल यही समय आवश्यक नहीं होगा यदि सांख्यिकीय प्रक्रिया डेटा के स्केलिंग और औसत मूल्य के लिए पूरी तरह से असंवेदनशील थी।


मुझे लगता है कि यह एक अच्छा जवाब है, हालांकि यह कठोर नहीं है, इसे बिंदु पार मिलता है। मुझे लगता है कि अर्थ यह है कि यदि आप प्रत्येक गुना में सामान्य करते हैं, तो यह गारंटी दी जाती है कि सामान्यीकरण प्रदर्शन को पूर्वाग्रह नहीं करता है। जिस तरह से लिखा गया था उससे लगता था कि पूर्वाग्रह से बचने का कोई और तरीका नहीं था, हालांकि डिक्रान ने आखिरी पंक्ति में बताया कि अन्य तरीके हैं। यदि आप सीवी के अंदर सामान्यीकरण करते हैं, तो यह कभी भी पूर्वाग्रह नहीं बढ़ाता है, जैसा कि इसे बाहर करने के विपरीत है, जो हो सकता है। वैसे भी पूर्वाग्रह ज्यादा प्रभावित नहीं कर सकता, जैसा कि अन्य उत्तर में बताया गया है।
टॉम एंडरसन

1

मुझे लगता है कि यदि सामान्यीकरण में केवल दो पैरामीटर शामिल हैं और आपके पास एक अच्छा आकार का नमूना है जो एक समस्या नहीं होगी। मैं परिवर्तन और परिवर्तनशील चयन प्रक्रिया के बारे में अधिक चिंतित हूँ। 10 गुना क्रॉस-वैरिफिकेशन से लगता है कि आज राग है। क्या कोई भी बूटस्ट्रैप का उपयोग 632 या 632+ क्लासिफायर त्रुटि दर के आकलन के लिए नहीं करता है जैसा कि जेएएसए में एफ्रॉन (1983) ने पहले सुझाया था और बाद में 632+ के साथ एफ्रॉन और टिब्शिरानी ने एक पेपर में इसका अनुसरण किया?


0

मुझे व्यक्तिगत रूप से .632 विधि पसंद है। जो मूल रूप से प्रतिस्थापन के साथ बढ़ावा दे रहा है। यदि आप ऐसा करते हैं और डुप्लिकेट को हटाते हैं, तो आपको 1000 के इनपुट सेट से 632 प्रविष्टियां मिलेंगी।


632 अनुमानक आपके कहे से अलग है। यह वास्तव में दो त्रुटि दर अनुमानकर्ताओं का एक रैखिक संयोजन है जो बूटस्ट्रैप के लिए वजन 0.632 देता है0अनुमानक और 0.368 स्पष्ट त्रुटि दर (पुनर्जीवन अनुमान भी कहा जाता है)।
माइकल आर। चेरिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.