क्या क्रॉस-वेलिडेशन से पहले असुरक्षित रूप से चयन करना वास्तव में ठीक है?


9

में सांख्यिकीय लर्निंग के तत्वों , मैं निम्नलिखित बयान मिल गया है:

एक योग्यता है: नमूनों को छोड़ दिए जाने से पहले प्रारंभिक अनचाहे स्क्रीनिंग चरण किए जा सकते हैं। उदाहरण के लिए, हम क्रॉस-सत्यापन शुरू करने से पहले, सभी 50 नमूनों में उच्चतम विचरण वाले 1000 भविष्यवाणियों का चयन कर सकते हैं। चूंकि इस फ़िल्टरिंग में क्लास लेबल शामिल नहीं हैं, यह भविष्यवाणियों को अनुचित लाभ नहीं देता है।

क्या यह वास्तव में वैध है? मेरा मतलब है, पहले से ही विशेषताओं को फ़िल्टर करके, हम प्रशिक्षण डेटा / नए डेटा वातावरण की नकल नहीं कर रहे हैं - तो क्या यह मामला है कि हम जो फ़िल्टर कर रहे हैं, उसकी निगरानी नहीं की जाती है? क्या वास्तव में क्रॉस-वेलिडेशन प्रक्रिया के भीतर सभी प्रीप्रोसेसिंग चरण करना बेहतर नहीं है ? अगर ऐसा नहीं है, तो इसका मतलब है कि सभी अनचाहे प्रीप्रोसेसिंग पहले से ही किए जा सकते हैं, जिसमें फीचर सामान्यीकरण / पीसीए आदि शामिल हैं, लेकिन पूरे प्रशिक्षण सेट पर ऐसा करने से, हम वास्तव में कुछ डेटा को प्रशिक्षण सेट पर लीक कर रहे हैं। मैं इस बात से सहमत हो सकता हूं कि अपेक्षाकृत स्थिर डेटासेट के साथ, इन अंतरों की संभावना बहुत कम होनी चाहिए - लेकिन इसका मतलब यह नहीं है कि वे मौजूद नहीं हैं, है ना? इस बारे में सोचने का सही तरीका क्या है?

जवाबों:


2

क्रॉस सत्यापन से पहले किए गए चरण के रूप में, असुरक्षित सुविधा का चयन सुविधा के सामान्यीकरण के समान है:

  1. क्रॉस सत्यापन में एक विशिष्ट तह के दृष्टिकोण से, ट्रेन डेटा परीक्षण डेटा (केवल स्वतंत्र चर में यद्यपि) पर झांकता है।

  2. यह झांकना अपेक्षाकृत हल्का होता है।

इस प्रश्न में क्रॉस सत्यापन से पहले सुविधा सामान्यीकरण पर चर्चा की गई थी । डिक्रान मार्सुपियल द्वारा वहां उत्तर का हवाला देते हुए

क्रॉस-मान्यता को एक सांख्यिकीय मॉडल के बजाय सांख्यिकीय प्रक्रिया के प्रदर्शन का अनुमान लगाने के लिए एक विधि के रूप में देखा जाता है। इस प्रकार एक निष्पक्ष प्रदर्शन अनुमान प्राप्त करने के लिए, आपको क्रॉस-मान्यता के प्रत्येक तह में उस प्रक्रिया के प्रत्येक तत्व को अलग से दोहराना होगा, जिसमें सामान्यीकरण शामिल होगा।

इसलिए यदि आप संसाधनों को छोड़ सकते हैं, तो सबसे अच्छी बात यह होगी कि प्रत्येक क्रॉस-वेलिडेशन फोल्ड किसी भी डेटा-निर्भर प्रसंस्करण को खरोंच से कर देगा।

हालाँकि, उस प्रश्न के उत्तर के रूप में, व्यवहार में, आदेश को उलटने से शायद चीजें बहुत ज्यादा नहीं बदलेंगी। निश्चित रूप से पर्याप्त अनुचित लाभ नहीं है कि निर्भर सुविधा चयन प्रदर्शित करता है। IMHO, कि सांख्यिकीय लर्निंग के तत्वों की बोली की व्याख्या है ।y


खैर, यह मूल रूप से मेरे विचारों के साथ मेल खाता है, और यहां अंतिम वाक्य वास्तव में मेरे प्रश्न का संक्षिप्त उत्तर है। धन्यवाद, मैं इसे एक स्वीकृत उत्तर दूंगा।
मटक

1
प्रभाव छोटा हो सकता है, लेकिन यह उतना छोटा नहीं हो सकता है । जैसा कि आप कहते हैं, यह सीवी से पहले अपने स्वतंत्र चर को पूर्व-स्केल करने जैसा है, जो "भविष्य" (परीक्षण डेटा) का उपयोग "वर्तमान" (प्रशिक्षण डेटा) पैमाने पर करने में मदद करेगा, जो वास्तविक दुनिया में नहीं होगा। यदि आपके पास रैंडम फोल्ड्स हैं (समय श्रृंखला, स्तरीकरण आदि का उपयोग नहीं करते हैं) तो इसका प्रभाव कम होता है, लेकिन ट्रेन / टेस्ट बैरियर और सभी को क्यों तोड़ते हैं?
वेन

@Wayne मैं आपसे निश्चित रूप से सहमत हूं कि जब भी संभव हो, ट्रेन / परीक्षण अवरोध को तोड़ना सबसे अच्छा है। व्यक्तिगत रूप से, मैंने कभी भी वास्तविक दुनिया के मामलों का सामना नहीं किया है, जहां इससे अंतर हुआ (wrt unsupervised FS और / या सामान्यीकरण), लेकिन मुझे ऐसे मामलों का सामना करना पड़ा है, जहां "चयन" करने के लिए "सही तरीका" (यानी प्रत्येक के भीतर) करने के लिए यह बिल्कुल असंभव था तह)। हालाँकि, मैं आपके ठीक उत्तर (जो मैं बड़ा हो रहा हूं) से देखता हूं कि आपने विपरीत मामले का सामना किया है, इसलिए स्पष्ट रूप से दोनों परिदृश्य मौजूद हैं।
अमी टावरी

मुझे यकीन नहीं है कि मैंने सीवी परिणाम का सामना किया है, जहां सामान्यीकरण में भी अंतर था, जो कि मैं आमतौर पर 10-गुना सीवी करने का मतलब है, जिसका मतलब है कि परीक्षण गुना केवल 10% है, जो इसके प्रभाव को छोटा करता है। मैंने 67/33 या 75/25 गैर-सीवी विभाजन जैसी किसी चीज के साथ अंतर देखा है।
वेन

9

मैं @ AmiTavory की राय के साथ-साथ सांख्यिकीय शिक्षा के तत्वों के साथ इस प्रश्न में भिन्नता रखता हूं।

बहुत कम नमूना आकारों के साथ एक लागू क्षेत्र से आ रहा है, मेरे पास अनुभव है कि पूर्व-प्रसंस्करण चरणों में भी अनपेक्षित रूप से गंभीर पूर्वाग्रह हो सकते हैं।

मेरे क्षेत्र में एक क्लासीफायर प्रशिक्षण से पहले आयामीता में कमी के लिए पीसीए सबसे अधिक बार होगा। जब मैं यहां डेटा नहीं दिखा सकता, तो मैंने पीसीए + (क्रॉस वैरिफाइड एलडीए) बनाम क्रॉस वैरिफाइड (पीसीए + एलडीए) को देखा है, जो कि परिमाण के क्रम के अनुसार त्रुटि दर को कम करके आंकता है । (यह आमतौर पर एक संकेतक है कि पीसीए स्थिर नहीं है।)

तत्वों के "अनुचित लाभ" के तर्क के रूप में, यदि परीक्षण + परीक्षण मामलों के विचरण की जांच की जाती है, तो हम उन विशेषताओं के साथ समाप्त होते हैं जो प्रशिक्षण और परीक्षण दोनों मामलों में अच्छी तरह से काम करते हैं। इस प्रकार, हम यहां एक स्व-पूर्ति भविष्यवाणी बनाते हैं जो कि ओवरोप्टिमिस्टिक पूर्वाग्रह का कारण है। यह पूर्वाग्रह कम है अगर आपके पास काफी आरामदायक नमूना आकार हैं।

इसलिए मैं एक दृष्टिकोण की सिफारिश करता हूं जो तत्वों की तुलना में थोड़ा अधिक रूढ़िवादी है:

  • प्रीप्रोसेसिंग गणना जो एक से अधिक मामलों पर विचार करती है, को सत्यापन में शामिल करने की आवश्यकता होती है: अर्थात वे संबंधित प्रशिक्षण सेट पर ही गणना की जाती हैं (और फिर परीक्षण डेटा पर लागू होती हैं)
  • चरण हैं, जो अपने दम पर प्रत्येक मामले पर विचार preprocessing (मैं spectroscopist हूँ: उदाहरण आधारभूत सुधार और तीव्रता सामान्य है, जो एक पंक्ति-वार सामान्य है होगा) के रूप में वे कर रहे हैं जब तक पार सत्यापन के बाहर निकाला जा सकता है इससे पहले कि पहला कदम है कि कई मामलों के लिए गणना करता है।

यह कहा जा रहा है, एक उचित सत्यापन अध्ययन करने के लिए भी क्रॉस वैल्यूएशन केवल एक शॉर्ट-कट है। इस प्रकार, आप व्यावहारिकता के साथ बहस कर सकते हैं:

  • आप जांच सकते हैं कि प्रश्न में पूर्व-प्रसंस्करण स्थिर परिणाम देता है (आप क्रॉस सत्यापन द्वारा जैसे कि कर सकते हैं)। यदि आप इसे पहले से ही कम नमूना आकारों के साथ पूरी तरह से स्थिर पाते हैं, तो IMHO का तर्क हो सकता है कि इसे क्रॉस सत्यापन से बाहर निकालकर ज्यादा पूर्वाग्रह नहीं पेश किया जाएगा।

  • हालांकि, पिछले पर्यवेक्षक का हवाला देते हुए: गणना समय कोई वैज्ञानिक तर्क नहीं है।
    मैं अक्सर सभी सत्यापन (परिणामों के सारांश / ग्राफ़ सहित) सुनिश्चित करने के लिए कुछ सिलवटों और क्रॉस पुनरावृत्ति के लिए "चुपके पूर्वावलोकन" के लिए जाता हूं और फिर इसे रात या सप्ताहांत पर या सर्वर पर छोड़ देता हूं अधिक महीन दाने वाला क्रॉस वेलिडेशन।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.