मैं @ AmiTavory की राय के साथ-साथ सांख्यिकीय शिक्षा के तत्वों के साथ इस प्रश्न में भिन्नता रखता हूं।
बहुत कम नमूना आकारों के साथ एक लागू क्षेत्र से आ रहा है, मेरे पास अनुभव है कि पूर्व-प्रसंस्करण चरणों में भी अनपेक्षित रूप से गंभीर पूर्वाग्रह हो सकते हैं।
मेरे क्षेत्र में एक क्लासीफायर प्रशिक्षण से पहले आयामीता में कमी के लिए पीसीए सबसे अधिक बार होगा। जब मैं यहां डेटा नहीं दिखा सकता, तो मैंने पीसीए + (क्रॉस वैरिफाइड एलडीए) बनाम क्रॉस वैरिफाइड (पीसीए + एलडीए) को देखा है, जो कि परिमाण के क्रम के अनुसार त्रुटि दर को कम करके आंकता है । (यह आमतौर पर एक संकेतक है कि पीसीए स्थिर नहीं है।)
तत्वों के "अनुचित लाभ" के तर्क के रूप में, यदि परीक्षण + परीक्षण मामलों के विचरण की जांच की जाती है, तो हम उन विशेषताओं के साथ समाप्त होते हैं जो प्रशिक्षण और परीक्षण दोनों मामलों में अच्छी तरह से काम करते हैं। इस प्रकार, हम यहां एक स्व-पूर्ति भविष्यवाणी बनाते हैं जो कि ओवरोप्टिमिस्टिक पूर्वाग्रह का कारण है। यह पूर्वाग्रह कम है अगर आपके पास काफी आरामदायक नमूना आकार हैं।
इसलिए मैं एक दृष्टिकोण की सिफारिश करता हूं जो तत्वों की तुलना में थोड़ा अधिक रूढ़िवादी है:
- प्रीप्रोसेसिंग गणना जो एक से अधिक मामलों पर विचार करती है, को सत्यापन में शामिल करने की आवश्यकता होती है: अर्थात वे संबंधित प्रशिक्षण सेट पर ही गणना की जाती हैं (और फिर परीक्षण डेटा पर लागू होती हैं)
- चरण हैं, जो अपने दम पर प्रत्येक मामले पर विचार preprocessing (मैं spectroscopist हूँ: उदाहरण आधारभूत सुधार और तीव्रता सामान्य है, जो एक पंक्ति-वार सामान्य है होगा) के रूप में वे कर रहे हैं जब तक पार सत्यापन के बाहर निकाला जा सकता है इससे पहले कि पहला कदम है कि कई मामलों के लिए गणना करता है।
यह कहा जा रहा है, एक उचित सत्यापन अध्ययन करने के लिए भी क्रॉस वैल्यूएशन केवल एक शॉर्ट-कट है। इस प्रकार, आप व्यावहारिकता के साथ बहस कर सकते हैं:
आप जांच सकते हैं कि प्रश्न में पूर्व-प्रसंस्करण स्थिर परिणाम देता है (आप क्रॉस सत्यापन द्वारा जैसे कि कर सकते हैं)। यदि आप इसे पहले से ही कम नमूना आकारों के साथ पूरी तरह से स्थिर पाते हैं, तो IMHO का तर्क हो सकता है कि इसे क्रॉस सत्यापन से बाहर निकालकर ज्यादा पूर्वाग्रह नहीं पेश किया जाएगा।
हालांकि, पिछले पर्यवेक्षक का हवाला देते हुए: गणना समय कोई वैज्ञानिक तर्क नहीं है।
मैं अक्सर सभी सत्यापन (परिणामों के सारांश / ग्राफ़ सहित) सुनिश्चित करने के लिए कुछ सिलवटों और क्रॉस पुनरावृत्ति के लिए "चुपके पूर्वावलोकन" के लिए जाता हूं और फिर इसे रात या सप्ताहांत पर या सर्वर पर छोड़ देता हूं अधिक महीन दाने वाला क्रॉस वेलिडेशन।