क्या मुझे अपना डेटा फेरबदल करना चाहिए?


9

हमारे पास एक सेट जैविक नमूने हैं जिन्हें प्राप्त करना बहुत महंगा था। हमने इन नमूनों को परीक्षणों की एक श्रृंखला के माध्यम से डेटा उत्पन्न करने के लिए रखा है जो एक पूर्वानुमान मॉडल के निर्माण के लिए उपयोग किए जाते हैं। इस उद्देश्य के लिए हमने नमूनों को प्रशिक्षण (70%) और परीक्षण (30%) सेट में विभाजित किया है। हमने सफलतापूर्वक एक मॉडल बनाया है और परीक्षण सेट पर यह पता लगाने के लिए लागू किया है कि प्रदर्शन "इष्टतम से कम" था। एक बेहतर मॉडल बनाने के लिए प्रायोगिक विशेषज्ञ अब जैविक परीक्षणों में सुधार करना चाहते हैं। बशर्ते कि हम नए नमूने प्राप्त नहीं कर सकते, क्या आप हमें नए प्रशिक्षण और सत्यापन सेट बनाने या मूल विभाजन के साथ चिपकाने के लिए नमूनों को फिर से फेरबदल करने का सुझाव देंगे। (हमारे पास कोई संकेत नहीं है कि विभाजन एक समस्याग्रस्त था)।


1
आपने डेटा कैसे विभाजित किया? बेतरतीब ढंग से, हाथ से, या कोई और तरीका? हालांकि, सच में, "सफलतापूर्वक एक मॉडल बनाया गया" का हिस्सा इस मुद्दे का एक बड़ा हिस्सा है। महंगी चीजों को करने से पहले, आपको यह देखना चाहिए कि क्या आप उचित प्रकार के मॉडल का उपयोग कर रहे हैं, यदि आपने अपने प्रशिक्षण डेटा को ओवरफिट किया है, और यदि आपके पास भविष्यवाणी करने की कोशिश कर रहे हैं, तो आपके पास उपयुक्त डेटा है।
वेन

BTW, मैं "सफलतापूर्वक एक मॉडल बनाया" से पहले
cynicism

जवाबों:


12

जैसा कि आप पहले से ही एक होल्डअप नमूने का उपयोग करते हैं, मैं कहूंगा कि आपको इसे रखना चाहिए और एक ही प्रशिक्षण नमूने पर अपने नए मॉडल का निर्माण करना चाहिए ताकि सभी मॉडल सुविधाओं के बीच समान संबंधों पर विचार करें। इसके अलावा, यदि आप फीचर का चयन करते हैं, तो नमूनों को इनमें से किसी भी फ़िल्टरिंग चरण से पहले छोड़ दिया जाना चाहिए; अर्थात्, सुविधा चयन को क्रॉस-वेलिडेशन लूप में शामिल किया जाना चाहिए।

ध्यान दें, मॉडल चयन के लिए 0.67 / 0.33 विभाजन की तुलना में अधिक शक्तिशाली विधियां हैं, अर्थात् k- गुना क्रॉस-सत्यापन या अवकाश-एक-आउट। उदाहरण के लिए देखें सांख्यिकीय शिक्षण के तत्व (§7.10, पीपी। 241-248), www.modelselection.org या अरलोट और सेलिस द्वारा मॉडल चयन के लिए क्रॉस-सत्यापन प्रक्रियाओं का सर्वेक्षण (अधिक उन्नत गणितीय पृष्ठभूमि आवश्यक)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.