कंप्यूटर साइंस में मेरे 5 साल के अनुभव ने मुझे सिखाया कि सादगी से बेहतर कुछ भी नहीं है।
'ट्रेनिंग / क्रॉस-वैलिडेशन / टेस्ट' डेटा सेट की अवधारणा इस प्रकार सरल है। जब आपके पास एक बड़ा डेटा सेट होता है, तो इसे 3 भागों में विभाजित करने की अनुशंसा की जाती है:
++ प्रशिक्षण सेट (मूल डेटा सेट का 60%): यह हमारी भविष्यवाणी एल्गोरिथ्म का निर्माण करने के लिए उपयोग किया जाता है। हमारा एल्गोरिदम खुद को प्रशिक्षण डेटा सेट के quirks में ट्यून करने की कोशिश करता है। इस चरण में हम आमतौर पर क्रॉस-वैलिडेशन चरण के दौरान उनके प्रदर्शन की तुलना करने के लिए कई एल्गोरिदम बनाते हैं।
++ क्रॉस-वैलिडेशन सेट (मूल डेटा सेट का 20%): इस डेटा सेट का उपयोग प्रशिक्षण सेट के आधार पर बनाई गई भविष्यवाणी एल्गोरिदम के प्रदर्शन की तुलना करने के लिए किया जाता है। हम उस एल्गोरिथ्म को चुनते हैं जिसमें सबसे अच्छा प्रदर्शन है।
++ टेस्ट सेट (मूल डेटा सेट का 20%): अब हमने अपना पसंदीदा पूर्वानुमान एल्गोरिदम चुना है, लेकिन हम अभी तक यह नहीं जानते हैं कि यह वास्तविक दुनिया के डेटा को पूरी तरह से अनदेखा करने वाला है। इसलिए, हम अपने चुने हुए भविष्यवाणी एल्गोरिथ्म को अपने परीक्षण सेट पर लागू करते हैं ताकि यह देखा जा सके कि यह कैसा प्रदर्शन करने जा रहा है ताकि हम अनदेखे डेटा पर अपने एल्गोरिथ्म के प्रदर्शन के बारे में विचार कर सकें।
टिप्पणियाँ:
-यह ध्यान रखना बहुत महत्वपूर्ण है कि परीक्षण चरण को छोड़ना अनुशंसित नहीं है, क्योंकि क्रॉस-सत्यापन चरण के दौरान जो एल्गोरिथ्म अच्छा प्रदर्शन करता है, उसका वास्तव में मतलब नहीं है कि यह सही मायने में सबसे अच्छा है, क्योंकि एल्गोरिदम की तुलना क्रॉस के आधार पर की जाती है -वितरण सेट और उसके quirks और शोर ...
टेस्ट चरण को देखते हुए, उद्देश्य यह देखना है कि हमारा अंतिम मॉडल किस तरह से जंगली में निपटने जा रहा है, इसलिए यदि इसका प्रदर्शन बहुत खराब है, तो हमें प्रशिक्षण चरण से शुरू होने वाली पूरी प्रक्रिया को दोहराना चाहिए।