क्या अंतिम (उत्पादन तैयार) मॉडल को संपूर्ण डेटा पर या केवल प्रशिक्षण सेट पर प्रशिक्षित किया जाना चाहिए?


23

मान लीजिए कि मैंने प्रशिक्षण सेट पर कई मॉडलों को प्रशिक्षित किया, परीक्षण सेट पर क्रॉस सत्यापन सेट और मापा प्रदर्शन का उपयोग करके सबसे अच्छा एक का चयन करें। इसलिए अब मेरे पास एक अंतिम सर्वश्रेष्ठ मॉडल है। क्या मुझे प्रशिक्षण सेट पर प्रशिक्षित अपने सभी उपलब्ध डेटा या जहाज समाधान पर इसे वापस लेना चाहिए? यदि बाद में, तो क्यों?

अद्यतन: जैसा कि @ P.Windridge ने उल्लेख किया है, मूल रूप से सत्यापन के बिना एक मॉडल को शिपिंग करने का मतलब है एक मुकर गया मॉडल शिपिंग। लेकिन हम परीक्षण सेट के प्रदर्शन की रिपोर्ट कर सकते हैं और उसके बाद मॉडल को पूर्ण डेटा पर फिर से पकड़ना उचित प्रदर्शन की अपेक्षा करते हुए बेहतर प्रदर्शन करते हैं - क्योंकि हम अपने सर्वश्रेष्ठ मॉडल और अधिक डेटा का उपयोग करते हैं। ऐसी कार्यप्रणाली से क्या समस्याएं पैदा हो सकती हैं?


क्या आप बाहरी रूप से विनियमित वातावरण में काम कर रहे हैं? (यानी संभवतः आपको मान्य मॉडल को जहाज करना चाहिए , और आपका प्रश्न केवल काल्पनिक है, लेकिन यह वैसे भी चर्चा के लायक है :))। संपादित करें: ठीक है, मैं देख रहा हूं कि आपने अपनी पोस्ट संपादित की है।
P.Windridge 11

क्या आप मानते हैं कि आपका परीक्षण डेटा जनसंख्या का प्रतिनिधि है / जनसंख्या का एक हिस्सा देव नमूने में नहीं है? क्या आपका मूल विकास नमूना किसी तरह से कम है?
P.Windridge 11

@ P.Windridge अच्छी तरह से, मेरा सवाल सिर्फ काल्पनिक है। आपकी दूसरी टिप्पणी के बारे में मेरा मानना ​​है कि किसी को भी एक इंजीनियर से यह उम्मीद नहीं करनी चाहिए कि वह उसे अप्रमाणित डेटा देते हुए एक अच्छे मॉडल को प्रशिक्षित करे।
यूरी

1
मैं कई स्थितियों की कल्पना नहीं कर सकता, जहाँ आप बिना सत्यापन के एक मॉडल शिप करेंगे। मैं इसके बजाय परीक्षण के नमूने के आकार को कम करने पर ध्यान दूंगा (इसके अधीन होने के बावजूद अभी भी इसे वैध बनाने के लिए काफी बड़ा है!)। संभवतः एक और अधिक दिलचस्प चर्चा पेशेवरों / विपक्ष के बारे में / चयन / मॉडल के आधार पर / सभी / डेटा पर आधारित है, और फिर इसे एक उप-नमूने का उपयोग करके प्रशिक्षित करना है, और फिर बाकी पर मान्य करना है।
P.Windridge 12

1
इसी तरह के सवाल = आंकड़े.stackexchange.com/questions/174026/… , हालांकि मुझे लगता है कि यह अधिक चर्चा का उपयोग कर सकता है
P.Windridge

जवाबों:


15

पूरे नमूने पर निर्भर रहने के बाद आपको लगभग हमेशा एक बेहतर मॉडल मिलेगा। लेकिन जैसा कि दूसरों ने कहा है कि आपके पास कोई मान्यता नहीं है। यह डेटा विभाजन दृष्टिकोण में एक मूलभूत दोष है। न केवल डेटा को एक समग्र मॉडल में सीधे नमूने के अंतरों के लिए खोए हुए अवसर को विभाजित करना है, बल्कि यह तब तक अस्थिर है जब तक कि आपका पूरा नमूना संभवतः 15,000 विषयों से बड़ा न हो। यही कारण है कि परिशुद्धता और स्थिरता प्राप्त करने के लिए 10-गुना क्रॉस-सत्यापन के 100 दोहराव (नमूना आकार के आधार पर) आवश्यक है, और मजबूत आंतरिक सत्यापन के लिए बूटस्ट्रैप क्यों बेहतर है। बूटस्ट्रैप यह भी बताता है कि सुविधा चयन का कार्य कितना कठिन और मनमाना है।

मैंने बायोमेडिकल रिसर्च सेक्शन 10.11 में बायोस्टैटिस्टिक्स में 'बाहरी' सत्यापन के साथ समस्याओं का अधिक विस्तार से वर्णन किया है ।


मेरे क्षेत्र में शब्दावली (विश्लेषणात्मक रसायन विज्ञान) आपके द्वारा (पहले) प्रशिक्षण शुरू करने वाले डेटा के किसी भी विभाजन को एक आंतरिक सत्यापन के रूप में माना जाएगा । बाह्य सत्यापन समर्पित सत्यापन अध्ययन और रिंग ट्रायल करने के बीच कहीं शुरू होगा।
केलीसाइट्स मोनिका

0

आपको फिर से प्रशिक्षित करने की आवश्यकता नहीं है। जब आप अपने परिणामों की रिपोर्ट करते हैं, तो आप हमेशा परीक्षण डेटा परिणामों की रिपोर्ट करते हैं क्योंकि वे बहुत बेहतर समझ देते हैं। परीक्षण डेटा सेट द्वारा हम अधिक सटीक रूप से देख सकते हैं कि एक मॉडल आउट-ऑफ-सैंपल डेटा पर कितना अच्छा प्रदर्शन कर सकता है।


4
हम परीक्षण सेट प्रदर्शन की रिपोर्ट कर सकते हैं और उसके बाद मॉडल को पूर्ण डेटा पर फिर से बनाए रखने के लिए सही प्रदर्शन की अपेक्षा करते हुए बेहतर प्रदर्शन करते हैं - क्योंकि हम सर्वश्रेष्ठ मोड और अधिक डेटा का उपयोग करते हैं। क्या मेरे तर्क में कोई दोष है?
यूरी

खैर अगर परीक्षण के बाद, यू अधिक डेटा एकत्र करता है तो फिर यू डेटा को फिर से विभाजित कर सकता है, इसे फिर से प्रशिक्षित कर सकता है, फिर इसे फिर से परीक्षण कर सकता है और फिर से पुन: परीक्षण से परीक्षा परिणाम की रिपोर्ट कर सकता है।
उमर

6
पूरे नमूने पर अनुमान न लगाकर आप उच्च दक्षता के अवसर से गुजरते हैं। यह उचित नहीं है। मैं यूरी की टिप्पणी के ऊपर भी सहमत हूं।
रिचर्ड हार्डी

@RichardHardy, मेरी टिप्पणी में क्या गलत है?
उमर

यह मेरी आखिरी टिप्पणी है। मॉडल का अनुमान लगाने के लिए सभी डेटा का उपयोग न करके आप उच्चतम उपलब्ध दक्षता का उपयोग कर रहे हैं। ऐसा क्यों करते हैं?
रिचर्ड हार्डी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.