डेटा वृद्धि और ट्रेन-मान्य विभाजन कैसे करें?

मैं मशीन लर्निंग का उपयोग करके छवि वर्गीकरण कर रहा हूं।

मान लीजिए कि मेरे पास कुछ प्रशिक्षण डेटा (चित्र) हैं और डेटा को प्रशिक्षण और सत्यापन सेटों में विभाजित करेगा। और मैं यादृच्छिक घुमाव और शोर इंजेक्शन द्वारा डेटा को बढ़ाना (मूल से नई छवियां बनाना) भी चाहता हूं। संवर्द्धन ऑफ़लाइन किया जाता है।

डेटा वृद्धि करने का सही तरीका कौन सा है?

पहले डेटा को प्रशिक्षण और सत्यापन सेट में विभाजित करें, फिर प्रशिक्षण और सत्यापन सेट दोनों पर डेटा वृद्धि करें।
पहले डेटा को प्रशिक्षण और सत्यापन सेटों में विभाजित करें, फिर डेटा सेट केवल प्रशिक्षण सेट पर करें।
पहले डेटा पर डेटा वृद्धि करें, फिर डेटा को प्रशिक्षण और सत्यापन सेट में विभाजित करें।

— Yangjie
स्रोत

"डेटा वृद्धि" का एक से अधिक अर्थ है; यह आपके प्रश्न को संपादित करने में मदद करेगा कि आप कौन हैं, या केवल एक उदाहरण दें।

— Scortchi - को पुनः स्थापित मोनिका

यदि आप टीटीए करने की योजना बनाते हैं, तो वृद्धि को परीक्षण सेट के रूप में मान्यता सेट पर लागू किया जाना चाहिए।

— एबी यॉर्कर

जवाबों:

पहले डेटा को प्रशिक्षण और सत्यापन सेट में विभाजित करें, फिर प्रशिक्षण सेट पर डेटा वृद्धि करें।

आप अपने सत्यापन सेट का उपयोग यह अनुमान लगाने की कोशिश करने के लिए करते हैं कि आपकी विधि वास्तविक विश्व डेटा पर कैसे काम करती है, इस प्रकार इसमें केवल वास्तविक विश्व डेटा होना चाहिए। संवर्धित डेटा जोड़ने से सत्यापन की सटीकता में सुधार नहीं होगा। यह इस बारे में कुछ कहेगा कि डेटा वृद्धि के लिए आपकी विधि कितनी अच्छी तरह से प्रतिक्रिया करती है, और सत्यापन परिणामों और व्याख्या को सबसे खराब तरीके से बर्बाद करती है।

— बुर्क
स्रोत

मैं आपके उत्तर में किसी चीज़ को लेकर काफी उत्सुक हूँ। यदि सीएनएन प्रशिक्षण को रोकने के लिए मेरा मानदंड सत्यापन हानि को कम कर रहा है, तो क्या आप मानते हैं कि सत्यापन डेटा पर डेटा वृद्धि एक अच्छा विकल्प है?

— पागल

नहीं, मुझे अभी भी लगता है कि "सत्यापन परिणामों और व्याख्या को बर्बाद कर देगा", क्योंकि सत्यापन सटीकता अब नए अनदेखी डेटा पर सटीकता के लिए एक अच्छा प्रॉक्सी नहीं है यदि आप सत्यापन डेटा को बढ़ाते हैं।

— बर्क

इसलिए हमें सत्यापन और परीक्षण डेटा पर डेटा वृद्धि लागू करने की आवश्यकता नहीं है?

— अदनान फारूक ए

@AadnanFarooqA सं। आपको आम तौर पर अपने परीक्षण और सत्यापन डेटा पर समान संचालन करना चाहिए जैसा कि आप पूर्वानुमानों के लिए अपने मॉडल का उपयोग करते समय आप पर अनदेखी डेटा करने का इरादा रखते हैं।

— 13:18

@AadnanFarooqA आम तौर पर आपको विभाजन के बाद प्रशिक्षण डेटा पर केवल लागू करना चाहिए।

— बर्क

3 कभी न करें, क्योंकि आपको रिसाव होगा। उदाहरण के लिए मान लें कि वृद्धि एक 1-पिक्सेल बदलाव है। अगर नहीं पता है कि विभाजन में विभाजन, तो आप ट्रेन और सत्यापन दोनों में बहुत समान डेटा नमूने प्राप्त कर सकते हैं।

— eyaler
स्रोत

डेटा ऑग्मेंटेशन का मतलब मौजूदा डेटा में बाहरी डेटा / सूचना को जोड़ना है जिसका विश्लेषण किया जा रहा है।

इसलिए, चूंकि संपूर्ण संवर्धित डेटा का उपयोग मशीन सीखने के लिए किया जाएगा, तो निम्नलिखित प्रक्रिया बेहतर होगी:

डेटा वृद्धि -> विभाजन डेटा

— Dawny33
स्रोत

उत्तर के लिए धन्यवाद। क्या यह सब ठीक है कि एक नमूना और संवर्धित नमूना, जो मूल एक के समान है, विभिन्न सेटों में फैले हुए हैं?

— यंगजई

आप मौजूदा डेटा को प्रशिक्षण सेट और संवर्धित डेटा को सत्यापन सेट के रूप में मानते हैं? फिर,

— Dawny33

बंटवारा यादृच्छिक है, इसलिए मेरा मतलब है कि अगर मैं डेटा वृद्धि करता हूं और फिर डेटा को विभाजित करता हूं, तो संभावना है कि कुछ मौजूदा डेटा (सभी नहीं) प्रशिक्षण सेट में विभाजित हैं, जबकि संवर्धित डेटा सत्यापन सेट पर जाता है।

— यंगजी

वृद्धि से, क्या आपका मतलब अपडाउन करना है? संवर्धित डेटा वह डेटा है जो सभी बिंदुओं पर वर्तमान डेटा का समर्थन करता है। इसलिए, यदि विभाजन यादृच्छिक है, तो विभाजन दोनों सेटों में समान डेटा का एक ही परिणाम होगा, क्योंकि मौजूदा डेटा

— Dawny33

क्या इसके लिए कागज का कोई संदर्भ है?

— अदनान फारूक ए