डेटा वृद्धि और ट्रेन-मान्य विभाजन कैसे करें?


14

मैं मशीन लर्निंग का उपयोग करके छवि वर्गीकरण कर रहा हूं।

मान लीजिए कि मेरे पास कुछ प्रशिक्षण डेटा (चित्र) हैं और डेटा को प्रशिक्षण और सत्यापन सेटों में विभाजित करेगा। और मैं यादृच्छिक घुमाव और शोर इंजेक्शन द्वारा डेटा को बढ़ाना (मूल से नई छवियां बनाना) भी चाहता हूं। संवर्द्धन ऑफ़लाइन किया जाता है।

डेटा वृद्धि करने का सही तरीका कौन सा है?

  1. पहले डेटा को प्रशिक्षण और सत्यापन सेट में विभाजित करें, फिर प्रशिक्षण और सत्यापन सेट दोनों पर डेटा वृद्धि करें।

  2. पहले डेटा को प्रशिक्षण और सत्यापन सेटों में विभाजित करें, फिर डेटा सेट केवल प्रशिक्षण सेट पर करें।

  3. पहले डेटा पर डेटा वृद्धि करें, फिर डेटा को प्रशिक्षण और सत्यापन सेट में विभाजित करें।


1
"डेटा वृद्धि" का एक से अधिक अर्थ है; यह आपके प्रश्न को संपादित करने में मदद करेगा कि आप कौन हैं, या केवल एक उदाहरण दें।
Scortchi - को पुनः स्थापित मोनिका

यदि आप टीटीए करने की योजना बनाते हैं, तो वृद्धि को परीक्षण सेट के रूप में मान्यता सेट पर लागू किया जाना चाहिए।
एबी यॉर्कर

जवाबों:


18

पहले डेटा को प्रशिक्षण और सत्यापन सेट में विभाजित करें, फिर प्रशिक्षण सेट पर डेटा वृद्धि करें।

आप अपने सत्यापन सेट का उपयोग यह अनुमान लगाने की कोशिश करने के लिए करते हैं कि आपकी विधि वास्तविक विश्व डेटा पर कैसे काम करती है, इस प्रकार इसमें केवल वास्तविक विश्व डेटा होना चाहिए। संवर्धित डेटा जोड़ने से सत्यापन की सटीकता में सुधार नहीं होगा। यह इस बारे में कुछ कहेगा कि डेटा वृद्धि के लिए आपकी विधि कितनी अच्छी तरह से प्रतिक्रिया करती है, और सत्यापन परिणामों और व्याख्या को सबसे खराब तरीके से बर्बाद करती है।


मैं आपके उत्तर में किसी चीज़ को लेकर काफी उत्सुक हूँ। यदि सीएनएन प्रशिक्षण को रोकने के लिए मेरा मानदंड सत्यापन हानि को कम कर रहा है, तो क्या आप मानते हैं कि सत्यापन डेटा पर डेटा वृद्धि एक अच्छा विकल्प है?
पागल

1
नहीं, मुझे अभी भी लगता है कि "सत्यापन परिणामों और व्याख्या को बर्बाद कर देगा", क्योंकि सत्यापन सटीकता अब नए अनदेखी डेटा पर सटीकता के लिए एक अच्छा प्रॉक्सी नहीं है यदि आप सत्यापन डेटा को बढ़ाते हैं।
बर्क

इसलिए हमें सत्यापन और परीक्षण डेटा पर डेटा वृद्धि लागू करने की आवश्यकता नहीं है?
अदनान फारूक ए

@AadnanFarooqA सं। आपको आम तौर पर अपने परीक्षण और सत्यापन डेटा पर समान संचालन करना चाहिए जैसा कि आप पूर्वानुमानों के लिए अपने मॉडल का उपयोग करते समय आप पर अनदेखी डेटा करने का इरादा रखते हैं।
13:18

1
@AadnanFarooqA आम तौर पर आपको विभाजन के बाद प्रशिक्षण डेटा पर केवल लागू करना चाहिए।
बर्क

4

3 कभी न करें, क्योंकि आपको रिसाव होगा। उदाहरण के लिए मान लें कि वृद्धि एक 1-पिक्सेल बदलाव है। अगर नहीं पता है कि विभाजन में विभाजन, तो आप ट्रेन और सत्यापन दोनों में बहुत समान डेटा नमूने प्राप्त कर सकते हैं।


0

डेटा ऑग्मेंटेशन का मतलब मौजूदा डेटा में बाहरी डेटा / सूचना को जोड़ना है जिसका विश्लेषण किया जा रहा है।

इसलिए, चूंकि संपूर्ण संवर्धित डेटा का उपयोग मशीन सीखने के लिए किया जाएगा, तो निम्नलिखित प्रक्रिया बेहतर होगी:

डेटा वृद्धि -> विभाजन डेटा


उत्तर के लिए धन्यवाद। क्या यह सब ठीक है कि एक नमूना और संवर्धित नमूना, जो मूल एक के समान है, विभिन्न सेटों में फैले हुए हैं?
यंगजई

आप मौजूदा डेटा को प्रशिक्षण सेट और संवर्धित डेटा को सत्यापन सेट के रूप में मानते हैं? फिर,
Dawny33

बंटवारा यादृच्छिक है, इसलिए मेरा मतलब है कि अगर मैं डेटा वृद्धि करता हूं और फिर डेटा को विभाजित करता हूं, तो संभावना है कि कुछ मौजूदा डेटा (सभी नहीं) प्रशिक्षण सेट में विभाजित हैं, जबकि संवर्धित डेटा सत्यापन सेट पर जाता है।
यंगजी

वृद्धि से, क्या आपका मतलब अपडाउन करना है? संवर्धित डेटा वह डेटा है जो सभी बिंदुओं पर वर्तमान डेटा का समर्थन करता है। इसलिए, यदि विभाजन यादृच्छिक है, तो विभाजन दोनों सेटों में समान डेटा का एक ही परिणाम होगा, क्योंकि मौजूदा डेटा
Dawny33

क्या इसके लिए कागज का कोई संदर्भ है?
अदनान फारूक ए
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.