ट्रेन / वैध / परीक्षण सेट पर घटाव के बारे में प्रश्न


11

मैं डेटा प्रीप्रोसेस कर रहा हूं और बाद में अपने डेटा पर एक कॉनवॉनेट बनाने जा रहा हूं।

मेरा प्रश्न है: कहो कि मेरे पास 100 छवियों के साथ कुल डेटा सेट है, मैं प्रत्येक 100 छवियों में से प्रत्येक के लिए माध्य की गणना कर रहा था और फिर इसे प्रत्येक छवियों से घटाता हूं, फिर इसे ट्रेन और सत्यापन सेट में विभाजित करता हूं, और मैं यही करता हूं दिए गए परीक्षण सेट पर प्रक्रिया करने के लिए कदम, लेकिन ऐसा लगता है कि यह इस लिंक के अनुसार एक सही तरीका नहीं है: http://cs231n.github.io/neural-networks-2/#datapre

" आम नुकसान । प्रीप्रोसेसिंग के बारे में बनाने के लिए एक महत्वपूर्ण बिंदु यह है कि किसी भी प्रीप्रोसेसिंग आँकड़े (जैसे डेटा माध्य) को केवल प्रशिक्षण डेटा पर गणना की जानी चाहिए, और फिर सत्यापन / परीक्षण डेटा पर लागू किया जाएगा। जैसे कि माध्य की गणना करना और इसे घटाना। संपूर्ण डेटासेट में प्रत्येक छवि और फिर डेटा को ट्रेन / वैल / टेस्ट विभाजन में विभाजित करना एक गलती होगी। इसके बजाय, इसका मतलब केवल प्रशिक्षण डेटा पर गणना की जानी चाहिए और फिर सभी विभाजन (ट्रेन / वैल / टेस्ट) से समान रूप से घटाया जाना चाहिए। "

मैं अनुमान लगा रहा हूँ कि लेखक क्या कह रहा है, मतलब की गणना न करें और इसे प्रत्येक छवि के भीतर घटाएँ, लेकिन कुल छवि सेट के माध्यम से गणना करें (यानी (image1 + ... + image100) / 100) और इसका मतलब घटाएँ प्रत्येक छवि।

मैं बिल्कुल नहीं समझता कि क्या कोई समझा सकता है? और संभवतः यह भी बताएं कि मैं जो कर रहा था वह गलत क्यों है (यदि यह वास्तव में गलत है)।


समुदाय में आपका स्वागत है। कृपया मेरा जवाब नीचे देखें।
us --r11852

जवाबों:


6

मान लें कि आपके पास कुल 100 चित्र हैं; 90 प्रशिक्षण डेटा हैं और 10 परीक्षण डेटा हैं।

लेखकों ने सही ढंग से दावा किया है कि नमूना मतलब की गणना करने के लिए पूरे 100 छवि नमूने का उपयोग कर रहा है μ^गलत है। ऐसा इसलिए है क्योंकि इस मामले में आपके पास सूचना रिसाव होगा। आपके "आउट-ऑफ-सैंपल" तत्वों की जानकारी आपके प्रशिक्षण सेट में चली जाएगी। के अनुमान के लिए विशेष रूप सेμ^, यदि आप 90 छवियों के बजाय 100 का उपयोग करते हैं, तो आप अपने प्रशिक्षण सेट को एक और अधिक सूचित अर्थ की अनुमति देते हैं, जबकि इसके पास भी होना चाहिए। परिणामस्वरूप आपकी प्रशिक्षण त्रुटि संभावित रूप से कम होनी चाहिए क्योंकि यह होनी चाहिए।

अनुमानित μ^प्रशिक्षण / सत्यापन / परीक्षण प्रक्रिया के दौरान आम है। जो उसीμ^अपने सभी डेटा को केंद्रित करने के लिए उपयोग किया जाना है। (मैं बाद में इसका उल्लेख करता हूं क्योंकि मुझे थोड़ी सी छाप है कि आप उस छवि को केंद्रित करने के लिए प्रत्येक अलग छवि के माध्यम का उपयोग करते हैं।)


उत्तर के लिए धन्यवाद, जो समझ में आता है। और हां, मैं प्रत्येक छवियों के लिए माध्य की गणना कर रहा हूं, इसलिए अनुमानितμ^वास्तव में प्रत्येक एक छवि के बजाय पूरे 90 प्रशिक्षण छवियों द्वारा गणना की जानी चाहिए? कोई भी कारण क्यों? क्या मैं 90 प्रशिक्षण सेटों में व्यक्तिगत छवि में से प्रत्येक को केंद्रित नहीं कर सकता हूँ?
सैम

1
अनुमान μ^खुद एक छवि होनी चाहिए। यदि आप प्रत्येक को व्यक्तिगत रूप से केंद्रित करते हैं तो आप पूरे नमूने में किसी भी प्रवृत्ति के लिए नियंत्रण नहीं करते हैं।
us --r11852

@ us @r11852 हमारे मॉडल को नुकसान पहुंचाने वाले अधिक सूचित होने का कारण क्यों होगा? यह "आउट-ऑफ-सैंपल रिस्पांस वेरिएबल" की सूचना का कारण नहीं होगा, किसी भी तरह से हमारे प्रशिक्षण में हस्तक्षेप करता है, है ना? तो ट्रेन की त्रुटि कम क्यों होगी?
जिनेक्स

1
वैध जानकारी कभी भी "किसी मॉडल को नुकसान नहीं पहुंचाएगी"; किस मॉडल का उपयोग करने का निर्णय लेने के बाद (कुछ रेज़मैप्लिंग / होल्ड-आउट स्कीम के आधार पर) हम सभी डेटा पर अंतिम मॉडल को प्रशिक्षित करेंगे । फिर भी जब हम अनुमान लगाते हैं तो प्रशिक्षणμ^संपूर्ण डेटासेट का उपयोग करते हुए, यह अतिरिक्त जानकारी अवास्तविक अच्छी अंतर्दृष्टि को दर्शाती है। इससे परीक्षण-त्रुटियों की अपेक्षा कम हो सकती है क्योंकि हमें परीक्षण डेटा के बारे में कुछ पता है जिसे हम प्रशिक्षण के दौरान उपयोग नहीं कर पाएंगे। ( उदाहरण : कहते हैं कि हम एक शारीरिक गतिविधि मॉडल विकसित करते हैं। हमारे डेटा में किशोर, वयस्क और बुजुर्ग शामिल हैं और (cont।)
us2r11852

... कुछ फ्लूक द्वारा, सभी बुजुर्ग लोग टेस्ट-सेट में समाप्त हो जाते हैं। यदि हम केवल अपने प्रशिक्षण-सेट में माध्य-आयु की गणना करते हैं, तो हम स्पष्ट रूप से हमारे पूरे नमूने की तुलना में कम औसत-आयु प्राप्त करेंगे। यह स्पष्ट रूप से पक्षपाती माध्य-आयु का उपयोग करने से संभवतः मॉडल का Aप्रदर्शन बिगड़ जाएगा यदि Aविभिन्न आयु के लिए अच्छी तरह से सामान्यीकृत नहीं होता है। यदि हम संपूर्ण डेटासेट में माध्य-आयु की गणना करते हैं तो हमें अधिक प्रतिनिधि माध्य-आयु मिलेगी। यदि हम अब इस निष्पक्ष माध्य-आयु का उपयोग उस मॉडल में करते हैं, जिसे Aहम Aविभिन्न
आयुओं के
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.