जवाबों:
डेटा में शोर, एक उचित मात्रा में, नेटवर्क को बेहतर बनाने में मदद कर सकता है। कभी-कभी, इसका विपरीत प्रभाव पड़ता है। यह आंशिक रूप से शोर के प्रकार ("सच" बनाम कृत्रिम) पर निर्भर करता है।
एएनएन पर ऐ पूछे जाने वाले प्रश्न एक अच्छा सिंहावलोकन देता है। अंश:
वास्तविक आंकड़ों में शोर कभी भी अच्छी बात नहीं है, क्योंकि यह सामान्यीकरण की सटीकता को सीमित करता है जिसे प्राप्त किया जा सकता है चाहे प्रशिक्षण सेट कितना व्यापक हो। दूसरी ओर, प्रशिक्षण के दौरान इनपुट में कृत्रिम शोर (घबराना) को इंजेक्ट करना, छोटे कार्यों के लिए सामान्य प्रशिक्षण में सुधार के कई तरीकों में से एक है जब आपके पास एक छोटा प्रशिक्षण सेट होता है।
कुछ क्षेत्रों में, जैसे कि कंप्यूटर दृष्टि, कुछ नमूनों की नकल करके और कुछ शोर या अन्य परिवर्तन जोड़कर प्रशिक्षण सेट का आकार बढ़ाना आम है।
हम आम तौर पर मशीन लर्निंग मॉडल को प्रशिक्षण डेटा के दो अलग-अलग हिस्सों के रूप में मानते हैं - अंतर्निहित सामान्यीकरण सच्चाई (सिग्नल), और उस डेटासेट (शोर) के लिए यादृच्छिकता।
उन दोनों भागों को फिट करने से प्रशिक्षण सेट सटीकता में वृद्धि होती है, लेकिन सिग्नल को फिट करने से टेस्ट सेट सटीकता (और वास्तविक दुनिया के प्रदर्शन) में वृद्धि होती है, जबकि दोनों फिटिंग में कमी आती है। इसलिए हम शोर को फिट करने के लिए नियमितीकरण और ड्रॉपआउट और इसी तरह की तकनीकों का उपयोग करते हैं, और सिग्नल को फिट करने की अधिक संभावना है।
बस प्रशिक्षण डेटा में शोर की मात्रा में वृद्धि करना एक ऐसा दृष्टिकोण है, लेकिन लगता है कि यह उतना उपयोगी नहीं है। उदाहरण के लिए, प्रतिकूल बढ़ाने के लिए यादृच्छिक घबराना की तुलना करें; पहले धीरे और अप्रत्यक्ष रूप से मजबूती में सुधार होगा जबकि बाद नाटकीय रूप से और सीधे इसमें सुधार होगा।
पुनश्च: यहां पहले से ही कुछ बहुत अच्छे उत्तर दिए गए हैं, मैं केवल इस उत्तर को इस उम्मीद में जोड़ूंगा कि किसी को यह उपयोगी लगेगा:
डेटासेट में शोर का परिचय वास्तव में एक मॉडल पर सकारात्मक प्रभाव डाल सकता है। वास्तव में इसे उसी चीज के रूप में देखा जा सकता है जिसे आप सामान्य तौर पर ड्रॉपआउट की तरह नियमित रूप से करते हैं । ऐसा करने के कुछ उदाहरण हैं Zur at.al , Cires.at.al जहां लेखकों ने ओवर-फिटिंग को कम करने के लिए डेटासेट में सफलतापूर्वक शोर पेश किया।
पकड़ यह जानने में है कि शोर कितना अधिक है। यदि आप बहुत अधिक शोर जोड़ते हैं, तो इससे आपका डेटासेट बेकार हो सकता है, जिसके परिणामस्वरूप डेटासेट में मूल डेटासेट के लिए पर्याप्त समानता नहीं हो सकती है, इसलिए आप पूरी तरह से अलग डेटासेट पर प्रशिक्षण ले सकते हैं। इस प्रकार बहुत अधिक शोर को अंडर-फिटिंग के कारण देखा जा सकता है, बिल्कुल उच्च ड्रॉपआउट दरों की तरह।
जैसा कि कहा जाता; परिवर्तन संतुलन जीवन का मसाला है :)।