जवाबों:
दरअसल नहीं।
इस तरह का प्रश्न थोड़ा सामान्य है, और दो चीजों को मिलाता है जो वास्तव में संबंधित नहीं हैं। आम तौर पर ओवरफिटिंग का मतलब सामान्यीकृत विवरण होने के विपरीत गुणवत्ता के रूप में होता है; इस अर्थ में कि एक overfitted (या overtrained) नेटवर्क में सामान्यीकरण की शक्ति कम होगी। यह गुणवत्ता मुख्य रूप से नेटवर्क आर्किटेक्चर, प्रशिक्षण और सत्यापन प्रक्रिया द्वारा निर्धारित की जाती है। डेटा और इसके गुण केवल "कुछ ऐसा है जो प्रशिक्षण प्रक्रिया पर होता है" के रूप में दर्ज करते हैं। यह कमोबेश "पाठ्य पुस्तक ज्ञान" है; आप जेम्स, विटेन, हस्ती और टिब्शिरानी द्वारा "सांख्यिकीय शिक्षा के लिए एक परिचय" की कोशिश कर सकते हैं। या बिशप द्वारा "पैटर्न मान्यता" (सामान्य विषय पर मेरी पसंदीदा पुस्तक)। या "पैटर्न मान्यता और मशीन लर्निंग", बिशप द्वारा भी।
सहसंबंध के लिए: एक निश्चित आयाम वाले इनपुट स्थान पर विचार करें। कोई फर्क नहीं पड़ता कि आप किस परिवर्तन का उपयोग करते हैं, आयामीता समान रहेगी - रैखिक बीजगणित ऐसा कहता है। एक मामले में दिए गए आधार पूरी तरह से असंबंधित होंगे - यह वही है जो आप प्राप्त करते हैं, जब आप चर को सहसंबंधित करते हैं, या बस पैट (सिद्धांत एक्सिस परिवर्तन) लागू करते हैं इसके लिए कोई रैखिक बीजगणित पुस्तक लें।
चूंकि एक उपयुक्त वास्तुकला वाला एक तंत्रिका नेटवर्क किसी भी (!) फ़ंक्शन को मॉडल कर सकता है, इसलिए आप सुरक्षित रूप से मान सकते हैं, कि यह PAT को पहले मॉडल कर सकता है और फिर इसे जो भी करना चाहिए - जैसे वर्गीकरण, प्रतिगमन, आदि।
आप सहसंबंध को एक विशेषता भी मान सकते हैं, जो तंत्रिका नेटवर्क विवरण का हिस्सा होना चाहिए, क्योंकि यह डेटा की संपत्ति है। सहसंबंध की प्रकृति वास्तव में महत्वपूर्ण नहीं है, जब तक कि यह ऐसा कुछ नहीं है जो डेटा का हिस्सा नहीं होना चाहिए। यह वास्तव में एक अलग विषय होगा - आपको इसके लिए इनपुट और खाते में शोर की तरह मॉडल या परिमाणित करना चाहिए।
तो, सारांश सं। सहसंबंधित डेटा का मतलब है कि आपको तकनीकी रूप से सरल और अधिक प्रभावी डेटा की हैंडलिंग बनाने के लिए कड़ी मेहनत करनी चाहिए। ओवरफिटिंग हो सकती है, लेकिन ऐसा नहीं होगा क्योंकि सहसंबद्ध डेटा है।
ओवर-फिटिंग से संबंधित उनके कथन के संबंध में करूब सही है। हालांकि, मुझे लगता है कि अत्यधिक सहसंबद्ध सुविधाओं और ANN की चर्चा इस मुद्दे को सरल बनाती है।
हां, यह सिद्धांत में सच है कि एक ANN किसी भी फ़ंक्शन का अनुमान लगा सकता है। हालांकि, व्यवहार में यह कई उच्च सहसंबद्ध सुविधाओं को शामिल करने के लिए एक अच्छा विचार नहीं है। ऐसा करने से मॉडल के भीतर कई अतिरेक मिलेंगे। इस तरह के अतिरेक को शामिल करने से अनावश्यक जटिलताएं आएंगी और ऐसा करने से स्थानीय मिनीमा की संख्या बढ़ सकती है। यह देखते हुए कि एक ANN का नुकसान कार्य स्वाभाविक रूप से सुचारू नहीं है, अनावश्यक खुरदरापन का परिचय एक महान विचार नहीं है।