क्या सहसंबंधित इनपुट डेटा तंत्रिका नेटवर्क के साथ ओवरफिटिंग को जन्म देता है?


13

मेरी राय में सहसंबंधित इनपुट डेटा को तंत्रिका नेटवर्क में ओवरफिटिंग की ओर ले जाना चाहिए क्योंकि नेटवर्क डेटा में सहसंबंध जैसे शोर सीखता है।

क्या ये सही है?

जवाबों:


11

दरअसल नहीं।

इस तरह का प्रश्न थोड़ा सामान्य है, और दो चीजों को मिलाता है जो वास्तव में संबंधित नहीं हैं। आम तौर पर ओवरफिटिंग का मतलब सामान्यीकृत विवरण होने के विपरीत गुणवत्ता के रूप में होता है; इस अर्थ में कि एक overfitted (या overtrained) नेटवर्क में सामान्यीकरण की शक्ति कम होगी। यह गुणवत्ता मुख्य रूप से नेटवर्क आर्किटेक्चर, प्रशिक्षण और सत्यापन प्रक्रिया द्वारा निर्धारित की जाती है। डेटा और इसके गुण केवल "कुछ ऐसा है जो प्रशिक्षण प्रक्रिया पर होता है" के रूप में दर्ज करते हैं। यह कमोबेश "पाठ्य पुस्तक ज्ञान" है; आप जेम्स, विटेन, हस्ती और टिब्शिरानी द्वारा "सांख्यिकीय शिक्षा के लिए एक परिचय" की कोशिश कर सकते हैं। या बिशप द्वारा "पैटर्न मान्यता" (सामान्य विषय पर मेरी पसंदीदा पुस्तक)। या "पैटर्न मान्यता और मशीन लर्निंग", बिशप द्वारा भी।

सहसंबंध के लिए: एक निश्चित आयाम वाले इनपुट स्थान पर विचार करें। कोई फर्क नहीं पड़ता कि आप किस परिवर्तन का उपयोग करते हैं, आयामीता समान रहेगी - रैखिक बीजगणित ऐसा कहता है। एक मामले में दिए गए आधार पूरी तरह से असंबंधित होंगे - यह वही है जो आप प्राप्त करते हैं, जब आप चर को सहसंबंधित करते हैं, या बस पैट (सिद्धांत एक्सिस परिवर्तन) लागू करते हैं इसके लिए कोई रैखिक बीजगणित पुस्तक लें।

चूंकि एक उपयुक्त वास्तुकला वाला एक तंत्रिका नेटवर्क किसी भी (!) फ़ंक्शन को मॉडल कर सकता है, इसलिए आप सुरक्षित रूप से मान सकते हैं, कि यह PAT को पहले मॉडल कर सकता है और फिर इसे जो भी करना चाहिए - जैसे वर्गीकरण, प्रतिगमन, आदि।

आप सहसंबंध को एक विशेषता भी मान सकते हैं, जो तंत्रिका नेटवर्क विवरण का हिस्सा होना चाहिए, क्योंकि यह डेटा की संपत्ति है। सहसंबंध की प्रकृति वास्तव में महत्वपूर्ण नहीं है, जब तक कि यह ऐसा कुछ नहीं है जो डेटा का हिस्सा नहीं होना चाहिए। यह वास्तव में एक अलग विषय होगा - आपको इसके लिए इनपुट और खाते में शोर की तरह मॉडल या परिमाणित करना चाहिए।

तो, सारांश सं। सहसंबंधित डेटा का मतलब है कि आपको तकनीकी रूप से सरल और अधिक प्रभावी डेटा की हैंडलिंग बनाने के लिए कड़ी मेहनत करनी चाहिए। ओवरफिटिंग हो सकती है, लेकिन ऐसा नहीं होगा क्योंकि सहसंबद्ध डेटा है।


क्षमा करें, लेकिन मुझे अभी भी क्यों नहीं मिला। इसके अलावा मेरा संदेह थोड़ा सामान्य है। मैं एक जवाब की तलाश में था "क्या सहसंबंधित इनपुट डेटा तंत्रिका नेटवर्क के लिए हानिकारक हो सकता है?"। यहां आप दावा करते हैं, "आप सुरक्षित रूप से मान सकते हैं कि यह पहले पैट भी मॉडल कर सकता है"। लेकिन आप उस धारणा को कैसे बना रहे हैं। और फिर मेरा फॉलोअप सवाल यह है कि क्या होता है अगर तंत्रिका वास्तुकला पीएटी को विफल करने के लिए नहीं है?
१।

@bytestorm: आपका पहला सवाल मूल से अलग है। सहसंबंधित इनपुट आपके एएनएन (साथ ही अन्य तरीकों के लिए) के प्रदर्शन को सीमित कर सकता है। लेकिन यह एक ANN की एक अंतर्निहित संपत्ति नहीं है। दूसरे प्रश्न के लिए, यह एक धारणा कम है, लेकिन केवल एक अनुकरणीय स्पष्टीकरण क्यों ANN PAT को मॉडल कर सकता है। व्यवहार में मैं ऐसा नहीं करूंगा, और न ही ऐसा करने की सलाह दूंगा।
चेरूब

6

ओवर-फिटिंग से संबंधित उनके कथन के संबंध में करूब सही है। हालांकि, मुझे लगता है कि अत्यधिक सहसंबद्ध सुविधाओं और ANN की चर्चा इस मुद्दे को सरल बनाती है।

हां, यह सिद्धांत में सच है कि एक ANN किसी भी फ़ंक्शन का अनुमान लगा सकता है। हालांकि, व्यवहार में यह कई उच्च सहसंबद्ध सुविधाओं को शामिल करने के लिए एक अच्छा विचार नहीं है। ऐसा करने से मॉडल के भीतर कई अतिरेक मिलेंगे। इस तरह के अतिरेक को शामिल करने से अनावश्यक जटिलताएं आएंगी और ऐसा करने से स्थानीय मिनीमा की संख्या बढ़ सकती है। यह देखते हुए कि एक ANN का नुकसान कार्य स्वाभाविक रूप से सुचारू नहीं है, अनावश्यक खुरदरापन का परिचय एक महान विचार नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.