बहुभिन्नरूपी रैखिक प्रतिगमन बनाम तंत्रिका नेटवर्क?


54

ऐसा लगता है कि कुछ मामलों में एक बहुभिन्नरूपी रेखीय प्रतिगमन के साथ तंत्रिका नेटवर्क के समान परिणाम प्राप्त करना संभव है, और बहुभिन्नरूपी रेखीय प्रतिगमन सुपर फास्ट और आसान है।

तंत्रिका नेटवर्क किन परिस्थितियों में बहुभिन्नरूपी रैखिक प्रतिगमन की तुलना में बेहतर परिणाम दे सकता है?

जवाबों:


28

तंत्रिका नेटवर्क स्वचालित रूप से सिद्धांत मॉडल nonlinearities में कर सकते हैं ( सार्वभौमिक सन्निकटन प्रमेय देखें ), जो आपको रैखिक प्रतिगमन में परिवर्तनों (स्प्लिन आदि) का उपयोग करके स्पष्ट रूप से मॉडल करने की आवश्यकता होगी।

कैविएट: ओवरफ़िट का प्रलोभन, प्रतिगमन में तंत्रिका नेटवर्क में मजबूत (सम) हो सकता है, क्योंकि छिपी हुई परतें या न्यूरॉन्स जोड़ने से हानिरहित दिखता है। इसलिए आउट-ऑफ-नमूना भविष्यवाणी प्रदर्शन को देखने के लिए अतिरिक्त सावधान रहें।


ठीक। मेरे मन में एक सवाल है कि मैं अपने इनपुट डेटा को द्विघात और घन शब्दों के साथ बढ़ाकर किस हद तक व्यवहार को दोहरा सकता हूं?
ह्यूग पर्किंस

3
वास्तव में, आप संभवतः एनएन को लगभग एक रेखीय प्रतिगमन में उचित रूप से परिवर्तित रजिस्टरों के साथ करीब से समझ सकते हैं, जैसा कि आप चाहते हैं (और इसके विपरीत)। क्वाड्रैटिक्स और क्यूबिक्स से बेहतर अभ्यास स्प्लिन हैं, हालांकि - मैं हार्ले की पाठ्यपुस्तक "रिग्रेशन मॉडलिंग स्ट्रैटेजिक" की सिफारिश करता हूं।
एस। कोलासा - मोनिका

ठीक। क्या यह मान लेना उचित है कि रूपांतरित डेटा पर रेखीय प्रतिगमन के लिए प्रशिक्षण का समय तेज होगा, या प्रशिक्षण का समय लगभग समान होगा? क्या रूपांतरित डेटा पर रेखीय प्रतिगमन के लिए समाधान के पास एक वैश्विक अधिकतम होगा या तंत्रिका नेटवर्क के लिए बहुत सारे स्थानीय न्यूनतम होंगे? (संपादित करें: मुझे लगता है कि इनपुट कैसे बदल रहे हैं, इससे कोई फर्क नहीं पड़ता है, लीनियर रिग्रेशन का हल सिर्फ डिजाइन मैट्रिक्स का छद्म है जो किसी चीज से गुणा किया जाता है और इसलिए हमेशा या तो विशिष्ट या विलक्षण होता है?)
ह्यूग पेरिया

2
प्रशिक्षण का समय निश्चित रूप से इनपुट आयामों (कुछ / कई टिप्पणियों, कुछ / कई भविष्यवाणियों) पर निर्भर करेगा। रैखिक प्रतिगमन में एक एकल (छद्म-) व्युत्क्रम शामिल होता है (हां, परिवर्तित रजिस्टरों के साथ भी विशिष्टता / विलक्षणता), जबकि एनएन को आमतौर पर पुनरावृत्त तरीके से प्रशिक्षित किया जाता है, लेकिन पुनरावृत्तियों में मैट्रिक्स रूपांतरण शामिल नहीं होते हैं, इसलिए प्रत्येक पुनरावृत्ति तेजी से होती है - आप आमतौर पर ओवरफिटिंग को रोकने के लिए डिज़ाइन की गई कुछ कसौटी पर आधारित प्रशिक्षण को रोकें।
एस। कोलास्सा -

1
@ यामचा: सार्वभौमिक सन्निकटन प्रमेय की मेरी समझ यह है कि सिद्धांत में आयामीता मायने नहीं रखती है। (निश्चित रूप से, यह एक विषम परिणाम है। मुझे उम्मीद है कि एनएन के लिए आपको एक ठीक-ठीक बहुपद प्रतिगमन की तुलना में बेहतर होने के लिए डेटा की भयावह मात्रा की आवश्यकता होगी। डीप लर्निंग की तरह ध्वनि शुरू होती है ...)
एस। कोलासा - मोनिका

16

आप रेखीय प्रतिगमन का उल्लेख करते हैं। यह लॉजिस्टिक रिग्रेशन से संबंधित है , जिसमें समान तेज अनुकूलन एल्गोरिथ्म है। यदि आपके पास लक्ष्य मानों पर सीमाएं हैं, जैसे कि वर्गीकरण समस्या के साथ, आप लोजिस्टिक प्रतिगमन को रैखिक प्रतिगमन के सामान्यीकरण के रूप में देख सकते हैं।

तंत्रिका नेटवर्क मूल इनपुट्स पर लॉजिस्टिक रिग्रेशन की तुलना में अधिक सामान्य होते हैं, क्योंकि यह एक स्किप-लेयर नेटवर्क से मेल खाती है (कनेक्शन के साथ इनपुट को सीधे आउटपुट से कनेक्ट करने के साथ) छिपे हुए नोड्स के साथ।0

जब आप जैसी सुविधाओं को जोड़ते हैं , तो यह एक एकल छिपी हुई परत में कुछ छिपे हुए नोड को चुनने के समान है। वास्तव में पत्राचार नहीं है , क्योंकि सिग्मॉइड्स के साथ जैसे फ़ंक्शन को मॉडल करने के लिए एक से अधिक छिपे हुए न्यूरॉन लग सकते हैं। जब आप एक तंत्रिका नेटवर्क को प्रशिक्षित करते हैं, तो आप इसे अपने स्वयं के इनपुट-टू-हिडन छिपे हुए वज़न को खोजने देते हैं, जो बेहतर होने की क्षमता है। इसमें अधिक समय भी लग सकता है और यह असंगत हो सकता है। आप अतिरिक्त सुविधाओं के साथ लॉजिस्टिक प्रतिगमन के लिए एक अनुमान के साथ शुरू कर सकते हैं, और इनपुट-टू-हिडन वेट को धीरे-धीरे प्रशिक्षित कर सकते हैं, और यह अंततः अतिरिक्त सुविधाओं के साथ लॉजिस्टिक प्रतिगमन से बेहतर करना चाहिए। समस्या के आधार पर, प्रशिक्षण का समय नगण्य या निषेधात्मक हो सकता है।x311x3

एक मध्यवर्ती रणनीति बड़ी संख्या में यादृच्छिक नोड्स का चयन करना है, जो तब होता है जब आप एक तंत्रिका नेटवर्क को इनिशियलाइज़ करते हैं, और इनपुट-टू-हिडन वेट्स को ठीक करते हैं। * -To- आउटपुट वेट पर अनुकूलन रैखिक रहता है। इसे एक्सट्रीम लर्निंग मशीन कहा जाता है । यह कम से कम मूल लॉजिस्टिक प्रतिगमन के रूप में काम करता है।


1
"एक मध्यवर्ती रणनीति बड़ी संख्या में यादृच्छिक नोड्स का चयन करना है, जो तब होता है जब आप एक तंत्रिका नेटवर्क को इनिशियलाइज़ करते हैं, और इनपुट-टू-हिडन वेट्स को ठीक करते हैं। * -ऑटो-आउटपुट वेट पर अनुकूलन रैखिक रहता है।" => आपका मतलब है कि इस मामले में समाधान के लिए एक ही वैश्विक अधिकतम होगा?
ह्यूग पर्किन्स

1
यादृच्छिक छिपा नोड्स के एक सामान्य यादृच्छिक विकल्प के लिए, हाँ।
डगलस ज़ेरे

2
महान पोस्ट - [LR, LogR, NN, ELM] के लिए संदर्भ प्रदान करता है। LogR को स्किप-लेयर NN होने के बारे में आपकी टिप्पणी स्पष्ट होने के बाद स्पष्ट लगती है, लेकिन एक अच्छी अंतर्दृष्टि है।
javadba

3

रेखीय प्रतिगमन का लक्ष्य उन डेटा को अलग करना है जो रैखिक रूप से अलग करने योग्य हैं, हां आप अतिरिक्त तीसरे> डिग्री बहुपद का उपयोग कर सकते हैं लेकिन इस तरह से आपने डेटा के बारे में कुछ अनुमानों को फिर से इंगित किया है जब से आप उद्देश्य फ़ंक्शन की संरचना को परिभाषित करते हैं। न्यूरल नेट में। आम तौर पर आपके पास इनपुट परत होती है जो आपके पास डेटा के लिए रैखिक विभाजक बनाती है और परत को छिपाती है और उन क्षेत्रों को जोड़ती है जो कुछ वर्गों और अंतिम परत को इन सभी क्षेत्रों में बांधती हैं। इस तरह आपके पास मौजूद सभी डेटा को गैर रेखीय तरीके से वर्गीकृत किया जा सकता है, साथ ही ये सभी प्रक्रिया आंतरिक रूप से सीखे गए भार और परिभाषित कार्यों के साथ चल रही है। इसके अलावा, रैखिक प्रतिगमन के लिए सुविधा संख्या बढ़ाने का विरोध "आयामीता के अभिशाप" के लिए किया जाता है। इसके अलावा कुछ अनुप्रयोगों को आउटपुट के रूप में निरंतर संख्या की तुलना में अधिक संभाव्य परिणाम की आवश्यकता होती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.