"गहरी शिक्षा" और बहुस्तरीय / श्रेणीबद्ध मॉडलिंग के बीच क्या अंतर है?


31

क्या "गहरी सीख" मल्टीलेवल / पदानुक्रमित मॉडलिंग के लिए सिर्फ एक और शब्द है?

मैं पूर्व की तुलना में उत्तरार्द्ध से बहुत अधिक परिचित हूं, लेकिन मैं जो बता सकता हूं, उससे प्राथमिक अंतर उनकी परिभाषा में नहीं है, लेकिन उनका उपयोग और मूल्यांकन उनके आवेदन डोमेन के भीतर कैसे किया जाता है।

ऐसा लगता है कि एक विशिष्ट "डीप लर्निंग" एप्लिकेशन में नोड्स की संख्या बड़ी है और एक सामान्य पदानुक्रमित रूप का उपयोग करता है, जबकि बहुस्तरीय मॉडलिंग के अनुप्रयोगों में आमतौर पर एक पदानुक्रमित संबंधों का उपयोग किया जाता है जो सामान्य प्रक्रिया की नकल करते हैं। एक लागू आँकड़ों (पदानुक्रमित मॉडलिंग) डोमेन में एक सामान्य पदानुक्रम का उपयोग करना, घटना का एक "गलत" मॉडल माना जाएगा, जबकि एक डोमेन-विशिष्ट पदानुक्रम को मॉडलिंग करना एक सामान्य गहरी सीखने की सीखने की मशीन बनाने के उद्देश्य को कम करने के रूप में माना जा सकता है।

क्या ये दो चीजें वास्तव में दो अलग-अलग नामों के तहत एक ही मशीनरी हैं, दो अलग-अलग तरीकों से उपयोग की जाती हैं?

जवाबों:


38

समानता

मौलिक रूप से दोनों प्रकार के एल्गोरिदम को मशीन सीखने के अनुप्रयोगों में एक सामान्य प्रश्न का उत्तर देने के लिए विकसित किया गया था:

भविष्यवाणियों (कारकों) को देखते हुए - प्रदर्शन को बढ़ाने के लिए इस कारकों के बीच बातचीत को कैसे शामिल किया जाए?x1,x2,...,एक्सपी

एक तरीका बस नए भविष्यवक्ताओं का परिचय देना है: लेकिन यह मापदंडों की बहुत बड़ी संख्या और बहुत विशिष्ट प्रकार के इंटरैक्शन के कारण बुरा विचार साबित होता है।एक्सp+1=एक्स1एक्स2,एक्सपी+2=एक्स1एक्स3,...

मल्टीलेवल मॉडलिंग और डीप लर्निंग अल्गोरिद्म दोनों इस सवाल का जवाब देते हैं, जो इंटरेक्ट मॉडल के बहुत ही बेहतर मॉडल पेश करते हैं। और इस दृष्टिकोण से वे बहुत समान हैं।

अंतर

अब मैं अपनी समझ देने की कोशिश करता हूं कि उनके बीच महान वैचारिक अंतर क्या है। कुछ स्पष्टीकरण देने के लिए, आइए उन मान्यताओं को देखें जिन्हें हम प्रत्येक मॉडल में करते हैं:

1

2

डीप लर्निंग में " अंतर की संरचना ज्ञात नहीं है" वाक्यांश से मूलभूत अंतर आता है । हम बातचीत के प्रकार पर कुछ पुजारियों को ग्रहण कर सकते हैं, लेकिन फिर भी एल्गोरिथ्म सीखने की प्रक्रिया के दौरान सभी इंटरैक्शन को परिभाषित करता है। दूसरी ओर, हमें मल्टीलेवल मॉडलिंग के लिए इंटरैक्शन की संरचना को परिभाषित करना होगा (हम केवल बाद में मॉडल के मापदंडों को बदलते हैं) सीखते हैं।

उदाहरण

एक्स1,एक्स2,एक्स3{एक्स1}{एक्स2,एक्स3}

एक्स1एक्स2एक्स1एक्स3एक्स2एक्स3

डीप लर्निंग में, उदाहरण के लिए दो छिपी हुई परतों और रैखिक सक्रियण फ़ंक्शन के साथ बहुस्तरीय प्रतिबंधित बोल्ट्ज़मैन मशीनों ( आरबीएम ) में, हमारे पास डिग्री के साथ या तीन से कम डिग्री के साथ सभी संभव बहुपद इंटरैक्शन होंगे।

आम फायदे और नुकसान

मल्टीलेवल मॉडलिंग

(-) इंटरैक्शन की संरचना को परिभाषित करने की आवश्यकता है

(+) परिणाम आमतौर पर व्याख्या करने में आसान होते हैं

(+) सांख्यिकी विधियाँ लागू कर सकती हैं (आत्मविश्वास अंतरालों की जाँच करें, परिकल्पना की जाँच करें)

ध्यान लगा के पढ़ना या सीखना

(-) को प्रशिक्षित करने के लिए बड़ी मात्रा में डेटा की आवश्यकता होती है (और प्रशिक्षण के लिए समय भी)

(-) परिणाम आम तौर पर व्याख्या करना असंभव है (एक ब्लैक बॉक्स के रूप में प्रदान किया जाता है)

(+) कोई विशेषज्ञ ज्ञान की आवश्यकता नहीं है

(+) एक बार अच्छी तरह से प्रशिक्षित होने के बाद, आमतौर पर अधिकांश अन्य सामान्य तरीकों से बेहतर प्रदर्शन करते हैं (आवेदन विशिष्ट नहीं)

आशा है कि यह मदद करेगा!


एक गहरे तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए भारी मात्रा में डेटा की आवश्यकता क्यों होती है? मैंने इसके बारे में पहले नहीं सुना है।
जस

1
@ जेजे न्यूरल नेटवर्क में आमतौर पर बहुत सारे पैरामीटर होते हैं, इसलिए कई मामलों में यदि आप एक छोटे डेटासेट का उपयोग करते हैं, तो आप शायद बस ओवरफिट हो जाएंगे। बेशक, सब कुछ कार्य पर निर्भर करता है, लेकिन आजकल के अधिकांश प्रभावशाली एनएन परिणाम बेहद विशाल डेटासेट का उपयोग करते हैं।
दिमित्री लापेतेव

सहमत हैं कि प्रभावशाली परिणाम विशाल डेटासेट पर हैं, लेकिन मुझे यकीन नहीं है कि हम इसे छोटे डेटासेट से सामान्य बनाने के लिए ड्रॉपआउट और अन्य ट्रिक का उपयोग नहीं कर सकते हैं।
जज

1
@ जेजे ज़रूर, आपके द्वारा उपयोग किए जा सकने वाले विभिन्न आंकड़े हैं। लेकिन छवि प्रसंस्करण के साथ मेरे अनुभव तक, उनमें से लगभग सभी कुछ नियमितीकरण पेश करते हैं, जो मूल रूप से कुछ पूर्व और इसलिए पूर्वाग्रह को पेश करने के बराबर है। जो हमेशा से नहीं है जो आप चाहते हैं।
दिमित्री लापेतेव

यदि आप एक पदानुक्रमित Dirichlet पूर्व जैसे nonparametrics का उपयोग करते हैं तो संभवतः आपको इंटरैक्शन की संरचना को परिभाषित करने की आवश्यकता नहीं है।
एस्ट्रिड

2

हालांकि यह सवाल / जवाब थोड़ा बाहर हो गया है, मैंने सोचा कि यह उत्तर में कुछ बिंदुओं को स्पष्ट करने के लिए सहायक हो सकता है। सबसे पहले, वाक्यांश पदानुक्रमित तरीकों और गहरे तंत्रिका नेटवर्क के बीच एक प्रमुख अंतर के रूप में उठाया गया है 'यह नेटवर्क तय हो गया है।' गलत है। वैकल्पिक, तंत्रिका नेटवर्क की तुलना में पदानुक्रमित विधियाँ अधिक 'निश्चित' नहीं हैं। उदाहरण के लिए देखें, पेपर डीप लर्निंग विथ हियरार्चिकल कन्वोकेशनल फैक्टर एनालिसिस, चेन एट। अल।। मुझे लगता है कि आप यह भी पाएंगे कि बातचीत को परिभाषित करने की आवश्यकता भी एक अलग बिंदु नहीं है। कुछ बिंदु जो कि पदानुक्रमित मॉडलिंग के साथ एक प्लस के रूप में सूचीबद्ध नहीं हैं, मेरे अनुभव से, ओवरफिटिंग की काफी कम समस्या और बहुत बड़े और बहुत छोटे प्रशिक्षण सेट दोनों को संभालने की क्षमता है। एक नाइटपिक बिंदु यह है कि जब बायेसियन पदानुक्रमित तरीकों का उपयोग किया जाता है, तो आत्मविश्वास अंतराल और परिकल्पना परीक्षण आमतौर पर सांख्यिकीय तरीके नहीं होते हैं जो लागू होते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.