तंत्रिका नेटवर्क में "स्वतंत्रता की डिग्री" का क्या अर्थ है?

17

बिशप की पुस्तक "पैटर्न वर्गीकरण और मशीन लर्निंग" में, यह तंत्रिका नेटवर्क के संदर्भ में नियमितीकरण के लिए एक तकनीक का वर्णन करता है। हालाँकि, मुझे यह बताने में कोई पैराग्राफ समझ में नहीं आता है कि प्रशिक्षण प्रक्रिया के दौरान, मॉडल जटिलता के साथ-साथ स्वतंत्रता की डिग्री की संख्या बढ़ जाती है। प्रासंगिक उद्धरण निम्नलिखित है:

नेटवर्क की प्रभावी जटिलता को नियंत्रित करने के एक तरीके के रूप में नियमितीकरण का एक विकल्प शुरुआती रोक की प्रक्रिया है। गैर-नेटवर्क नेटवर्क मॉडल का प्रशिक्षण प्रशिक्षण डेटा के एक सेट के संबंध में परिभाषित त्रुटि फ़ंक्शन की पुनरावृत्ति में कमी से मेल खाता है। नेटवर्क प्रशिक्षण के लिए उपयोग किए जाने वाले कई अनुकूलन एल्गोरिदम, जैसे कि संयुग्मक ग्रेडिएंट्स के लिए, त्रुटि पुनरावृत्ति सूचकांक का एक नगण्य कार्य है। हालांकि, स्वतंत्र डेटा के संबंध में मापी गई त्रुटि, जिसे आम तौर पर एक सत्यापन सेट कहा जाता है, अक्सर पहली बार में कमी दिखाई देती है, इसके बाद वृद्धि में वृद्धि होती है क्योंकि नेटवर्क ओवर-फिट होने लगता है। इसलिए प्रशिक्षण को मान्य डेटा सेट के संबंध में सबसे छोटी त्रुटि के बिंदु पर रोका जा सकता है, जैसा कि चित्र 5.12 में संकेत दिया गया है, ताकि नेटवर्क का सामान्यीकरण अच्छा प्रदर्शन प्राप्त कर सके।इस मामले में नेटवर्क के व्यवहार को कभी-कभी नेटवर्क में स्वतंत्रता की डिग्री की प्रभावी संख्या के संदर्भ में गुणात्मक रूप से समझाया जाता है, जिसमें यह संख्या छोटे से शुरू होती है और फिर प्रशिक्षण प्रक्रिया के दौरान बढ़ने के लिए प्रभावी रूप से स्थिर वृद्धि के अनुरूप होती है। मॉडल की जटिलता।

यह भी कहता है कि प्रशिक्षण के दौरान मापदंडों की संख्या बढ़ती है। मैं यह मान रहा था कि "पैरामीटर" द्वारा, यह नेटवर्क की छिपी इकाइयों द्वारा नियंत्रित वजन की संख्या को संदर्भित करता है। हो सकता है कि मैं गलत हूं क्योंकि वजन को नियमितीकरण प्रक्रिया द्वारा परिमाण में वृद्धि से रोका जाता है लेकिन वे संख्या में नहीं बदलते हैं। क्या यह अच्छी संख्या में छिपी इकाइयों की खोज की प्रक्रिया का जिक्र कर सकता है?

तंत्रिका नेटवर्क में स्वतंत्रता की डिग्री क्या है? प्रशिक्षण के दौरान कौन से पैरामीटर बढ़ते हैं?

— रॉबर्ट स्मिथ
स्रोत

1

नामकरण। एक पैरामीटर एक एकल भार है। बढ़ते हुए मापदंडों की संख्या का अर्थ है "न्यूरॉन्स" या "न्यूरॉन्स के बीच संबंध" की संख्या बढ़ रही है। इसका मतलब यह है कि टोपोलॉजी गैर-स्थिर है।

— EngrStudent -

धन्यवाद! लेकिन फिर प्रशिक्षण वजन की संख्या में वृद्धि क्यों करता है?

— रॉबर्ट स्मिथ

वास्तव में प्रशिक्षण एल्गोरिदम हैं जो प्रशिक्षण के दौरान एक तंत्रिका नेटवर्क की संरचना में हेरफेर करते हैं (कैस्केड सहसंबंध, एनईएटी, ...)। वे आमतौर पर लगातार वज़न बढ़ाते हैं। लेकिन मुझे नहीं लगता कि बिशप ने अपनी पुस्तक में उल्लेख किया है।

— अल्फ़ा

@ अल्फ़ा दिलचस्प। मैंने अभी तक पूरी किताब नहीं पढ़ी है, इसलिए मुझे नहीं पता कि क्या उस तरह के एल्गोरिदम का उल्लेख है। मुझे नहीं लगता कि यह पुस्तक के इस खंड में उन्हें संदर्भित करता है, हालांकि।

— रॉबर्ट स्मिथ

13

मुझे संदेह है कि बिशप का क्या मतलब है:

यदि आप एक तंत्रिका जाल को एक फ़ंक्शन के रूप में सोचते हैं जो आउटपुट में इनपुट को मैप करता है, तो जब आप पहली बार छोटे यादृच्छिक भार के साथ एक तंत्रिका जाल को प्रारंभिक करते हैं, तो तंत्रिका जाल एक रैखिक फ़ंक्शन की तरह दिखता है। सिग्मॉइड सक्रियण फ़ंक्शन शून्य के आसपास रैखिक के करीब है (बस एक टेलर विस्तार करते हैं), और छोटे आवक भार यह गारंटी देंगे कि प्रत्येक छिपी इकाई का प्रभावी प्रभुत्व शून्य के आसपास एक छोटा अंतराल है, इसलिए संपूर्ण तंत्रिका जाल, चाहे कितने भी हों आपके पास जो परतें हैं, वे एक रेखीय फ़ंक्शन की तरह दिखेंगी। तो आप स्वतंत्रता की डिग्री की छोटी संख्या (इनपुट के आयाम के बराबर) के रूप में तंत्रिका जाल का विधिपूर्वक वर्णन कर सकते हैं। जैसा कि आप तंत्रिका जाल को प्रशिक्षित करते हैं, वज़न मनमाने ढंग से बड़ा हो सकता है, और तंत्रिका जाल बेहतर गैर-रैखिक कार्यों को लगभग अनुमानित कर सकते हैं। जैसे ही प्रशिक्षण आगे बढ़ता है,

— मार्क नदियों
स्रोत

आपके उत्तर के लिए धन्यवाद। मैंने पुस्तक के संबंधित भाग को एक उद्धरण के रूप में जोड़ा, ताकि आप संदर्भ देख सकें। सुनिश्चित नहीं है कि यह आपके सुझाव की पुष्टि करता है, हालांकि।

— रॉबर्ट स्मिथ

हां, यह पुष्टि करता है कि बिशप का क्या मतलब था।

— मार्क शॉवर्स

आपके उत्तर के बारे में एक-दो बार पढ़ते हुए, मुझे लगता है कि जैसे-जैसे प्रशिक्षण आगे बढ़ता है और मॉडल ओवरफिट होने लगता है, मॉडल के अनुमानित कार्यों की संख्या वास्तव में कम हो जाती है, क्योंकि यह प्रशिक्षण डेटा से बहुत अच्छी तरह से अंक अनुमानित करेगा लेकिन इसकी भविष्यवाणियों ने जीत हासिल की टी अच्छा होगा क्योंकि यह अन्य बिंदुओं या समान डेटासेट को फिट करने के लिए सामान्य नहीं कर सकता है।

— राबर्ट स्मिथ

4

वाक्यांश "कभी-कभी गुणात्मक रूप से समझाया गया" बताता है कि वह केवल सरल रैखिक प्रतिगमन के लिए एक सादृश्य बना रहा है। हर बार जब हम एक रेखीय प्रतिगमन मॉडल में एक शब्द जोड़ते हैं तो हम मॉडल में स्वतंत्रता की एक डिग्री जोड़ते हैं और त्रुटि शब्द से जुड़े लोगों से स्वतंत्रता की एक डिग्री घटाते हैं। यदि हम एक मॉडल में पर्याप्त स्वतंत्र शब्द डालते हैं, तो हम यादृच्छिक संख्याओं के एक सेट से इतिहास की पूरी तरह से "भविष्यवाणी" कर सकते हैं, लेकिन हम भविष्य की भविष्यवाणी करने में पूरी तरह से असमर्थ होंगे।

— एमिल फ्रीडमैन
स्रोत

3

वाई 1998 1998 में जटिल सांख्यिकीय सीखने के मॉडल पर स्वतंत्रता की डिग्री के मुद्दे पर चर्चा की गई है । मूल रूप से, यह विचार करना है कि तंत्रिका नेटवर्क जैसे जटिल मॉडल का आउटपुट कितना है, इनपुट में एक यूनिट परिवर्तन का जवाब देता है। रैखिक मॉडल के लिए, संबंध एक-से-एक है, इसलिए जटिलता ( मॉडल की संख्या) के लिए स्वतंत्रता की डिग्री $p$ $p$ । अधिक जटिल मॉडल (ये माना जाता है कि प्रतिगमन पेड़) के लिए, अतिरिक्त नोड को जोड़ने की क्षमता अधिक लचीलापन प्रदान करती है, क्योंकि कार्ट मॉडल विभाजन के लिए एक अच्छा चर और एक अच्छा विभाजन बिंदु दिखेगा। यह एक रैखिक मॉडल के लिए एक regressor जोड़ने से अधिक है जिस तरह से कर सकते हैं, और ये प्रतिगमन पेड़ों को अपने नोड के बारे में 3.5-4 dfs का उपभोग करने के लिए मिला। तंत्रिका नेटवर्क बीच में कहीं हो सकते हैं, लेकिन स्वतंत्रता की डिग्री निश्चित रूप से इकाइयों की संख्या से बड़ी है, और भार की संख्या से बड़ी हो सकती है।

मुझे लगता है कि एचटीएफ सेक द्वारा ऐसा ही कुछ प्रदान किया गया था । 7.6 , हालांकि वे आश्चर्यजनक रूप से ये (1998) का उल्लेख नहीं करते हैं। वे बिशप को एक विशेष मामले के रूप में संदर्भित करते हैं, हालांकि।

— StasK
स्रोत

1

धन्यवाद। यह सही है लेकिन एक तंत्रिका नेटवर्क के प्रशिक्षण के साथ संबंध के बारे में क्या लगता है? मैंने पृष्ठ 96 में "सांख्यिकीय शिक्षा के तत्व" पाया ( docs.google.com/… ) स्वतंत्रता और सहसंयोजक की डिग्री से संबंधित एक अभिव्यक्ति, और मैं यह देख सकता हूं कि अधिक प्रशिक्षण त्रुटि समारोह को कम क्यों करेगा और इसके परिणामस्वरूप सहसंयोजन में वृद्धि होगी और स्वतंत्रता का दर्जा। हालाँकि, मुझे यह समझ में नहीं आया कि यह समीकरण (पुस्तक में 3.60) क्यों है।

— राबर्ट स्मिथ

वैसे, यह स्वतंत्रता के (सामान्यीकृत) डिग्री की परिभाषा से थोड़ा अलग लगता है, जो कि यी के पेपर में बात की गई थी।

— राबर्ट स्मिथ

1

मुझे लगता है कि आप उस सहसंयोजक को व्युत्पन्न के किसी न किसी संस्करण के रूप में सोच सकते हैं ... या दूसरा तरीका हो सकता है: व्युत्पन्न, सीमा के रूप में परिभाषित कदम के आकार शून्य हो जाता है, के रूप में सोचा जा सकता है अशांति के विचरण के रूप में वह सह-अस्तित्व शून्य हो जाता है। समीकरण (3.60) को पकड़ना नहीं है, यह एक परिभाषा है , इसलिए धारण करने के लिए कुछ भी नहीं है। क्या करता है पकड़ रेखीय मॉडल के लिए डीएफएस है कि वे अगले पन्ने पर संक्षेप में उल्लेख की मानक परिभाषा के साथ तुल्यता है, और कहा कि बस रेखीय मॉडल की रेखीय बीजगणित है। ये (1998) के बारे में भी बात करनी चाहिए।

— StasK

3

वह कहते हैं, "नेटवर्क की प्रभावी जटिलता"। वह वास्तव में नेटवर्क के वजन के आकार को संदर्भित करता है। इसे न्यूनतम विवरण लंबाई सिद्धांत के संदर्भ में समझा जा सकता है । लेकिन इससे पहले कि मैं अंदर जाऊँ, अंतर्ज्ञान यह है कि जितना बड़ा वजन होगा, आपके नेटवर्क में उतने अधिक भिन्न प्रकार के कार्य हो सकते हैं, और इस प्रकार स्वतंत्रता की डिग्री (और प्रभावी जटिलता) अधिक होगी।

उस अध्याय में वह नियमितीकरण के बारे में बात कर रहा है, जो वजन को कम से कम करने की मांग करके प्रभावी ढंग से ओवरफिटिंग के जोखिम को कम करने की एक तकनीक है। सामान्य रूप में,

p (D | w) = \prod_{n} p (t_{n} | x_{n}, w) = \prod_{n} \exp (\frac{β}{2} {[t_{n} - y (x_{n}, w)]}^{2}) / Z_{D} (β)

$p(D|\mathbf{w}) = \prod_{n} p(t_{n}|\mathbf{x_{n}},\mathbf{w}) = \prod_{n}\exp \left(\frac{\beta}{2} \left[t_{n}- y(\mathbf{x_{n}},\mathbf{w}) \right]^{2}\right)/Z_{D}(\beta)$

w

$\mathbf{w}$

Z_{D} (β)

$Z_{D}(\beta)$

p (w) = \exp (- \frac{α | | w | |^{2}}{2}) / Z_{W} (α)

$p(\mathbf{w}) = \exp \left( -\frac{\alpha ||\mathbf{w}||^{2}}{2}\right)/Z_{W}(\alpha)$

\arg max_{w} p (w | D)

$\arg\max_{w} p(\mathbf{w}|D)$

p (w | D) = p (D | w) p (w)

$p(\mathbf{w}|D) = p(D|\mathbf{w})p(\mathbf{w})$

Z

$Z$

w

$\mathbf{w}$

\arg min_{w} \sum_{n} \frac{β}{2} {[t_{n} - y (x_{n}, w)]}^{2} + \frac{α}{2} \sum_{i} w_{i}^{2}

$\arg\min_{w} \sum_{n}\frac{\beta}{2} \left[t_{n}- y(\mathbf{x_{n}},\mathbf{w}) \right]^{2} + \frac{\alpha}{2}\sum_{i}w_{i}^{2}$

आम तौर पर, आपके पास यह है कि एमएपी अनुमान निम्नलिखित के बराबर है,

w_{M A P} = {argmin}_{w} - l o g_{2} P (D | w) - l o g_{2} (w)

$\mathbf{w}_{MAP} = \operatorname{argmin}_{\mathbf{w}} -log_{2}P(D|\mathbf{w}) - log_{2}(\mathbf{w})$

अभिव्यक्ति के दाहिने हाथ की ओर व्याख्या की जा सकती है क्योंकि बिट्स की संख्या आपके वर्गीकरण का वर्णन करने के लिए आवश्यक है। पहला शब्द बिट्स की संख्या को दर्शाता है जो आपके डेटा को प्रशिक्षण डेटा पर त्रुटियों को कोड करने के लिए आवश्यक है। दूसरा वेट कोड करने के लिए आवश्यक बिट्स की संख्या को दर्शाता है।

इस प्रकार एमएपी का अनुमान इस प्रकार संभव है कि सबसे अधिक कॉम्पैक्ट प्रतिनिधित्व को चुना जाए। दूसरे शब्दों में, आप वजन के सेट की तलाश करते हैं जो प्रशिक्षण डेटा के लिए ईमानदारी से संभव हो सके जो कम से कम बिट्स के साथ व्यक्त किए जा सकते हैं।

ध्यान दें कि यह पूर्वाग्रह / विचरण समस्या का एक और रूप है: जितना बड़ा वजन, उतना कम पहला कार्यकाल, क्योंकि नेटवर्क प्रशिक्षण डेटा को बेहतर (ओवरफिटिंग) फिट कर सकता है। लेकिन एक ही समय में अधिक वजन की जटिलता। वजन जितना छोटा होगा, नेटवर्क की जटिलता उतनी ही छोटी होगी, लेकिन त्रुटि शब्द (पूर्वाग्रह) अधिक होगा। नेटवर्क की त्रुटियों को कोड करने के लिए आवश्यक बिट्स की संख्या अधिक है।

आशा है कि यह आपको एक अच्छा विचार देता है कि वह किस बात का जिक्र कर रहा है।

PS चल रही चर्चा में एक लंबा तर्क जोड़ रहा है शायद मैं आपको गलत समझ रहा हूं। कृपया मुझे अपने आप को अंतिम बार समझाने की कोशिश करें।

वजन पर पूर्व का अर्थ है कि हम उस फ़ंक्शन के बारे में धारणा का प्रतिनिधित्व करते हैं जिसे आप फिट करना चाहते हैं। पहले जितना बड़ा (यानी वजन) गाऊसी को व्यापक बनाता है, यानी जितना संभव हो उतना संभव कॉन्फ़िगरेशन नेटवर्क को फिट करने के लिए मानता है।

आइए हम प्रतिगमन के मामले पर विचार करें (जैसा कि कागज में मैंने उल्लेख किया है)। कम सामान्यीकरण त्रुटि का मतलब है कि नेटवर्क वास्तविक मूल्यों के बहुत करीब अनदेखी नमूने को मैप करने में सक्षम है। यदि आप एक सीधी रेखा को फिट कर रहे हैं, तो एक पहला क्रम बहुपद (कम जटिलता) है। अब, आप डेटा को उच्च क्रम बहुपद के साथ भी फिट कर सकते हैं (उच्च क्रम गुणांक शून्य से अलग हो सकते हैं)। नेटवर्क की जटिलता अधिक है क्योंकि आप अधिक जटिल वक्र के लिए दोलनों की अनुमति देते हैं। फिर भी, यदि उच्च आदेश की शर्तों के अनुरूप गुणांक काफी कम हैं, तो नेटवर्क सीधी रेखा को बहुत अच्छी तरह से अनुमानित कर सकता है, इस प्रकार परिणाम अच्छा हो सकता है।

तो एमडीएल का पूरा बिंदु आपके वजन को यथासंभव छोटा करना है, जब तक कि सामान्यीकरण त्रुटि मुझे कम से कम कर सकती है।

अंत में, आपको उद्धृत करते हुए: "मैं अभी भी इस तर्क को परेशान करता हूं कि जैसे-जैसे मॉडल ओवरफिट होने लगता है, मॉडल के कार्यों के लिए इसकी क्षमताओं में वृद्धि होगी। मुझे लगता है कि यह बिल्कुल विपरीत है क्योंकि एक मॉडल जो ओवरफिट करता है, उसे नए पर लागू होने के लिए सामान्यीकृत नहीं किया जा सकता है। जानकारी।"। हां, यह अन्य जटिल कार्यों को मॉडल कर सकता है, लेकिन यह फ़ंक्शन को ठीक से मॉडल करने में विफल होगा। पुस्तक में आंकड़ा 5.12 में, त्रुटि पहले कम हो जाती है, क्योंकि वजन का आकार बढ़ता है (पूर्वाग्रह में कमी)। किसी दिए गए बिंदु तक जब यह फिर से बढ़ना शुरू हो जाता है (सामान्यीकरण में कमी, ओवरफिट)।

— jpmuc
स्रोत

1

धन्यवाद। यह मार्क के विचार से मिलता-जुलता है, हालांकि, मुझे अब भी इस तर्क से परेशानी हो रही है कि जैसे-जैसे मॉडल ओवरफिट होने लगेगा, मॉडल के अन्य कार्यों की क्षमता बढ़ेगी। मुझे लगता है कि यह बिल्कुल विपरीत है क्योंकि एक मॉडल जो ओवरफिट करता है, नई जानकारी पर लागू होने के लिए सामान्यीकृत नहीं कर सकता है।

— रॉबर्ट स्मिथ

1

रॉबर्ट, मेरा मानना है कि सामान्यीकरण त्रुटि के बारे में कुछ गलतफहमी है कि इसका मतलब नेटवर्क की जटिलता बनाम अधिक जटिल कार्यों को मॉडल करने की क्षमता है। विभिन्न शब्दों का वर्णन करने वाले कई पेपर हैं, जैसे cbcl.mit.edu/projects/cbcl/publications/ps/… ।

— jpmuc

मुझे नहीं लगता कि "जटिलता" शब्द का उपयोग करने पर भ्रम होता है क्योंकि यदि आपके पास पागल मूल्यों के साथ वजन का एक गुच्छा है, जो मॉडल को बहुत जटिल बनाता है और आप तुरंत परिणामी भूखंड द्वारा बता सकते हैं। दूसरी ओर, कई प्रकार के कार्यों का प्रबंधन करने में सक्षम होने के लिए एक मॉडल की आवश्यकता होती है, जो डेटा से अच्छी तरह से सामान्यीकृत होने में सक्षम हो, जिसे ओवरफिटिंग से बचाकर प्राप्त किया जा सकता है।

— राबर्ट स्मिथ