तंत्रिका नेटवर्क में "स्वतंत्रता की डिग्री" का क्या अर्थ है?


17

बिशप की पुस्तक "पैटर्न वर्गीकरण और मशीन लर्निंग" में, यह तंत्रिका नेटवर्क के संदर्भ में नियमितीकरण के लिए एक तकनीक का वर्णन करता है। हालाँकि, मुझे यह बताने में कोई पैराग्राफ समझ में नहीं आता है कि प्रशिक्षण प्रक्रिया के दौरान, मॉडल जटिलता के साथ-साथ स्वतंत्रता की डिग्री की संख्या बढ़ जाती है। प्रासंगिक उद्धरण निम्नलिखित है:

नेटवर्क की प्रभावी जटिलता को नियंत्रित करने के एक तरीके के रूप में नियमितीकरण का एक विकल्प शुरुआती रोक की प्रक्रिया है। गैर-नेटवर्क नेटवर्क मॉडल का प्रशिक्षण प्रशिक्षण डेटा के एक सेट के संबंध में परिभाषित त्रुटि फ़ंक्शन की पुनरावृत्ति में कमी से मेल खाता है। नेटवर्क प्रशिक्षण के लिए उपयोग किए जाने वाले कई अनुकूलन एल्गोरिदम, जैसे कि संयुग्मक ग्रेडिएंट्स के लिए, त्रुटि पुनरावृत्ति सूचकांक का एक नगण्य कार्य है। हालांकि, स्वतंत्र डेटा के संबंध में मापी गई त्रुटि, जिसे आम तौर पर एक सत्यापन सेट कहा जाता है, अक्सर पहली बार में कमी दिखाई देती है, इसके बाद वृद्धि में वृद्धि होती है क्योंकि नेटवर्क ओवर-फिट होने लगता है। इसलिए प्रशिक्षण को मान्य डेटा सेट के संबंध में सबसे छोटी त्रुटि के बिंदु पर रोका जा सकता है, जैसा कि चित्र 5.12 में संकेत दिया गया है, ताकि नेटवर्क का सामान्यीकरण अच्छा प्रदर्शन प्राप्त कर सके।इस मामले में नेटवर्क के व्यवहार को कभी-कभी नेटवर्क में स्वतंत्रता की डिग्री की प्रभावी संख्या के संदर्भ में गुणात्मक रूप से समझाया जाता है, जिसमें यह संख्या छोटे से शुरू होती है और फिर प्रशिक्षण प्रक्रिया के दौरान बढ़ने के लिए प्रभावी रूप से स्थिर वृद्धि के अनुरूप होती है। मॉडल की जटिलता।

यह भी कहता है कि प्रशिक्षण के दौरान मापदंडों की संख्या बढ़ती है। मैं यह मान रहा था कि "पैरामीटर" द्वारा, यह नेटवर्क की छिपी इकाइयों द्वारा नियंत्रित वजन की संख्या को संदर्भित करता है। हो सकता है कि मैं गलत हूं क्योंकि वजन को नियमितीकरण प्रक्रिया द्वारा परिमाण में वृद्धि से रोका जाता है लेकिन वे संख्या में नहीं बदलते हैं। क्या यह अच्छी संख्या में छिपी इकाइयों की खोज की प्रक्रिया का जिक्र कर सकता है?

तंत्रिका नेटवर्क में स्वतंत्रता की डिग्री क्या है? प्रशिक्षण के दौरान कौन से पैरामीटर बढ़ते हैं?


1
नामकरण। एक पैरामीटर एक एकल भार है। बढ़ते हुए मापदंडों की संख्या का अर्थ है "न्यूरॉन्स" या "न्यूरॉन्स के बीच संबंध" की संख्या बढ़ रही है। इसका मतलब यह है कि टोपोलॉजी गैर-स्थिर है।
EngrStudent -

धन्यवाद! लेकिन फिर प्रशिक्षण वजन की संख्या में वृद्धि क्यों करता है?
रॉबर्ट स्मिथ

वास्तव में प्रशिक्षण एल्गोरिदम हैं जो प्रशिक्षण के दौरान एक तंत्रिका नेटवर्क की संरचना में हेरफेर करते हैं (कैस्केड सहसंबंध, एनईएटी, ...)। वे आमतौर पर लगातार वज़न बढ़ाते हैं। लेकिन मुझे नहीं लगता कि बिशप ने अपनी पुस्तक में उल्लेख किया है।
अल्फ़ा

@ अल्फ़ा दिलचस्प। मैंने अभी तक पूरी किताब नहीं पढ़ी है, इसलिए मुझे नहीं पता कि क्या उस तरह के एल्गोरिदम का उल्लेख है। मुझे नहीं लगता कि यह पुस्तक के इस खंड में उन्हें संदर्भित करता है, हालांकि।
रॉबर्ट स्मिथ

जवाबों:


13

मुझे संदेह है कि बिशप का क्या मतलब है:

यदि आप एक तंत्रिका जाल को एक फ़ंक्शन के रूप में सोचते हैं जो आउटपुट में इनपुट को मैप करता है, तो जब आप पहली बार छोटे यादृच्छिक भार के साथ एक तंत्रिका जाल को प्रारंभिक करते हैं, तो तंत्रिका जाल एक रैखिक फ़ंक्शन की तरह दिखता है। सिग्मॉइड सक्रियण फ़ंक्शन शून्य के आसपास रैखिक के करीब है (बस एक टेलर विस्तार करते हैं), और छोटे आवक भार यह गारंटी देंगे कि प्रत्येक छिपी इकाई का प्रभावी प्रभुत्व शून्य के आसपास एक छोटा अंतराल है, इसलिए संपूर्ण तंत्रिका जाल, चाहे कितने भी हों आपके पास जो परतें हैं, वे एक रेखीय फ़ंक्शन की तरह दिखेंगी। तो आप स्वतंत्रता की डिग्री की छोटी संख्या (इनपुट के आयाम के बराबर) के रूप में तंत्रिका जाल का विधिपूर्वक वर्णन कर सकते हैं। जैसा कि आप तंत्रिका जाल को प्रशिक्षित करते हैं, वज़न मनमाने ढंग से बड़ा हो सकता है, और तंत्रिका जाल बेहतर गैर-रैखिक कार्यों को लगभग अनुमानित कर सकते हैं। जैसे ही प्रशिक्षण आगे बढ़ता है,


आपके उत्तर के लिए धन्यवाद। मैंने पुस्तक के संबंधित भाग को एक उद्धरण के रूप में जोड़ा, ताकि आप संदर्भ देख सकें। सुनिश्चित नहीं है कि यह आपके सुझाव की पुष्टि करता है, हालांकि।
रॉबर्ट स्मिथ

हां, यह पुष्टि करता है कि बिशप का क्या मतलब था।
मार्क शॉवर्स

आपके उत्तर के बारे में एक-दो बार पढ़ते हुए, मुझे लगता है कि जैसे-जैसे प्रशिक्षण आगे बढ़ता है और मॉडल ओवरफिट होने लगता है, मॉडल के अनुमानित कार्यों की संख्या वास्तव में कम हो जाती है, क्योंकि यह प्रशिक्षण डेटा से बहुत अच्छी तरह से अंक अनुमानित करेगा लेकिन इसकी भविष्यवाणियों ने जीत हासिल की टी अच्छा होगा क्योंकि यह अन्य बिंदुओं या समान डेटासेट को फिट करने के लिए सामान्य नहीं कर सकता है।
राबर्ट स्मिथ

4

वाक्यांश "कभी-कभी गुणात्मक रूप से समझाया गया" बताता है कि वह केवल सरल रैखिक प्रतिगमन के लिए एक सादृश्य बना रहा है। हर बार जब हम एक रेखीय प्रतिगमन मॉडल में एक शब्द जोड़ते हैं तो हम मॉडल में स्वतंत्रता की एक डिग्री जोड़ते हैं और त्रुटि शब्द से जुड़े लोगों से स्वतंत्रता की एक डिग्री घटाते हैं। यदि हम एक मॉडल में पर्याप्त स्वतंत्र शब्द डालते हैं, तो हम यादृच्छिक संख्याओं के एक सेट से इतिहास की पूरी तरह से "भविष्यवाणी" कर सकते हैं, लेकिन हम भविष्य की भविष्यवाणी करने में पूरी तरह से असमर्थ होंगे।


3

वाई 1998 1998 में जटिल सांख्यिकीय सीखने के मॉडल पर स्वतंत्रता की डिग्री के मुद्दे पर चर्चा की गई है । मूल रूप से, यह विचार करना है कि तंत्रिका नेटवर्क जैसे जटिल मॉडल का आउटपुट कितना है, इनपुट में एक यूनिट परिवर्तन का जवाब देता है। रैखिक मॉडल के लिए, संबंध एक-से-एक है, इसलिए जटिलता ( मॉडल की संख्या) के लिए स्वतंत्रता की डिग्री p हैpp। अधिक जटिल मॉडल (ये माना जाता है कि प्रतिगमन पेड़) के लिए, अतिरिक्त नोड को जोड़ने की क्षमता अधिक लचीलापन प्रदान करती है, क्योंकि कार्ट मॉडल विभाजन के लिए एक अच्छा चर और एक अच्छा विभाजन बिंदु दिखेगा। यह एक रैखिक मॉडल के लिए एक regressor जोड़ने से अधिक है जिस तरह से कर सकते हैं, और ये प्रतिगमन पेड़ों को अपने नोड के बारे में 3.5-4 dfs का उपभोग करने के लिए मिला। तंत्रिका नेटवर्क बीच में कहीं हो सकते हैं, लेकिन स्वतंत्रता की डिग्री निश्चित रूप से इकाइयों की संख्या से बड़ी है, और भार की संख्या से बड़ी हो सकती है।

मुझे लगता है कि एचटीएफ सेक द्वारा ऐसा ही कुछ प्रदान किया गया था 7.6 , हालांकि वे आश्चर्यजनक रूप से ये (1998) का उल्लेख नहीं करते हैं। वे बिशप को एक विशेष मामले के रूप में संदर्भित करते हैं, हालांकि।


1
धन्यवाद। यह सही है लेकिन एक तंत्रिका नेटवर्क के प्रशिक्षण के साथ संबंध के बारे में क्या लगता है? मैंने पृष्ठ 96 में "सांख्यिकीय शिक्षा के तत्व" पाया ( docs.google.com/… ) स्वतंत्रता और सहसंयोजक की डिग्री से संबंधित एक अभिव्यक्ति, और मैं यह देख सकता हूं कि अधिक प्रशिक्षण त्रुटि समारोह को कम क्यों करेगा और इसके परिणामस्वरूप सहसंयोजन में वृद्धि होगी और स्वतंत्रता का दर्जा। हालाँकि, मुझे यह समझ में नहीं आया कि यह समीकरण (पुस्तक में 3.60) क्यों है।
राबर्ट स्मिथ

वैसे, यह स्वतंत्रता के (सामान्यीकृत) डिग्री की परिभाषा से थोड़ा अलग लगता है, जो कि यी के पेपर में बात की गई थी।
राबर्ट स्मिथ

1
मुझे लगता है कि आप उस सहसंयोजक को व्युत्पन्न के किसी न किसी संस्करण के रूप में सोच सकते हैं ... या दूसरा तरीका हो सकता है: व्युत्पन्न, सीमा के रूप में परिभाषित कदम के आकार शून्य हो जाता है, के रूप में सोचा जा सकता है अशांति के विचरण के रूप में वह सह-अस्तित्व शून्य हो जाता है। समीकरण (3.60) को पकड़ना नहीं है, यह एक परिभाषा है , इसलिए धारण करने के लिए कुछ भी नहीं है। क्या करता है पकड़ रेखीय मॉडल के लिए डीएफएस है कि वे अगले पन्ने पर संक्षेप में उल्लेख की मानक परिभाषा के साथ तुल्यता है, और कहा कि बस रेखीय मॉडल की रेखीय बीजगणित है। ये (1998) के बारे में भी बात करनी चाहिए।
StasK

3

वह कहते हैं, "नेटवर्क की प्रभावी जटिलता"। वह वास्तव में नेटवर्क के वजन के आकार को संदर्भित करता है। इसे न्यूनतम विवरण लंबाई सिद्धांत के संदर्भ में समझा जा सकता है । लेकिन इससे पहले कि मैं अंदर जाऊँ, अंतर्ज्ञान यह है कि जितना बड़ा वजन होगा, आपके नेटवर्क में उतने अधिक भिन्न प्रकार के कार्य हो सकते हैं, और इस प्रकार स्वतंत्रता की डिग्री (और प्रभावी जटिलता) अधिक होगी।

उस अध्याय में वह नियमितीकरण के बारे में बात कर रहा है, जो वजन को कम से कम करने की मांग करके प्रभावी ढंग से ओवरफिटिंग के जोखिम को कम करने की एक तकनीक है। सामान्य रूप में,

p(D|w)=np(tn|xn,w)=nexp(β2[tny(xn,w)]2)/ZD(β)
wZD(β)

p(w)=exp(α||w||22)/ZW(α)
argmaxwp(w|D)

p(w|D)=p(D|w)p(w)
Zw

argminwnβ2[tny(xn,w)]2+α2iwi2

आम तौर पर, आपके पास यह है कि एमएपी अनुमान निम्नलिखित के बराबर है,

wMAP=argminwlog2P(D|w)log2(w)

अभिव्यक्ति के दाहिने हाथ की ओर व्याख्या की जा सकती है क्योंकि बिट्स की संख्या आपके वर्गीकरण का वर्णन करने के लिए आवश्यक है। पहला शब्द बिट्स की संख्या को दर्शाता है जो आपके डेटा को प्रशिक्षण डेटा पर त्रुटियों को कोड करने के लिए आवश्यक है। दूसरा वेट कोड करने के लिए आवश्यक बिट्स की संख्या को दर्शाता है।

इस प्रकार एमएपी का अनुमान इस प्रकार संभव है कि सबसे अधिक कॉम्पैक्ट प्रतिनिधित्व को चुना जाए। दूसरे शब्दों में, आप वजन के सेट की तलाश करते हैं जो प्रशिक्षण डेटा के लिए ईमानदारी से संभव हो सके जो कम से कम बिट्स के साथ व्यक्त किए जा सकते हैं।

ध्यान दें कि यह पूर्वाग्रह / विचरण समस्या का एक और रूप है: जितना बड़ा वजन, उतना कम पहला कार्यकाल, क्योंकि नेटवर्क प्रशिक्षण डेटा को बेहतर (ओवरफिटिंग) फिट कर सकता है। लेकिन एक ही समय में अधिक वजन की जटिलता। वजन जितना छोटा होगा, नेटवर्क की जटिलता उतनी ही छोटी होगी, लेकिन त्रुटि शब्द (पूर्वाग्रह) अधिक होगा। नेटवर्क की त्रुटियों को कोड करने के लिए आवश्यक बिट्स की संख्या अधिक है।

आशा है कि यह आपको एक अच्छा विचार देता है कि वह किस बात का जिक्र कर रहा है।

PS चल रही चर्चा में एक लंबा तर्क जोड़ रहा है शायद मैं आपको गलत समझ रहा हूं। कृपया मुझे अपने आप को अंतिम बार समझाने की कोशिश करें।

वजन पर पूर्व का अर्थ है कि हम उस फ़ंक्शन के बारे में धारणा का प्रतिनिधित्व करते हैं जिसे आप फिट करना चाहते हैं। पहले जितना बड़ा (यानी वजन) गाऊसी को व्यापक बनाता है, यानी जितना संभव हो उतना संभव कॉन्फ़िगरेशन नेटवर्क को फिट करने के लिए मानता है।

आइए हम प्रतिगमन के मामले पर विचार करें (जैसा कि कागज में मैंने उल्लेख किया है)। कम सामान्यीकरण त्रुटि का मतलब है कि नेटवर्क वास्तविक मूल्यों के बहुत करीब अनदेखी नमूने को मैप करने में सक्षम है। यदि आप एक सीधी रेखा को फिट कर रहे हैं, तो एक पहला क्रम बहुपद (कम जटिलता) है। अब, आप डेटा को उच्च क्रम बहुपद के साथ भी फिट कर सकते हैं (उच्च क्रम गुणांक शून्य से अलग हो सकते हैं)। नेटवर्क की जटिलता अधिक है क्योंकि आप अधिक जटिल वक्र के लिए दोलनों की अनुमति देते हैं। फिर भी, यदि उच्च आदेश की शर्तों के अनुरूप गुणांक काफी कम हैं, तो नेटवर्क सीधी रेखा को बहुत अच्छी तरह से अनुमानित कर सकता है, इस प्रकार परिणाम अच्छा हो सकता है।

तो एमडीएल का पूरा बिंदु आपके वजन को यथासंभव छोटा करना है, जब तक कि सामान्यीकरण त्रुटि मुझे कम से कम कर सकती है।

अंत में, आपको उद्धृत करते हुए: "मैं अभी भी इस तर्क को परेशान करता हूं कि जैसे-जैसे मॉडल ओवरफिट होने लगता है, मॉडल के कार्यों के लिए इसकी क्षमताओं में वृद्धि होगी। मुझे लगता है कि यह बिल्कुल विपरीत है क्योंकि एक मॉडल जो ओवरफिट करता है, उसे नए पर लागू होने के लिए सामान्यीकृत नहीं किया जा सकता है। जानकारी।"। हां, यह अन्य जटिल कार्यों को मॉडल कर सकता है, लेकिन यह फ़ंक्शन को ठीक से मॉडल करने में विफल होगा। पुस्तक में आंकड़ा 5.12 में, त्रुटि पहले कम हो जाती है, क्योंकि वजन का आकार बढ़ता है (पूर्वाग्रह में कमी)। किसी दिए गए बिंदु तक जब यह फिर से बढ़ना शुरू हो जाता है (सामान्यीकरण में कमी, ओवरफिट)।


1
धन्यवाद। यह मार्क के विचार से मिलता-जुलता है, हालांकि, मुझे अब भी इस तर्क से परेशानी हो रही है कि जैसे-जैसे मॉडल ओवरफिट होने लगेगा, मॉडल के अन्य कार्यों की क्षमता बढ़ेगी। मुझे लगता है कि यह बिल्कुल विपरीत है क्योंकि एक मॉडल जो ओवरफिट करता है, नई जानकारी पर लागू होने के लिए सामान्यीकृत नहीं कर सकता है।
रॉबर्ट स्मिथ

1
रॉबर्ट, मेरा मानना ​​है कि सामान्यीकरण त्रुटि के बारे में कुछ गलतफहमी है कि इसका मतलब नेटवर्क की जटिलता बनाम अधिक जटिल कार्यों को मॉडल करने की क्षमता है। विभिन्न शब्दों का वर्णन करने वाले कई पेपर हैं, जैसे cbcl.mit.edu/projects/cbcl/publications/ps/…
jpmuc

मुझे नहीं लगता कि "जटिलता" शब्द का उपयोग करने पर भ्रम होता है क्योंकि यदि आपके पास पागल मूल्यों के साथ वजन का एक गुच्छा है, जो मॉडल को बहुत जटिल बनाता है और आप तुरंत परिणामी भूखंड द्वारा बता सकते हैं। दूसरी ओर, कई प्रकार के कार्यों का प्रबंधन करने में सक्षम होने के लिए एक मॉडल की आवश्यकता होती है, जो डेटा से अच्छी तरह से सामान्यीकृत होने में सक्षम हो, जिसे ओवरफिटिंग से बचाकर प्राप्त किया जा सकता है।
राबर्ट स्मिथ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.