परसेप्ट्रॉन नियम से ग्रैडिएंट डिसेंट के लिए: लॉजिस्टिक्स रिग्रेशन से अलग सिग्मॉइड एक्टिवेशन फंक्शन के साथ पेरीसेप्टन कैसे होते हैं?


21

अनिवार्य रूप से, मेरा सवाल यह है कि बहुपरत पर्सेप्ट्रॉन में, सिग्माइड्रॉन का उपयोग सिग्मॉइड सक्रियण फ़ंक्शन के साथ किया जाता है। तो नवीनीकरण नियम में है कि y के रूप में गणना की जाती हैy^

y^=11+exp(wTxi)

यह "सिग्मॉइड" पर्सेप्ट्रॉन एक लॉजिस्टिक रिग्रेशन से कैसे भिन्न होता है?

मैं कहूँगा कि एक एकल परत अवग्रह perceptron अर्थों में एक रसद प्रतिगमन के बराबर है कि दोनों उपयोग y = 1y^=11+exp(wTxi)अपडेट नियम में 1 + ऍक्स्प ( - w T x i ) । इसके अलावा, दोनों वापसीभविष्यवाणी में। हालाँकि, बहुपरत पेसेप्ट्रॉन में, सिग्मॉइड एक्टिवेशन फंक्शन का उपयोग प्रायिकता को लौटाने के लिए किया जाता है, लॉजिस्टिक रिग्रेशन और सिंगल-लेयर पर्सेप्ट्रॉन के विपरीत ऑन-ऑफ सिग्नल पर नहीं।sign(y^=11+exp(wTxi))

मुझे लगता है कि "परसेप्ट्रॉन" शब्द का उपयोग थोड़ा अस्पष्ट हो सकता है, इसलिए मुझे सिंगल-लेयर परसेप्ट्रॉन के बारे में मेरी वर्तमान समझ के आधार पर कुछ पृष्ठभूमि प्रदान करें:

क्लासिक अवधारणात्मक नियम

सबसे पहले, एफ। रोसेनब्लाट द्वारा क्लासिक परसेप्ट्रॉन जहां हमारे पास एक चरण कार्य है:

Δwd=η(yiyi^)xidyi,yi^{1,1}

वजन को अद्यतन करने के लिए

wk:=wk+Δwk(k{1,...,d})

ताकि y के रूप में गणना की जाती हैy^

y^=sign(wTxi)=sign(w0+w1xi1+...+wdxid)


ढतला हुआ वंश

ग्रेडिएंट डिसेंट का उपयोग करके, हम लागत फ़ंक्शन का अनुकूलन (कम से कम) करते हैं

J(w)=i12(yiyi^)2yi,yi^R

जहां हमारे पास "वास्तविक" संख्याएं हैं, इसलिए मैं इसे मूल रूप से रैखिक प्रतिगमन के अनुरूप देखता हूं, इस अंतर के साथ कि हमारा वर्गीकरण आउटपुट थ्रेसहोल्ड है।

जब हम भार को अद्यतन करते हैं, तो यहां हम ग्रेडिएंट की नकारात्मक दिशा में एक कदम उठाते हैं

Δwk=ηJwk=ηi(yiyi^)(xik)=ηi(yiyi^)xik

लेकिन यहाँ, हमारे पास y = डब्ल्यू टी x मैं के बजाय y = संकेत ( डब्ल्यू टी x मैं )y^=wTxiy^=sign(wTxi)

wk:=wk+Δwk(k{1,...,d})

साथ ही, हम क्लासिक पेसेप्ट्रॉन नियम के विपरीत संपूर्ण प्रशिक्षण डेटासेट (बैच लर्निंग मोड में) के लिए एक पूर्ण पास के लिए चुकता त्रुटियों की गणना करते हैं, जो नए प्रशिक्षण नमूनों के आने के साथ वेट को अपडेट करते हैं (एनालॉग से स्टॉचस्टिक ग्रेडिएंट वंश) सीख रहा हूँ)।


सिग्माइड सक्रियण फ़ंक्शन

अब, यहाँ मेरा सवाल है:

बहुपरत पर्सेप्ट्रोन में, एक रिसेप्ट्रॉन का उपयोग सिग्मॉइड सक्रियण फ़ंक्शन के साथ किया जाता है। तो नवीनीकरण नियम में है कि y के रूप में गणना की जाती हैy^

y^=11+exp(-wटीएक्समैं)

यह "सिग्मॉइड" पर्सेप्ट्रॉन एक लॉजिस्टिक रिग्रेशन से कैसे भिन्न होता है?


4
कमाल है, इस सवाल ने मुझे अपनी मशीन सीखने और तंत्रिका जाल मूल बातें घनीभूत करने की अनुमति दी!
वरूण

जवाबों:


4

ग्रेडिएंट डिसेंट का उपयोग करके, हम लागत फ़ंक्शन का अनुकूलन (कम से कम) करते हैं

जम्मू(w)=Σमैं12(yमैं-yमैं^)2yमैं,yमैं^आर

यदि आप औसत चुकता त्रुटि को कम करते हैं, तो यह लॉजिस्टिक रिग्रेशन से अलग है। लॉजिस्टिक रिग्रेशन आम तौर पर क्रॉस एन्ट्रॉपी लॉस के साथ जुड़ा हुआ है, यहां स्किटिट-लर्न लाइब्रेरी से एक परिचय पृष्ठ है ।


(मुझे लगता है कि बहुपरत perceptrons तंत्रिका नेटवर्क नामक एक ही बात कर रहे हैं।)

यदि आपने सिंगल-लेयर न्यूरल नेटवर्क के लिए क्रॉस एन्ट्रापी लॉस (नियमितीकरण के साथ) का उपयोग किया है, तो यह लॉजिस्टिक रिग्रेशन के समान मॉडल (लॉग-लीनियर मॉडल) होने वाला है। यदि आप इसके बजाय मल्टी-लेयर नेटवर्क का उपयोग करते हैं, तो इसे पैरामीट्रिक नॉनलाइनियर बेस फंक्शंस के साथ लॉजिस्टिक रिग्रेशन के रूप में सोचा जा सकता है।


हालाँकि, बहुपरत पेसेप्ट्रॉन में, सिग्मॉइड एक्टिवेशन फंक्शन का उपयोग प्रायिकता को लौटाने के लिए किया जाता है, लॉजिस्टिक रिग्रेशन और सिंगल-लेयर पर्सेप्ट्रॉन के विपरीत ऑन-ऑफ सिग्नल पर नहीं।

सिग्मॉइड एक्टिवेशन फंक्शन वाले लॉजिस्टिक रिग्रेशन और न्यूरल नेटवर्क दोनों के आउटपुट को संभाव्यता के रूप में व्याख्या किया जा सकता है। जैसा कि क्रॉस एन्ट्रॉपी लॉस वास्तव में बर्नौली वितरण के माध्यम से परिभाषित नकारात्मक लॉग संभावना है।


2

क्योंकि ग्रेडिएंट डीसेंट प्रत्येक पैरामीटर को इस तरह से अपडेट करता है कि यह आउटपुट एरर को कम करता है जिसे सभी मापदंडों के कार्य को जारी रखना चाहिए। थ्रेशोल्ड आधारित सक्रियण भिन्न नहीं है यही कारण है कि सिग्मॉइड या टैन सक्रियण का उपयोग किया जाता है।

यहाँ एक परत NN है

जम्मू(w,)ωकश्मीरj=जम्मू(w,)zकश्मीरzकश्मीरωकश्मीरj

जम्मू(w,)zकश्मीर=(कश्मीर-yकश्मीर)(कश्मीर(1-कश्मीर))

zकश्मीरωकश्मीरj=एक्सकश्मीर

जम्मू(w,)=12(yकश्मीर-कश्मीर)2

कश्मीर=रोंमैंजीमीटर(zकश्मीर)=रोंमैंजीमीटर(डब्ल्यूकश्मीरj*एक्सकश्मीर+कश्मीर)

जम्मूzकश्मीर

यहाँ एक कड़ी है जो इसे सामान्य रूप से समझाती है।

संपादित करें: हो सकता है, मुझे गलत समझ में आ गया कि आपका मतलब क्या है। अगर मैं गलत नहीं हूँ, तो अवधारणात्मक को इनपुट के तौले हुए योग का माना जाता है। यदि आप लॉजिस्टिक फ़ंक्शन के साथ थ्रॉल्डिंग को बदलते हैं तो यह लॉजिस्टिक रिग्रेशन में बदल जाता है। मल्टी-लेयर एनएन विद सिग्मॉइड (लॉजिस्टिक) सक्रियण फ़ंक्शन कास्केड परतें हैं जो लॉजिस्टिक रजिस्टेंस से बना है।


3
इस सवाल का जवाब नहीं है।
नील जी

यह अच्छी टिप्पणी लिखने के लिए धन्यवाद, लेकिन यह वह नहीं था जो मैं पूछ रहा था। मेरा सवाल यह नहीं था कि "

y=डब्ल्यूटीएक्स

1
y=wjटीएक्सjमैं

मुझे लगता है कि भ्रम का कारण क्या हो सकता है कि आपने "वर्गीकरण" और "सीखने" चरण के बीच अंतर किया है। वर्गीकरण कदम हमेशा थ्रेशोल्ड होता है (-1 या 1, या 0 और 1 यदि आपको पसंद है)। हालांकि, अद्यतन क्लासिक perceptron में, अद्यतन के माध्यम से किया जाता है, अलग है η(y-रोंमैंजीn(wटीएक्समैं))एक्सη(y-wटीएक्समैं)एक्समैं

2

सहज रूप से, मैं एक बहुपरत परसेप्ट्रॉन के बारे में सोचता हूं जो मेरे इनपुट फीचर्स पर एक नॉनलाइनियर ट्रांसफॉर्मेशन की गणना करता है, और फिर इन रूपांतरित चर को लॉजिस्टिक रिग्रेशन में फीड करता है।

βमैंएक्समैंβमैंएक्सΣjβjएक्स

मैं आपके बारे में नहीं जानता, लेकिन मेरे मॉडलिंग पाठ्यक्रमों और शोध में, मैंने उनके महत्व और समग्र मॉडल भविष्यवाणी में सुधार करने के लिए इनपुट सुविधाओं के सभी प्रकार के समझदार और बेवकूफ परिवर्तनों की कोशिश की। चीजों को चुकाना, लॉग लेना, दो को एक दर में मिलाना आदि, मुझे कोई शर्म नहीं थी, लेकिन मेरे पास धैर्य था।

एक्सβमैं

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.