हाइपरप्लेन डेटा को वर्गीकृत करते हैं जब इनपुट सशर्त रूप से स्वतंत्र होते हैं - क्यों?


10

डीप लर्निंग और इंफॉर्मेशन टोंटीलेक प्रिंसिपल नामक पेपर में लेखक II को सेक्शन II A में लिखते हैं :

एकल न्यूरॉन्स केवल रेखीय रूप से वियोज्य इनपुट को वर्गीकृत करते हैं, क्योंकि वे अपने इनपुट स्थान में केवल हाइपरप्लेन को लागू कर सकते हैं u=wh+b। हाइपरप्लेन डेटा को वर्गीकृत कर सकते हैं जब इनपुट conditioanlly indepenent हो।

यह दिखाने के लिए, वे निम्नलिखित बातें निकालते हैं। बेयस प्रमेय का उपयोग करते हुए, वे प्राप्त करते हैं:

p(y|x)=11+exp(logp(x|y)p(x|y)logp(y)p(y)) (1)

कहाँ पे x इनपुट है, y वर्ग है और y भविष्यवाणी की गई कक्षा है (मुझे लगता है, yपरिभाषित नहीं)। जारी रखते हुए, वे कहते हैं कि:

p(x|y)p(x|y)=j=1N[p(xj|y)p(xj|y)]np(xj) (2)

कहाँ पे N इनपुट आयाम है और nमुझे यकीन नहीं है (फिर से, दोनों अपरिभाषित हैं)। सिग्मॉइड सक्रियण फ़ंक्शन के साथ, सिग्मायोडल न्यूरॉन पर विचार करनाσ(u)=11+exp(u) और प्रचार u, (2) में डालने के बाद (1) हम इष्टतम वजन मान प्राप्त करते हैं wj=logp(xj|y)p(xj|y) तथा b=logp(y)p(y), जब इनपुट मान hj=np(xj)

अब मेरे सवालों पर। मैं समझता हूं कि कैसे (2) में डालने से (1) इष्टतम वजन और इनपुट मूल्यों की ओर जाता हैw,b,h। हालाँकि जो मुझे समझ नहीं आ रहा है, वह निम्नलिखित है:

  1. बेयस प्रमेय का उपयोग करके कैसे (1) व्युत्पन्न किया जाता है?
  2. कैसे (2) व्युत्पन्न है? क्या हैn? इसका अर्थ क्या है? मुझे लगता है कि सशर्त स्वतंत्रता के साथ इसका कुछ करना है
  3. यहां तक ​​कि अगर x के आयाम सशर्त रूप से स्वतंत्र हैं, तो कोई यह कैसे कह सकता है कि वह अपनी बढ़ी हुई संभावना के बराबर है? (यानी आप कैसे राज्य कर सकते हैं?hj=np(xj)?)

संपादित करें: चर yएक द्विआधारी वर्ग चर है। इससे मैं यह मान लेता हूंy"अन्य" वर्ग है। यह प्रश्न हल करेगा 1. क्या आप सहमत हैं?


मैं यह समझने के लिए संघर्ष कर रहा हूं कि eq 2 कहां से आता है, कागज के लेखक द्वारा उत्तर के बावजूद (प्रो। टीशबी)। मैं उस हिस्से को समझता हूं जो सशर्त स्वतंत्रता की धारणा से आता है। हालांकि, मैं घातांक के बारे में निश्चित नहीं हूंnp(xj)- यह वहाँ क्यों है?
IcannotFix यह

जवाबों:


5

हमारे छोटे पेपर में गुम विवरणों के बारे में खेद है, लेकिन लिकेलिहाइड रेशियो टेस्ट और सिग्मायॉइडल न्यूरॉन्स के बीच ये संबंध और संबंध निश्चित रूप से नए नहीं हैं, और इन्हें पाठ्यपुस्तकों (जैसे बिशप 2006) में पाया जा सकता है। हमारे पेपर में, 'एन' इनपुट आयाम है और 'एन' परीक्षण नमूना आकार है (जो वास्तव में इनपुट एसएनआर के लिए इस धारणा के तहत अनुवादित है कि एसएनआर sqrt (n) की तरह बढ़ता है)। सिग्मायोडल फ़ंक्शन का कनेक्शन क्लास के पीछे के रूप में बेयस नियम के माध्यम से किया जाता है। बाकी कागजों में कुछ भी नहीं और 2017 से हमारा नया और अधिक महत्वपूर्ण कागज वास्तव में इस पर निर्भर करता है।

नफ्तली तिश्बी


2
यहाँ इसे स्पष्ट करने के लिए धन्यवाद। पूर्ण उद्धरण लिखना इस समुदाय में मानक अभ्यास है ताकि इच्छुक पाठक स्रोतों की तलाश कर सकें। क्या आप बिशप (2006) के लिए ऐसा कर सकते हैं?
mkt -

5

यह एक मॉडल सेटअप है जहां लेखक बेयस प्रमेय के एक विशेष रूप का उपयोग कर रहे हैं जो तब लागू होता है जब आपके पास ब्याज का द्विआधारी चर होता है। वे पहले बेसेस प्रमेय के इस विशेष रूप को समीकरण (1) के रूप में प्राप्त करते हैं, और फिर वे बताते हैं कि समीकरण (2) में स्थिति उन्हें अपने नेटवर्क के लिए निर्दिष्ट रैखिक रूप में ले जाती है। यह ध्यान रखना महत्वपूर्ण है कि बाद का समीकरण पिछली स्थितियों से नहीं लिया गया है --- बल्कि, यह रैखिक रूप के लिए एक शर्त है जो वे अपने नेटवर्क के लिए उपयोग कर रहे हैं।


पहले समीकरण को व्युत्पन्न करना: पेपर में समीकरण (1) बेयस प्रमेय का एक रूप है जो संभावना और पूर्व के कार्यों पर मानक लॉजिस्टिक (सिग्मॉइड) फ़ंक्शन के संदर्भ में ब्याज की सशर्त संभावना को फ्रेम करता है । ले रहाy तथा y यादृच्छिक चर के दो द्विआधारी परिणाम होना Y, और बेयस प्रमेय लागू करता है, देता है:

p(y|x)=p(y,x)p(x)=p(x|y)p(y)p(x|y)p(y)+p(x|y)p(y)=11+p(x|y)p(y)/p(x|y)p(y)=11+exp(log(p(x|y)p(y)p(x|y)p(y)))=11+exp(logp(x|y)p(x|y)logp(y)p(y))=logistic(logp(x|y)p(x|y)+logp(y)p(y)).

नेटवर्क के ग्रहणाधिकार रूप के लिए एक समीकरण के रूप में समीकरण (2) का उपयोग करना: जैसा कि ऊपर कहा गया है, यह समीकरण कुछ ऐसा नहीं है जो पिछले परिणामों से प्राप्त हुआ है। इसके बजाय, यह एक पर्याप्त स्थिति है जो रैखिक रूप की ओर ले जाती है जिसका उपयोग लेखक अपने मॉडल में करते हैं --- अर्थात, लेखक कह रहे हैं कि यदि यह समीकरण रखता है, तो कुछ निश्चित परिणाम बाद में आते हैं। इनपुट वेक्टर देनाx=(x1,...,xN) लंबाई है N, यदि समीकरण (2) धारण करता है, तो दोनों पक्षों के लॉगरिदम को ले जाता है:

logp(x|y)p(x|y)=logi=1N[p(xi|y)p(xi|y)]np(xi)=i=1Nnp(xi)log[p(xi|y)p(xi|y)]=i=1Nhiwi.

इस शर्त के तहत, हम इसलिए पश्च स्वरूप प्राप्त करते हैं:

p(y|x)=logistic(logp(x|y)p(x|y)+logp(y)p(y))=logistic(i=1Nhiwi+b),

which is the form that the authors are using in their network. This is the model form postulated by the authors in the background section, prior to specifying Equations (1)-(2). The paper does not define n is in this model setup, but as you point out, the answer by Prof Tishby says that this is the test sample size. In regard to your third question, it appears that the requirement of Equation (2) means that the values in x are not conditionally independent given y.


Prof. Tishby (author) says, in his own answer, that n is the test sample size. This is why I felt that eq (2) had a much richer interpretation than just an arbitrary condition to the linear form of the network.
IcannotFixThis

Thanks - I have edited my answer to reflect this additional information.
Ben - Reinstate Monica

4

For 1

P(yx)=P(y,x)P(x)

=P(y,x)iP(yi,x)

Now as yi is binary, this becomes:

=P(y,x)P(y,x)+P(y,x)

=11+P(y,x)P(y,x)

=11+exp[log P(y,x)P(y,x)]

and from there its just the property of the logarithm to get to the final form (should be sufficiently clear by this point, let me know if not).

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.