लॉजिस्टिक रिग्रेशन और संभावना को समझना


12

लॉजिस्टिक रिग्रेशन का पैरामीटर अनुमान / प्रशिक्षण वास्तव में कैसे काम करता है? मैं अब तक जो भी मिला है, डालने की कोशिश करूंगा।

  1. आउटपुट y x के मान के आधार पर संभाव्यता के रूप में लॉजिस्टिक फ़ंक्शन का आउटपुट है:
    P(y=1|x)=11+eωTxσ(ωTx)
    P(y=0|x)=1P(y=1|x)=111+eωTx
  2. एक आयाम के लिए तथाकथित ऑड्स को इस प्रकार परिभाषित किया गया है:
    p(y=1|x)1p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x
  3. अब logफ़ंक्शन को W_0 और W_1 को रैखिक रूप में प्राप्त करने के लिए जोड़ रहा है :
    Logit(y)=log(p(y=1|x)1p(y=1|x))=ω0+ω1x
  4. अब समस्या वाले हिस्से में संभावना का उपयोग करते हुए (Big X is y) क्या कोई बता सकता है कि हम दो बार y = 1 की संभावना पर विचार क्यों कर रहे हैं? चूंकि:
    L(X|P)=i=1,yi=1NP(xi)i=1,yi=0N(1P(xi))
    P(y=0|x)=1P(y=1|x)

और इससे ω का मान कैसे मिलेगा?

जवाबों:


10

सामान्य रूप से मान लें कि आपने फॉर्म का एक मॉडल लेने का फैसला किया है

P(y=1|X=x)=h(x;Θ)

कुछ पैरामीटर के लिए । तो फिर तुम बस इसके लिए संभावना लिखो, यानीΘ

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0P(y=0|x=x;Θ)

जो जैसा है वैसा है

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0(1P(y=1|x=x;Θ))

अब आपने 'मान' (मॉडल) तय कर लिया है

P(y=1|X=x)=σ(Θ0+Θ1x)

जहाँ

σ(z)=1/(1+ez)

इसलिए आप केवल संभावना के लिए सूत्र की गणना करते हैं और , उदाहरण के लिए, newtons विधि या किसी अन्य ढाल आधारित विधि को खोजने के लिए किसी प्रकार का अनुकूलन एल्गोरिथ्म करते हैं ।argmaxΘL(Θ)

इस बात पर ध्यान दें कि कभी-कभी, लोग कहते हैं कि जब वे लॉजिस्टिक रिग्रेशन कर रहे होते हैं, तो वे एक संभावना को अधिकतम नहीं करते हैं (जैसा कि हमने / आपने ऊपर किया था) बल्कि वे एक हानि फ़ंक्शन को कम करते हैं

l(Θ)=i=1Nyilog(P(Yi=1|X=x;Θ))+(1yi)log(P(Yi=0|X=x;Θ))

लेकिन ध्यान दें कि ।log(L(Θ))=l(Θ)

मशीन लर्निंग में यह एक सामान्य पैटर्न है: व्यावहारिक पक्ष (नुकसान को कम करने वाले कार्य जो मापता है कि कैसे 'गलत' एक विधर्मी मॉडल है) वास्तव में 'सैद्धांतिक पक्ष' के बराबर है (स्पष्ट रूप से -symbol के साथ मॉडलिंग , सांख्यिकीय मात्रा को अधिकतम करना संभावनाएं) और वास्तव में, कई मॉडल जो संभाव्य लोगों की तरह नहीं दिखते हैं (उदाहरण के लिए एसवीएम) एक संभाव्य संदर्भ में फिर से समझा जा सकता है और वास्तव में संभावना की अधिकतमता है।P


@ आपके उत्तर के लिए धन्यवाद। लेकिन मुझे अभी भी थोड़ा स्पष्टीकरण की आवश्यकता है। क्या आप कृपया यह बता सकते हैं कि पृथ्वी पर की परिभाषा में 2 के क्योंकि मुझे समझ में आया कि मैं के मामले में । और कैसे आपकी मदद के लिए बहुत धन्यवाद और के मूल्यों को प्राप्त कर सकते हैं! L(θ)yi=1ω1ω0
इंजन

@Engine: बड़ा 'पी' एक उत्पाद है ... जैसे एक बड़ा सिग्मा एक योग है ... क्या आप समझते हैं या क्या आपको उस पर और अधिक स्पष्टीकरण की आवश्यकता है? दूसरा सवाल पर: कहते हैं कि हम एक समारोह कम करना चाहते हैं देता है और हम पर शुरू लेकिन हमें लगता है कि हम नहीं जानते / व्यक्त नहीं कर सकते हैं / नहीं कर सकते हैं कल्पना के रूप में यह करने के लिए है उलझा हुआ। अब का व्युत्पन्न । दिलचस्प बात यह है कि अगर हम न्यूनतम से दाएं हैं तो यह दाईं ओर इंगित करता है और यदि हम इसे छोड़ देते हैं तो यह बाएं ओर इंगित करता है। गणितीय रूप से व्युत्पन्न बिंदु 'सबसे मजबूत आरोही' की दिशा में हैΣf(x)=x2x=3fff=2xx=0
फैबियन वर्नर

@Engine: अधिक आयाम में आप व्युत्पन्न ढाल से, की जगह यानी आप एक यादृच्छिक बिंदु पर शुरू और गणना ढाल पर और आप तो अपने अगले अंक को अधिकतम करना चाहते हैं है । तो फिर तुम गणना और आप अगले है और इसके आगे। इसे ग्रेडिएंट आरोही / डिसेंट कहा जाता है और यह एक फंक्शन को अधिकतम करने की सबसे आम तकनीक है। अब आप या अपने संकेतन साथ करते हैं ताकि अधिकतम करने वाले को खोज सकेंx0fxx1x1=x0+f(x0)f(x1)xx2=x1+f(x1)L(Θ)L(ω)ωL
फेबियन वर्नर

@ इंग्लैंड: आप मामले में रुचि नहीं रखते हैं ! आप '' 'में रुचि रखते हैं कि' आपके डेटा को सबसे अच्छा समझाए '। Thet aou से मॉडल को 'खुद के लिए बोलने दें' और के मामले पर वापस जाएं, लेकिन सबसे पहले आपको एक मॉडल सेटअप करने की आवश्यकता है! यहाँ, 'सर्वश्रेष्ठ व्याख्या' का अर्थ है 'सबसे अधिक संभावना' होने के कारण, क्योंकि वही है जो लोगों के साथ आया था (और मुझे लगता है कि यह बहुत स्वाभाविक है) ... हालांकि, अन्य मेट्रिक्स (अलग-अलग नुकसान के कार्य और इतने पर) हैं कि एक हो सकता है उपयोग! वहाँ क्योंकि हम चाहते हैं मॉडल को समझाने के लिए दो उत्पादों रहे हैं साथ ही के रूप में 'अच्छा'! y=1ωωy=1y=1 y=0
फेबियन वर्नर

8

आपके संभावना फ़ंक्शन (4) में दो भाग होते हैं: आपके नमूने में केवल उन लोगों के लिए सफलता की संभावना का उत्पाद, जिन्होंने एक सफलता का अनुभव किया, और आपके नमूने में केवल उन लोगों के लिए विफलता की संभावना का उत्पाद जिन्होंने असफलता का अनुभव किया। यह देखते हुए कि प्रत्येक व्यक्ति या तो सफलता या विफलता का अनुभव करता है, लेकिन दोनों नहीं, संभावना प्रत्येक व्यक्ति के लिए केवल एक बार दिखाई देगी। यही कारण है कि उत्पाद संकेतों के नीचे और अर्थ है।, y i = 0,yi=1,yi=0

गुणांक 1 (4) में (1) प्रतिस्थापित करके संभावना समारोह में शामिल हैं। इस तरह संभावना समारोह का एक कार्य बन जाता है । अधिकतम संभावना की बात यह है कि उस संभावना को अधिकतम करने के लिए को ढूंढना होगा।ωωω


आपके उत्तर के लिए बहुत बहुत धन्यवाद, क्षमा करें, लेकिन अभी भी यह नहीं मिलता है। नहीं है साधन संभावना y = कि 0 [Do नहीं occure] सभी y के उत्पाद की के लिए। और y_i = 1 के लिए विज़ वर्सा। और फिर भी मैं कैसे प्राप्त कर सकते हैं की subtitutiing के बाद मूल्यों, 2 व्युत्पन्न caclulating? या ढाल? आपकी सहायता के लिए धन्यवाद ! ωyi=0ω
इंजन

मैं = 1 एन y = 1i=1,y=1N को "व्यक्तियों के लिए उत्पाद में तक पढ़ा जाना चाहिए , लेकिन केवल तो पहला भाग केवल आपके डेटा में उन व्यक्तियों पर लागू होता है जिन्हें इस घटना का अनुभव हुआ। इसी तरह, दूसरा भाग केवल उन लोगों को संदर्भित करता है जिन्होंने इस घटना का अनुभव नहीं किया।i=1Ny=1
मैर्टन ब्यूस

संभावना फ़ंक्शन को अधिकतम करने के लिए कई संभावित एल्गोरिदम हैं। सबसे आम एक, न्यूटन-रफसन विधि , वास्तव में पहले और दूसरे डेरिवेटिव की गणना करना शामिल है।
मार्टेन ब्यूस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.