सामान्य रूप से मान लें कि आपने फॉर्म का एक मॉडल लेने का फैसला किया है
P(y=1|X=x)=h(x;Θ)
कुछ पैरामीटर के लिए । तो फिर तुम बस इसके लिए संभावना लिखो, यानीΘ
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0P(y=0|x=x;Θ)
जो जैसा है वैसा है
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0(1−P(y=1|x=x;Θ))
अब आपने 'मान' (मॉडल) तय कर लिया है
P(y=1|X=x)=σ(Θ0+Θ1x)
जहाँ
σ(z)=1/(1+e−z)
इसलिए आप केवल संभावना के लिए सूत्र की गणना करते हैं और , उदाहरण के लिए, newtons विधि या किसी अन्य ढाल आधारित विधि को खोजने के लिए किसी प्रकार का अनुकूलन एल्गोरिथ्म करते हैं ।argmaxΘL(Θ)
इस बात पर ध्यान दें कि कभी-कभी, लोग कहते हैं कि जब वे लॉजिस्टिक रिग्रेशन कर रहे होते हैं, तो वे एक संभावना को अधिकतम नहीं करते हैं (जैसा कि हमने / आपने ऊपर किया था) बल्कि वे एक हानि फ़ंक्शन को कम करते हैं
l(Θ)=−∑i=1Nyilog(P(Yi=1|X=x;Θ))+(1−yi)log(P(Yi=0|X=x;Θ))
लेकिन ध्यान दें कि ।−log(L(Θ))=l(Θ)
मशीन लर्निंग में यह एक सामान्य पैटर्न है: व्यावहारिक पक्ष (नुकसान को कम करने वाले कार्य जो मापता है कि कैसे 'गलत' एक विधर्मी मॉडल है) वास्तव में 'सैद्धांतिक पक्ष' के बराबर है (स्पष्ट रूप से -symbol के साथ मॉडलिंग , सांख्यिकीय मात्रा को अधिकतम करना संभावनाएं) और वास्तव में, कई मॉडल जो संभाव्य लोगों की तरह नहीं दिखते हैं (उदाहरण के लिए एसवीएम) एक संभाव्य संदर्भ में फिर से समझा जा सकता है और वास्तव में संभावना की अधिकतमता है।P