यहाँ मैं समाधान के लिए सभी आवश्यक गुणों और पहचानों को आत्म-निहित होने के लिए प्राप्त करता हूं, लेकिन इसके अलावा यह व्युत्पत्ति स्वच्छ और आसान है। आइए हम अपने संकेतन को औपचारिक रूप दें और नुकसान के कार्य को थोड़ा और कॉम्पैक्ट तरीके से लिखें। पर विचार करें m नमूने {xi,yi} ऐसी है कि xi∈Rd और yi∈R । याद रखें कि बाइनरी लॉजिस्टिक रिग्रेशन में हमारे पास आमतौर पर हाइपोथीसिस फ़ंक्शन hθ लॉजिस्टिक फ़ंक्शन होता है। औपचारिक रूप से
hθ(xi)=σ(ωTxi)=σ(zi)=11+e−zi,
जहां ω∈Rd और zi=ωTxi । नुकसान समारोह (जो मुझे लगता है कि ओपी एक नकारात्मक संकेत याद कर रहा है) को तब निम्न रूप में परिभाषित किया गया है:
l(ω)=∑i=1m−(yilogσ(zi)+(1−yi)log(1−σ(zi)))
लॉजिस्टिक फ़ंक्शन के दो महत्वपूर्ण गुण हैं जो मैं भविष्य के संदर्भ के लिए यहां प्राप्त करता हूं। सबसे पहले, ध्यान दें कि 1−σ(z)=1−1/(1+e−z)=e−z/(1+e−z)=1/(1+ez)=σ(−z) ।
उस पर भी ध्यान दें
∂∂zσ(z)=∂∂z(1+e−z)−1=e−z(1+e−z)−2=11+e−ze−z1+e−z=σ(z)(1−σ(z))
घटकों के संबंध में डेरिवेटिव लेने के बजाय, यहां हम सीधे वैक्टर के साथ काम करेंगे (आप यहां वैक्टर के साथ डेरिवेटिव की समीक्षा कर सकते हैं )। नुकसान समारोह के हेस्सियन l(ω) द्वारा दिया जाता है ∇⃗ 2l(ω) , लेकिन पहले याद है कि ∂z∂ω=xTω∂ω=xTऔर∂z∂ωT=∂ωTx∂ωT=x।
चलो li(ω)=−yilogσ(zi)−(1−yi)log(1−σ(zi)) । ऊपर और श्रृंखला नियम से प्राप्त गुणों का उपयोग करना
∂logσ(zi)∂ωT∂log(1−σ(zi))∂ωT=1σ(zi)∂σ(zi)∂ωT=1σ(zi)∂σ(zi)∂zi∂zi∂ωT=(1−σ(zi))xi=11−σ(zi)∂(1−σ(zi))∂ωT=−σ(zi)xi
It's now trivial to show that
∇⃗ li(ω)=∂li(ω)∂ωT=−yixi(1−σ(zi))+(1−yi)xiσ(zi)=xi(σ(zi)−yi)
whew!
Our last step is to compute the Hessian
∇⃗ 2li(ω)=∂li(ω)∂ω∂ωT=xixTiσ(zi)(1−σ(zi))
For m samples we have ∇⃗ 2l(ω)=∑mi=1xixTiσ(zi)(1−σ(zi)). This is equivalent to concatenating column vectors xi∈Rd into a matrix X of size d×m such that ∑mi=1xixTi=XXT. The scalar terms are combined in a diagonal matrix D such that Dii=σ(zi)(1−σ(zi)). Finally, we conclude that
H⃗ (ω)=∇⃗ 2l(ω)=XDXT
A faster approach can be derived by considering all samples at once from the beginning and instead work with matrix derivatives. As an extra note, with this formulation it's trivial to show that l(ω) is convex. Let δ be any vector such that δ∈Rd. Then
δTH⃗ (ω)δ=δT∇⃗ 2l(ω)δ=δTXDXTδ=δTXD(δTX)T=∥δTDX∥2≥0
since D>0 and ∥δTX∥≥0. This implies H is positive-semidefinite and therefore l is convex (but not strongly convex).