लॉजिस्टिक रिग्रेशन से लागत समारोह कैसे व्युत्पन्न होता है


29

मैं कौरसेरा पर मशीन लर्निंग स्टैनफोर्ड कोर्स कर रहा हूं।

लॉजिस्टिक रिग्रेशन पर अध्याय में, लागत समारोह यह है: यहाँ छवि विवरण दर्ज करें

फिर, इसे यहाँ व्युत्पन्न किया गया है: यहाँ छवि विवरण दर्ज करें

मैंने लागत समारोह के व्युत्पन्न होने की कोशिश की, लेकिन मुझे कुछ पूरी तरह से अलग मिला।

व्युत्पन्न कैसे प्राप्त किया जाता है?

मध्यस्थ कदम कौन से हैं?


+1, मेरे प्रश्न में @ एडमो का उत्तर यहाँ देखें। आंकड़े.स्टैकएक्सचेंज.com
डू

"पूरी तरह से अलग" वास्तव में आपके प्रश्न का उत्तर देने के लिए पर्याप्त नहीं है, इसके अलावा आपको यह बताने के लिए कि आप पहले से ही क्या जानते हैं (सही ढाल)। यह बहुत अधिक उपयोगी होगा यदि आपने हमें दिया कि आपकी गणना के परिणामस्वरूप क्या हुआ, तो हम आपकी मदद कर सकते हैं जहां आपने गलती की थी।
मैथ्यू

@MatthewDrury क्षमा करें, मैट, मैंने आपकी टिप्पणी आने से ठीक पहले उत्तर की व्यवस्था की थी। ऑक्टेवियन, क्या आपने सभी चरणों का पालन किया है? मैं बाद में इसे कुछ अतिरिक्त मूल्य देने के लिए संपादित करूंगा ...
एंटोनी पारेलाडा

2
जब आप कहते हैं "व्युत्पन्न" क्या आपका मतलब है "विभेदित" या "व्युत्पन्न"?
Glen_b -Reinstate मोनिका

जवाबों:


41

पाठ्यक्रम में नोटों से अनुकूलित, जो मुझे एंड्रयू एनजी के कौरसेरा मशीन लर्निंग कोर्स के पेज के भीतर छात्रों द्वारा योगदान किए गए नोट्स के बाहर उपलब्ध नहीं है (इस व्युत्पत्ति सहित) ।


निम्न में से, सुपरस्क्रिप्ट व्यक्तिगत माप या प्रशिक्षण का उदाहरण देता है "उदाहरण।"(i)

J(θ)θj=θj1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]=linearity1mi=1m[y(i)θjlog(hθ(x(i)))+(1y(i))θjlog(1hθ(x(i)))]=chain rule1mi=1m[y(i)θjhθ(x(i))hθ(x(i))+(1y(i))θj(1hθ(x(i)))1hθ(x(i))]=hθ(x)=σ(θx)1mi=1m[y(i)θjσ(θx(i))hθ(x(i))+(1y(i))θj(1σ(θx(i)))1hθ(x(i))]=σ1mi=1m[y(i)σ(θx(i))(1σ(θx(i)))θj(θx(i))hθ(x(i))(1y(i))σ(θx(i))(1σ(θx(i)))θj(θx(i))1hθ(x(i))]=σ(θx)=hθ(x)1mi=1m[y(i)hθ(x(i))(1hθ(x(i)))θj(θx(i))hθ(x(i))(1y(i))hθ(x(i))(1hθ(x(i)))θj(θx(i))1hθ(x(i))]=θj(θx(i))=xj(i)1mi=1m[y(i)(1hθ(x(i)))xj(i)(1yi)hθ(x(i))xj(i)]=distribute1mi=1m[yiyihθ(x(i))hθ(x(i))+y(i)hθ(x(i))]xj(i)=cancel1mi=1m[y(i)hθ(x(i))]xj(i)=1mi=1m[hθ(x(i))y(i)]xj(i)


सिग्मोइड फ़ंक्शन का व्युत्पन्न है

ddxσ(x)=ddx(11+ex)=(1+ex)(1+ex)2=ex(1+ex)2=(11+ex)(ex1+ex)=(11+ex)(1+ex1+ex11+ex)=σ(x)(1+ex1+exσ(x))=σ(x)(1σ(x))


1
+1 सभी प्रयासों के लिए!, मैट्रिक्स नोटेशन का उपयोग करना आसान हो सकता है?
हायतौ डू

क्या मैं रैखिक प्रतिगमन में कह सकता हूं, उद्देश्य और व्युत्पन्न , जहां लॉजिस्टिक रिग्रेशन में , यह समान है, व्युत्पन्न जहां , और ? Axb22ATee=AxbATee=pbp=sigmoid (Ax)
हायतौ डू

2
यही कारण है कि मैं आपके प्रयास की सराहना करता हूं। आप हमें ओपी की भाषा के लिए समय बिताने के लिए !!
हायतौ डू

1
मेरी समझ यह है कि गैर-रैखिक सक्रियण कार्यों के लिए चुकता त्रुटि को अवांछनीय बनाने के लिए उत्तलता मुद्दे हैं। मैट्रिक्स संकेतन में, यह । J(θ)θ=1mX(σ(Xθ)y)
एंटोनी परेलाडा

1
@MohammedNoureldin मैंने श्रृंखला नियम को लागू करने से पहले अंशों में आंशिक व्युत्पन्न लिया।
एंटनी परेला

8

मामले की अत्यधिक जटिलता की छाप से बचने के लिए, हमें केवल समाधान की संरचना को देखना चाहिए।

सरलीकरण और संकेतन के कुछ दुरुपयोग के साथ, को योग में एक शब्द होने दें , और का एक कार्य है। : G(θ)J(θ)h=1/(1+ez)z(θ)=xθ

G=ylog(h)+(1y)log(1h)

हम श्रृंखला नियम का उपयोग कर सकते हैं: और इसे एक करके हल करें एक ( और स्थिरांक हैं)।dGdθ=dGdhdhdzdzdθxy

dGh=yh1y1h=yhh(1h)
लिए sigmoid धारण करता है, जो पिछले कथन का सिर्फ एक भाजक है।dhdz=h(1h)

अंत में, ।dzdθ=x

सभी को एक साथ जोड़कर परिणाम मांगे गए अभिव्यक्ति के लिए मिलता है: आशा है कि यह भी मदद करता है।

dGdθ=(yh)x

0

इस उत्तर का श्रेय टिप्पणियों से एंटोनी परेलाडा को जाता है, जो मुझे लगता है कि इस पृष्ठ पर एक अधिक प्रमुख स्थान के हकदार हैं (क्योंकि इससे मुझे तब मदद मिली जब कई अन्य उत्तर नहीं थे)। इसके अलावा, यह एक पूर्ण व्युत्पत्ति नहीं है, लेकिन के एक स्पष्ट कथन के अधिक है । (पूर्ण व्युत्पत्ति के लिए, अन्य उत्तर देखें)।J(θ)θ

J(θ)θ=1mXT(σ(Xθ)y)

कहा पे

XRm×n=Training example matrixσ(z)=11+ez=sigmoid function=logistic functionθRn=weight row vectory=class/category/label corresponding to rows in X

इसके अलावा, उन लोगों के लिए एक पायथन कार्यान्वयन जो के ग्रेडिएंट की गणना संबंध में करना चाहते हैं ।Jθ

import numpy
def sig(z):
return 1/(1+np.e**-(z))


def compute_grad(X, y, w):
    """
    Compute gradient of cross entropy function with sigmoidal probabilities

    Args: 
        X (numpy.ndarray): examples. Individuals in rows, features in columns
        y (numpy.ndarray): labels. Vector corresponding to rows in X
        w (numpy.ndarray): weight vector

    Returns: 
        numpy.ndarray 

    """
    m = X.shape[0]
    Z = w.dot(X.T)
    A = sig(Z)
    return  (-1/ m) * (X.T * (A - y)).sum(axis=1) 

0

हम में से जो कैलकुलस में इतने मजबूत नहीं हैं, लेकिन लागत फ़ंक्शन को समायोजित करने के साथ चारों ओर खेलना चाहते हैं और डेरिवेटिव की गणना करने का एक तरीका खोजने की आवश्यकता है ... कैलकुलस को फिर से सीखने के लिए एक छोटा कट स्वचालित रूप से प्रदान करने के लिए यह ऑनलाइन टूल है नियम के चरण स्पष्टीकरण के साथ व्युत्पत्ति।

https://www.derivative-calculator.net

लॉजिस्टिक रिग्रेशन में सिग्मॉइड सक्रियण की व्युत्पन्न लागत कार्य का उदाहरण

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.