लॉजिस्टिक रिग्रेशन और परसेप्ट्रॉन में क्या अंतर है?

30

मैं मशीन लर्निंग पर एंड्रयू एनजी के व्याख्यान नोट्स के माध्यम से जा रहा हूं ।

नोट हमें लॉजिस्टिक रिग्रेशन और उसके बाद परसेप्ट्रान से परिचित कराते हैं। पर्सेप्ट्रॉन का वर्णन करते हुए, नोट्स कहते हैं कि हम सिर्फ लॉजिस्टिक रिग्रेशन के लिए उपयोग किए जाने वाले थ्रेशोल्ड फ़ंक्शन की परिभाषा को बदलते हैं। ऐसा करने के बाद, हम वर्गीकरण के लिए परसेप्ट्रॉन मॉडल का उपयोग कर सकते हैं।

तो मेरा सवाल है - अगर यह निर्दिष्ट करने की आवश्यकता है और हम पेरीसेप्टन को एक वर्गीकरण तकनीक मानते हैं, तो वास्तव में लॉजिस्टिक प्रतिगमन क्या है? क्या केवल एक वर्ग से संबंधित डेटा बिंदु की संभावना प्राप्त करने के लिए उपयोग किया जाता है?

— GrowinMan
स्रोत

अच्छा सवाल है, मुझे पता है कि यह बहुत महत्वपूर्ण है कि आप एनएन पर स्पष्टीकरण कैसे शुरू करते हैं, खासकर क्योंकि एनएन को समझने के लिए बहुत जटिल हो सकता है, pls। मेरे उत्तर पर विचार करें।

— प्रोति

22

संक्षेप में, लॉजिस्टिक रिग्रेशन में प्रायिकता संबंधी अनुमान होते हैं जो एमएल में क्लासिफायरियर उपयोग से परे जाते हैं। मेरे पास यहां लॉजिस्टिक रिग्रेशन पर कुछ नोट्स हैं ।

लॉजिस्टिक रिग्रेशन में परिकल्पना एक रैखिक मॉडल के आधार पर द्विआधारी परिणाम की घटना में अनिश्चितता का एक उपाय प्रदान करती है। आउटपुट को $0$ और बीच असममित रूप से बांधा गया है $1$ , और एक रैखिक मॉडल पर निर्भर करता है, जैसे कि जब अंतर्निहित प्रतिगमन लाइन का मान $0$ , तो लॉजिस्टिक समीकरण $0.5 = \frac{e^0}{1+e^0}$ , वर्गीकरण प्रयोजनों के लिए एक प्राकृतिक कटऑफ बिंदु प्रदान करता है। हालांकि, यह की वास्तविक परिणाम में संभावना जानकारी बाहर फेंकने की कीमत पर है $h(\Theta^T\bf x) =\frac{e^{\Theta^T \bf x}}{1 +e^{\Theta^T\bf x}}$ , जो अक्सर दिलचस्प है (उदाहरण के लिए ऋण चूक दी आय, क्रेडिट स्कोर, आयु, आदि की संभावना)।

परसेप्ट्रॉन वर्गीकरण एल्गोरिथ्म एक अधिक बुनियादी प्रक्रिया है, उदाहरण और भार के बीच डॉट उत्पादों पर आधारित है । जब भी कोई उदाहरण मिसकॉलिफ़ाइड होता है तो प्रशिक्षण सेट में वर्गीकरण मूल्य ( और ) के साथ डॉट उत्पाद का संकेत बाधाओं पर होता है । इसे ठीक करने के लिए, वेक्टर को पुनरावृत्त रूप से जोड़ा जाएगा या इसे वजन या गुणांक के वेक्टर से घटाया जाएगा, उत्तरोत्तर इसके तत्वों को अपडेट किया जाएगा: $-1$ $1$

सदिश रूप से, उदाहरण की विशेषताएँ या विशेषताएँ , और विचार उदाहरण को "पास" करने का है: $d$ $\bf x$

या ... $\displaystyle \sum_{1}^d \theta_i x_i > \text{theshold}$

। लॉजिस्टिक रिग्रेशन में और विपरीत,साइन फंक्शन का परिणाम या । $h(x) = \text{sign}\big(\displaystyle \sum_{1}^d \theta_i x_i - \text{theshold}\big)$ $1$ $-1$ $0$ $1$

दहलीज पूर्वाग्रह गुणांक में अवशोषित हो जाएगा , । सूत्र अब है: $+ \theta_0$

, या vectorized: । $h(x) = \text{sign}\big(\displaystyle \sum_0^d \theta_i x_i\big)$ $h(x) = \text{sign}(\theta^T\bf x)$

Misclassified अंक होगा , इस बात का डॉट उत्पाद अर्थ और सकारात्मक होंगे (एक ही दिशा में वैक्टर), जब नकारात्मक है, या डॉट उत्पाद ऋणात्मक (वैक्टर विपरीत दिशाओं में), जबकि सकारात्मक है। $\text{sign}(\theta^T\bf x) \neq y_n$ $\Theta$ $\bf x_n$ $y_n$ $y_n$

मैं एक ही पाठ्यक्रम से एक डाटासेट में इन दो तरीकों के बीच अंतर पर काम कर रहा हूं , जिसमें दो अलग-अलग परीक्षाओं में परीक्षा परिणाम कॉलेज के लिए अंतिम स्वीकृति से संबंधित हैं:

निर्णय सीमा आसानी से रसद प्रतिगमन के साथ पाया जा सकता है, लेकिन हालांकि गुणांक perceptron के साथ प्राप्त की रसद प्रतिगमन की तुलना में एकदम अलग थे कि देखने के लिए दिलचस्प था, की साधारण आवेदन परिणाम के लिए समारोह सिर्फ अच्छे एक वर्गीकृत करने के रूप में सामने आए कलन विधि। वास्तव में अधिकतम सटीकता (कुछ उदाहरणों के रैखिक अविभाज्यता द्वारा निर्धारित सीमा) दूसरे पुनरावृत्ति तक पहुंच गई थी। यहाँ सीमा विभाजन रेखाओं का क्रम है क्योंकि पुनरावृत्तियों ने वज़न को अनुमानित किया है, जो गुणांक के यादृच्छिक वेक्टर से शुरू होता है: $\text{sign}(\cdot)$ $10$

वर्गीकरण में सटीकता पुनरावृत्तियों की संख्या के एक समारोह के रूप में तेजी से और पर पठारों में वृद्धि होती है , सुसंगत है कि कितनी तेजी से एक पास-इष्टतम निर्णय सीमा ऊपर वीडोकलिपि में पहुंच गई है। यहाँ सीखने की अवस्था की साजिश है: $90\%$

उपयोग किया गया कोड यहाँ है ।

— एंटोनी परेलाडा
स्रोत

5

यहां कुछ भ्रम पैदा हो सकता है। मूल रूप से एक अवधारणकर्ता हस्तांतरण फ़ंक्शन के रूप में केवल एक चरण फ़ंक्शन के साथ तंत्रिका नेटवर्क का उल्लेख कर रहा था। उस मामले में निश्चित रूप से अंतर यह है कि लॉजिस्टिक प्रतिगमन एक लॉजिस्टिक फ़ंक्शन का उपयोग करता है और परसेप्ट्रॉन एक चरण फ़ंक्शन का उपयोग करता है। सामान्य तौर पर दोनों एल्गोरिथ्म में एक ही निर्णय सीमा (कम से कम एक न्यूरॉन परसेप्ट्रॉन के लिए) होनी चाहिए। तथापि:

परिधीय के लिए पैरामीटर वेक्टर को मनमाने ढंग से प्रतिगमन द्वारा प्राप्त की तुलना में मनमाने ढंग से बढ़ाया जा सकता है। पैरामीटर वेक्टर का कोई स्केलिंग समान सीमा को परिभाषित करेगा, लेकिन लॉजिस्टिक प्रतिगमन द्वारा गणना की जाने वाली संभावनाएं सटीक स्केलिंग पर निर्भर करती हैं।
एक कदम समारोह से उत्पादन बेशक किसी भी तरह की संभावना के रूप में व्याख्या नहीं किया जा सकता है।
चूँकि एक स्टेप फंक्शन विभेदन योग्य नहीं है, इसलिए लॉजिस्टिक लॉजिशन के लिए उपयोग किए जाने वाले समान एल्गोरिदम का उपयोग करके एक परसेप्ट्रॉन को प्रशिक्षित करना संभव नहीं है।

कुछ मामलों में, अवधारणात्मक शब्द का उपयोग तंत्रिका नेटवर्क को संदर्भित करने के लिए भी किया जाता है जो हस्तांतरण फ़ंक्शन के रूप में एक लॉजिस्टिक फ़ंक्शन का उपयोग करते हैं (हालांकि, यह मूल शब्दावली के अनुसार नहीं है)। उस मामले में, एक लॉजिस्टिक रिग्रेशन और एक "परसेप्ट्रान" बिल्कुल एक जैसे होते हैं। बेशक, एक अवधारणात्मक के साथ एक लॉजिस्टिक ट्रांसफर फ़ंक्शन का उपयोग करके कई न्यूरॉन्स का उपयोग करना संभव है, जो लॉजिस्टिक रिग्रेशन के स्टैकिंग के लिए कुछ हद तक भरोसेमंद हो जाता है (समान नहीं, लेकिन समान)।

— LiKao
स्रोत

2

आप एक अवधारणात्मक निर्माण के लिए लॉजिस्टिक रिग्रेशन का उपयोग कर सकते हैं। लॉजिस्टिक रिग्रेशन किसी दिए गए इनपुट से आउटपुट बनाने के लिए लॉजिस्टिक फ़ंक्शन का उपयोग करता है। लॉजिस्टिक फ़ंक्शन 0 और 1 के बीच एक चिकनी आउटपुट का उत्पादन करता है, इसलिए आपको इसे क्लासिफायर करने के लिए एक और चीज की आवश्यकता है, जो एक सीमा है। Perceptrons अन्य कार्यात्मक रूपों के साथ बनाया जा सकता है, ज़ाहिर है, न कि केवल उपस्कर ।

लॉजिस्टिक रिग्रेशन आपको मॉडल बनाता है जो इस तरह दिखता है:

y (x_{1}, x_{2} | b) = \frac{e^{b_{0} + b_{1} x_{1} + b_{2} x_{2}}}{1 + e^{b_{0} + b_{1} x_{1} + b_{2} x_{2}}}

$y(x_1,x_2|b)=\frac{e^{b_0+b_1x_1+b_2x_2}}{1+e^{b_0+b_1x_1+b_2x_2}}$

b_{1}, b_{2}, b_{3}

$b_1,b_2,b_3$

\frac{e^{x}}{1 + e^{x}}

$\frac{e^x}{1+e^x}$

$y(x|b)$ $x$ $b$ $y$ $Y$ $\tilde y=0$ $y(x|b)<Y$ $\tilde y=1$ $y(x|b)\ge Y$

— Aksakal
स्रोत

1

वे दोनों एक ही लॉजिस्टिक-रूपांतरित मॉडल के मापदंडों का अनुमान लगाकर प्रतिगमन लागू कर रहे हैं। उत्तल कार्यों के गुणों के अनुसार, मापदंडों का मान उसी तरह होगा जैसा आप उन्हें अनुमान लगाने के लिए चुनते हैं। पिछले उत्तर से खुद को उद्धृत करने के लिए:

लॉजिस्टिक रिग्रेशन एक बर्नौली वितरण के माध्य के एक फ़ंक्शन को एक रेखीय समीकरण (एक बर्नौली घटना के प्रायिकता पी के बराबर होने का मतलब) के रूप में प्रदर्शित करता है। माध्य (p) के फ़ंक्शन के रूप में लॉगिट लिंक का उपयोग करके, ऑड्स (लॉग-ऑड्स) के लॉगरिदम को विश्लेषणात्मक रूप से व्युत्पन्न किया जा सकता है और तथाकथित सामान्यीकृत रैखिक मॉडल की प्रतिक्रिया के रूप में उपयोग किया जा सकता है। भविष्यवाणी के शीर्ष पर, यह आपको मॉडल को कारण के संदर्भ में व्याख्या करने की अनुमति देता है। यह एक ऐसी चीज है जिसे आप लीनियर परसेप्ट्रान से हासिल नहीं कर सकते।

Perceptron, wx का व्युत्क्रम लॉगिट (लॉजिस्टिक) फ़ंक्शन लेता है, और न तो मॉडल और न ही इसके पैरामीटर के लिए संभाव्य मान्यताओं का उपयोग नहीं करता है। ऑनलाइन प्रशिक्षण आपको मॉडल भार / मापदंडों के लिए बिल्कुल समान अनुमान देगा, लेकिन आप पी-मान, आत्मविश्वास अंतराल और अच्छी तरह से एक अंतर्निहित संभावना मॉडल की कमी के कारण उन्हें कारण निष्कर्ष में व्याख्या नहीं कर पाएंगे।

— Digio
स्रोत

1

$x_1,\ldots, x_N \in \mathbb R^n$ $y_1,\ldots,y_N \in \{-1, 1 \}$ $1$ $x_i$

\begin{aligned} (1) & minimize & \frac{1}{N} \sum_{i = 1}^{N} max (- y_{i} β^{T} x_{i}, 0) . \end{aligned}

$\begin{align} \tag{1}\text{minimize} & \quad \frac{1}{N}\sum_{i=1}^N \max(-y_i\beta^T x_i,0). \end{align}$

β \in R^{n + 1}

$\beta \in \mathbb R^{n+1}$

समस्या में उद्देश्य फ़ंक्शन (1) को रूप में लिखा जा सकता है $\frac{1}{N}\sum_i \ell_i(\beta)$

ℓ_{i} (β) = max (- y_{i} β^{T} x_{i}, 0) .

$\ell_i(\beta) = \max(-y_i \beta^T x_i,0).$

ℓ_{i}

$\ell_i$

β

$\beta$

g = {\begin{cases} 0 & if - y_{i} β^{T} x_{i} \leq 0 (so y_{i} and β^{T} x_{i} have the same sign) \\ - y_{i} x_{i} & otherwise. \end{cases}

$g = \begin{cases} 0 & \quad \text{if } -y_i \beta^T x_i \leq 0 \qquad \text{(so $y_i$ and $\beta^T x_i$ have the same sign)}\\ - y_i x_i & \quad \text{otherwise.} \end{cases}$

t > 0)

$t > 0)$

i

$i$

β \leftarrow β - t g = {\begin{cases} β & if y_{i} and β^{T} x_{i} have the same sign \\ β + t y_{i} x_{i} & otherwise. \end{cases}

$\beta \leftarrow \beta - t g = \begin{cases} \beta & \quad \text{if $y_i$ and $\beta^T x_i$ have the same sign} \\ \beta + t y_i x_i & \quad \text{otherwise.} \end{cases}$

t

$t$

— littleO
स्रोत

0

एंड्रयू एनजी ने "लॉजिस्टिक रिग्रेशन" शब्द का उपयोग द्विआधारी वर्गीकरण समस्या को हल करने के लिए एक मॉडल के रूप में किया था।

जैसा कि आप कागज में देख सकते हैं कि वह वास्तव में मॉडल को कभी नहीं खींचता है।

मुझे बकेट में कुछ विवरण जोड़ने दें ताकि आपको यह पता चल सके कि कैसे मुझे लगता है कि उन्होंने व्याख्यान का निर्माण किया।

"लॉजिस्टिक रिग्रेशन" के लिए इस्तेमाल किया जाने वाला मॉडल एक एकल स्तर की धारणा है जिसमें कस्टम संख्या के इनपुट और एक आउटपुट 0 से 1 तक है।

90 के दशक में सबसे सराहनीय सक्रियण फ़ंक्शन सिग्मोइडल सक्रियण फ़ंक्शन था, और बैकअप के रूप में एक महान गणितीय सिद्धांत है।

यह ठीक वैसा ही है जैसा एंड्रयू फंक्शन का उपयोग किया जाता है क्योंकि यह फंक्शन 0 से 1 तक होता है।

इसके अलावा व्युत्पन्न s'(x) = s(x)(1−s(x)) , जहां s(x)सिग्मोइडल सक्रियण फ़ंक्शन है।

त्रुटि फ़ंक्शन के लिए वह L2 का उपयोग करता है, हालांकि कुछ कागजात में वह इसके लिए कुछ अन्य फ़ंक्शन का उपयोग कर सकता है।

इसलिए पुनरावृत्ति करने के लिए, "लॉजिस्टिक रिग्रेशन" पर विचार करते समय सिग्मायॉइडल एक्टिवेशन फ़ंक्शन, इनपुट की कस्टम संख्या और एकल आउटपुट के साथ एकल स्तर की धारणा पर विचार करें।

बस कुछ नोट्स: सिग्मोइडल सक्रियण फ़ंक्शन के साथ कुछ भी गलत नहीं है, हालांकि फ़्लोटिंग पॉइंट अंकगणित के लिए, आजकल ReLU छिपी हुई परतों पर हावी है, लेकिन निकट भविष्य में पॉज़िटिव (या कुछ अन्य अंकगणितीय इकाइयां) सिग्मायोडल सक्रियण फ़ंक्शन को वापस तालिका में डाल सकते हैं। ।

व्यक्तित्व, मैं SLP (एकल स्तर परसेप्ट्रान) को समझाने के लिए ReLU फ़ंक्शन के साथ सरल मॉडल का उपयोग करूंगा क्योंकि यह आज अधिक उपयोग किया जाता है।

— prosti
स्रोत