संक्षेप में, लॉजिस्टिक रिग्रेशन में प्रायिकता संबंधी अनुमान होते हैं जो एमएल में क्लासिफायरियर उपयोग से परे जाते हैं। मेरे पास यहां लॉजिस्टिक रिग्रेशन पर कुछ नोट्स हैं ।
लॉजिस्टिक रिग्रेशन में परिकल्पना एक रैखिक मॉडल के आधार पर द्विआधारी परिणाम की घटना में अनिश्चितता का एक उपाय प्रदान करती है। आउटपुट को 0 और बीच असममित रूप से बांधा गया है 1, और एक रैखिक मॉडल पर निर्भर करता है, जैसे कि जब अंतर्निहित प्रतिगमन लाइन का मान 0 , तो लॉजिस्टिक समीकरण 0.5=e01+e0 , वर्गीकरण प्रयोजनों के लिए एक प्राकृतिक कटऑफ बिंदु प्रदान करता है। हालांकि, यह की वास्तविक परिणाम में संभावना जानकारी बाहर फेंकने की कीमत पर हैh(ΘTx)=eΘTx1+eΘTx , जो अक्सर दिलचस्प है (उदाहरण के लिए ऋण चूक दी आय, क्रेडिट स्कोर, आयु, आदि की संभावना)।
परसेप्ट्रॉन वर्गीकरण एल्गोरिथ्म एक अधिक बुनियादी प्रक्रिया है, उदाहरण और भार के बीच डॉट उत्पादों पर आधारित है । जब भी कोई उदाहरण मिसकॉलिफ़ाइड होता है तो प्रशिक्षण सेट में वर्गीकरण मूल्य ( - 1 और 1 ) के साथ डॉट उत्पाद का संकेत बाधाओं पर होता है । इसे ठीक करने के लिए, वेक्टर को पुनरावृत्त रूप से जोड़ा जाएगा या इसे वजन या गुणांक के वेक्टर से घटाया जाएगा, उत्तरोत्तर इसके तत्वों को अपडेट किया जाएगा:−11
सदिश रूप से, उदाहरण की विशेषताएँ या विशेषताएँ x हैं , और विचार उदाहरण को "पास" करने का है:dx
या ...∑1dθixi>theshold
। लॉजिस्टिक रिग्रेशन में 0 और 1 के विपरीत,साइन फंक्शन का परिणाम 1 या - 1 है ।h(x)=sign(∑1dθixi−theshold)1−101
दहलीज पूर्वाग्रह गुणांक में अवशोषित हो जाएगा , । सूत्र अब है:+θ0
, या vectorized: ज ( एक्स ) = संकेत ( θ टी एक्स ) ।h(x)=sign(∑0dθixi)h(x)=sign(θTx)
Misclassified अंक होगा , इस बात का डॉट उत्पाद अर्थ Θ और एक्स एन सकारात्मक होंगे (एक ही दिशा में वैक्टर), जब y n नकारात्मक है, या डॉट उत्पाद ऋणात्मक (वैक्टर विपरीत दिशाओं में), जबकि y n सकारात्मक है।sign(θTx)≠ynΘxnynyn
मैं एक ही पाठ्यक्रम से एक डाटासेट में इन दो तरीकों के बीच अंतर पर काम कर रहा हूं , जिसमें दो अलग-अलग परीक्षाओं में परीक्षा परिणाम कॉलेज के लिए अंतिम स्वीकृति से संबंधित हैं:
निर्णय सीमा आसानी से रसद प्रतिगमन के साथ पाया जा सकता है, लेकिन हालांकि गुणांक perceptron के साथ प्राप्त की रसद प्रतिगमन की तुलना में एकदम अलग थे कि देखने के लिए दिलचस्प था, की साधारण आवेदन परिणाम के लिए समारोह सिर्फ अच्छे एक वर्गीकृत करने के रूप में सामने आए कलन विधि। वास्तव में अधिकतम सटीकता (कुछ उदाहरणों के रैखिक अविभाज्यता द्वारा निर्धारित सीमा) दूसरे पुनरावृत्ति तक पहुंच गई थी। यहाँ सीमा विभाजन रेखाओं का क्रम है क्योंकि 10 पुनरावृत्तियों ने वज़न को अनुमानित किया है, जो गुणांक के यादृच्छिक वेक्टर से शुरू होता है:sign(⋅)10
वर्गीकरण में सटीकता पुनरावृत्तियों की संख्या के एक समारोह के रूप में तेजी से और पर पठारों में वृद्धि होती है , सुसंगत है कि कितनी तेजी से एक पास-इष्टतम निर्णय सीमा ऊपर वीडोकलिपि में पहुंच गई है। यहाँ सीखने की अवस्था की साजिश है:90%
उपयोग किया गया कोड यहाँ है ।