बंद-रूप बनाम ढाल वंश में प्रतिगमन मापदंडों के लिए समाधान


71

एंड्रयू एनजी के मशीन लर्निंग कोर्स में , वह रैखिक प्रतिगमन और लॉजिस्टिक रिग्रेशन का परिचय देता है, और दिखाता है कि कैसे ढाल वंश और न्यूटन की विधि का उपयोग करके मॉडल मापदंडों को फिट किया जाए।

मुझे पता है कि ढाल सीखने की मशीन सीखने के कुछ अनुप्रयोगों में उपयोगी हो सकती है (उदाहरण के लिए, बैकप्रोपोगेशन), लेकिन अधिक सामान्य मामले में कोई कारण नहीं है कि आप बंद रूप में मापदंडों के लिए हल क्यों नहीं करेंगे - यानी, व्युत्पन्न लेने से पथरी के माध्यम से लागत समारोह और हल?

सामान्य रूप से बंद फॉर्म समाधान पर ग्रेडिएंट डिसेंट की तरह एक पुनरावृत्ति एल्गोरिथ्म का उपयोग करने से क्या फायदा है, जब कोई उपलब्ध हो?


9
मुझे नहीं लगता कि अधिकांश glms (जैसे लॉजिस्टिक रिग्रेशन) में प्रतिगमन मापदंडों के MLE के लिए एक बंद फ़ॉर्म समाधान है। सामान्य त्रुटियों के साथ रैखिक प्रतिगमन एक अपवाद है।
मैक्रो

5
दिलचस्प ... क्या इसका मतलब यह है कि अलग-अलग आँकड़े पैकेज लॉजिस्टिक रिग्रेशन के लिए अलग-अलग उत्तर दे सकते हैं, उदाहरण के लिए, प्रारंभिक पैरामीटर सेटिंग्स, पुनरावृत्तियों की संख्या, कई स्थानीय मिनीमा, आदि ।-- या एक पारंपरिक प्रक्रिया है जो सभी अच्छे आँकड़े पैकेज हैं। का पालन करें? (हालांकि मुझे यकीन है कि कोई अंतर है, अगर वे मौजूद हैं, तो ज्यादातर मामलों में मिनट हैं)
जेफ़

3
(+1) आपके प्रश्न और आपकी टिप्पणी के लिए, जेफ। कन्वेक्शन लिंक (लॉजिस्टिक रिग्रेशन की तरह) का उपयोग करने वाले जीएलएम उत्तलता के अच्छे गुणों से लाभान्वित होते हैं। इस तरह की समस्याओं को हल करने के लिए एक से अधिक एल्गोरिथ्म हो सकते हैं, लेकिन इसका मूल कारण यह है कि (मॉडुलो कुछ काफी मामूली विवरण), अच्छी तरह से कार्यान्वित संख्यात्मक एल्गोरिदम उनके बीच लगातार परिणाम देंगे।
कार्डिनल

2
मैं एंड्रयू एनजी के पाठ्यक्रम को व्यक्तिगत रूप से नापसंद करता हूं क्योंकि इसने लोगों को विश्वास दिलाया है कि रैखिक प्रतिगमन "मशीन लर्निंग" है।
डिगियो

जवाबों:


85

जब तक बंद फॉर्म समाधान गणना करने के लिए बहुत महंगा नहीं है, यह आम तौर पर उपलब्ध होने पर जाने का तरीका है। हालाँकि,

  1. अधिकांश गैर-रेखीय प्रतिगमन समस्याओं के लिए कोई बंद प्रपत्र समाधान नहीं है।

  2. यहां तक ​​कि रैखिक प्रतिगमन में (कुछ मामलों में जहां एक बंद फार्म समाधान उपलब्ध है), सूत्र का उपयोग करना अव्यावहारिक हो सकता है। निम्न उदाहरण एक रास्ता दिखाता है जिसमें यह हो सकता है।

प्रपत्र के एक मॉडल पर रेखीय प्रतीपगमन के लिए y=Xβ , जहां X पूर्ण स्तंभ रैंक के साथ एक मैट्रिक्स है, कम से कम वर्गों समाधान,

β^=argminXβy2

द्वारा दिया गया है

β^=(XTX)1XTy

अब, कल्पना करें कि एक बहुत बड़ा लेकिन विरल मैट्रिक्स है। उदाहरण के लिए में 100,000 कॉलम और 1,000,000 पंक्तियाँ हो सकती हैं, लेकिन में केवल 0.001% प्रविष्टियाँ नॉनज़रो हैं। इस तरह के विरल मैट्रिस के केवल नॉनजरो प्रविष्टियों को संग्रहीत करने के लिए विशेष डेटा संरचनाएं हैं। XXX

यह भी कल्पना करें कि हम अशुभ हैं, और एक काफी घने मैट्रिक्स है जिसमें बहुत अधिक प्रतिशत गैर-अक्षीय प्रविष्टियां हैं। 100,000 तत्व द्वारा एक घने 100,000 को संचयित करने के लिए फिर फ्लोटिंग पॉइंट नंबर (8 बाइट्स प्रति नंबर, इसके लिए 80 गीगाबाइट की आवश्यकता होती है।) यह किसी भी चीज़ को स्टोर करने के लिए अव्यावहारिक होगा। लेकिन एक सुपर कंप्यूटर। इसके अलावा, इस मैट्रिक्स का व्युत्क्रम (या अधिक सामान्यतः एक चोल्स्की कारक) भी ज्यादातर गैर-एंटेरो प्रविष्टियों के लिए होता है। XTXXTX1×1010

हालांकि, कम से कम वर्गों की समस्या को हल करने के लिए पुनरावृत्त तरीके हैं जिनके लिए , , और से अधिक भंडारण की आवश्यकता नहीं है और कभी भी स्पष्ट रूप से मैट्रिक्स उत्पाद नहीं बनाते हैं । Xyβ^XTX

इस स्थिति में, कम से कम वर्गों की समस्या के लिए बंद फार्म समाधान का उपयोग करने की तुलना में पुनरावृत्त विधि का उपयोग करना अधिक कम्प्यूटेशनल रूप से कुशल है।

यह उदाहरण बेतुका बड़ा लग सकता है। हालांकि, भूकंपीय जीवनी अनुसंधान में डेस्कटॉप कंप्यूटर पर पुनरावृत्ति विधियों द्वारा इस आकार की बड़ी विरल कम से कम समस्याएं हल की गई हैं।


4
मुझे यह उल्लेख करना चाहिए कि संख्यात्मक सटीकता के मुद्दे भी हैं जो बंद किए गए फॉर्म समाधान का उपयोग कम से कम वर्गों की समस्या को अस्वीकार्य बना सकते हैं। हालांकि, इसके लिए बीमार कंडीशनिंग की चर्चा की आवश्यकता होगी जो मूल पोस्टर की वर्तमान समझ से परे होने की संभावना है।
ब्रायन Borchers

17
कृपया जवाब देने में संकोच न करें क्योंकि आपको नहीं लगता कि मैं इसे समझूंगा। पहला-- यह अधिक जानकारी प्रदान करने के लिए दुख नहीं होगा, भले ही मुझे इसे समझने के लिए कुछ शोध करना हो। दूसरा-- स्टैटेक्सचेंज मॉडल मानता है कि इस सवाल और जवाब से भविष्य में दूसरों को फायदा होगा। दूसरे शब्दों में, ओपी को पता है कि आप कितना सोचते हैं, या आप दूसरों को एक असंतुष्ट कर रहे हैं, इस आधार पर अपने जवाब को न दें।
जेफ

2
@ ब्रायन, मेरी भावना आपकी टिप्पणी मुद्दे के दिल के करीब है और जवाब में पहले वाक्य के साथ एक सा है। मुझे नहीं लगता कि कोई भी कम-वर्ग सॉफ़्टवेयर (इसके दाहिने दिमाग में) बंद-फ़ॉर्म समाधान का उपयोग करता है। :)
कार्डिनल

4
कार्डिनल- व्यवहार में, छोटे पैमाने पर कम से कम वर्गों की समस्याओं को हल करने के लिए क्यूआर कारक या एसवीडी का उपयोग करना सबसे अच्छा है। मैं तर्क दूंगा कि एलएसक्यूआर जैसी पुनरावृत्ति तकनीक का उपयोग करने की तुलना में इन ऑर्थोगोनल फैक्टरियों में से एक का उपयोग करने वाला एक समाधान भी "बंद फॉर्म समाधान" है। मैंने अपने उत्तर में इस पर ध्यान नहीं दिया क्योंकि यह मुख्य रूप से मेरे मुख्य बिंदु से ध्यान हटाता है।
ब्रायन Borchers

2
बीमार कंडीशनिंग? पाठ्यपुस्तक ने बंद कर दिया फॉर्म का हल? मुझे सुबह में स्क्वॉयर स्थिति संख्या की गंध पसंद है। एक बड़ी शर्त नंबर है? क्यों नहीं इसे चौकोर किया जाए और इसे और भी बड़ा बनाया जाए? क्या इतनी बड़ी शर्त संख्या नहीं है? क्यों न इसे चौकोर किया जाए और इसे बड़ा बनाया जाए।
मार्क एल। स्टोन

2

मशीन लर्निंग (एमएल) और रिग्रेशन पर कई पोस्ट किए गए हैं। सामान्य कम से कम वर्गों (ओएलएस) को हल करने के लिए एमएल की आवश्यकता नहीं होती है, क्योंकि इसमें रैखिक समीकरणों की एक प्रणाली को हल करने के लिए एक-चरण मैट्रिक्स सैंडविच संचालन शामिल है - यानी, । तथ्य यह है कि सब कुछ रैखिक है इसका मतलब है कि गुणांक के समाधान के लिए केवल एक-चरण संचालन की आवश्यकता है। लॉजिस्टिक प्रतिगमन संभावना फ़ंक्शन को अधिकतम करने पर आधारित है , जिसे न्यूटन-रफसन, या अन्य एमएल ग्रेडिएंट एसेंट विधियों, मेटाहिस्ट्रोस (पहाड़ी चढ़ाई, आनुवंशिक एल्गोरिदम, झुंड खुफिया, चींटी कॉलोनी अनुकूलन, आदि) का उपयोग करके हल किया जा सकता है। । β=(XTX)1XTyL=ipi

पार्सिमनी के बारे में, ओएलएस के लिए एमएल का उपयोग बेकार होगा क्योंकि ओएलएस को हल करने के लिए पुनरावृत्त सीखना अक्षम है।

अब, ढाल-आधारित समस्याओं को हल करने के लिए डेरिवेटिव बनाम एमएल दृष्टिकोण पर अपने वास्तविक प्रश्न पर वापस जाएं। विशेष रूप से, लॉजिस्टिक प्रतिगमन के लिए, न्यूटन-राफसन के ग्रेडिएंट डिसेंट (व्युत्पन्न-आधारित) दृष्टिकोण का आमतौर पर उपयोग किया जाता है। न्यूटन-रफसन के लिए आवश्यक है कि आप उद्देश्य फ़ंक्शन और उसके आंशिक व्युत्पत्ति को प्रत्येक पैरामीटर (सीमा में निरंतर और अलग-अलग) को जानते हैं। एमएल का उपयोग ज्यादातर तब किया जाता है जब उद्देश्य फ़ंक्शन बहुत जटिल होता है ("स्पष्ट रूप से") और आप डेरिवेटिव को नहीं जानते हैं। उदाहरण के लिए, एक कृत्रिम तंत्रिका नेटवर्क (एएनएन) का उपयोग किसी फ़ंक्शन फ़ंक्शन समस्या या पर्यवेक्षित वर्गीकरण समस्या को हल करने के लिए किया जा सकता है जब फ़ंक्शन का पता नहीं होता है। इस मामले में, ANN फ़ंक्शन है।

एक लॉजिस्टिक रिग्रेशन समस्या को हल करने के लिए एमएल तरीकों का उपयोग करने की गलती न करें, सिर्फ इसलिए कि आप कर सकते हैं। लॉजिस्टिक के लिए, न्यूटन-रफसन बेहद तेज है और समस्या को हल करने के लिए उपयुक्त तकनीक है। एमएल आमतौर पर इस्तेमाल किया जाता है जब आपको पता नहीं होता है कि फ़ंक्शन क्या है। (वैसे, ANN कम्प्यूटेशनल इंटेलिजेंस के क्षेत्र से हैं, और ML से नहीं)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.