लॉजिस्टिक रिग्रेशन को मशीन लर्निंग एल्गोरिदम क्यों कहा जाता है?


19

अगर मुझे सही तरीके से समझ में आया, मशीन लर्निंग एल्गोरिदम में, मॉडल को अपने अनुभव से सीखना होगा, यानी जब मॉडल नए मामलों के लिए गलत भविष्यवाणी देता है, तो उसे नई टिप्पणियों के अनुकूल होना चाहिए, और समय के साथ, मॉडल तेजी से बेहतर हो जाता है। । मैं नहीं देखता कि लॉजिस्टिक रिग्रेशन में यह विशेषता है। तो क्यों यह अभी भी एक मशीन लर्निंग एल्गोरिदम के रूप में माना जाता है? "सीखने" की अवधि में सामान्य प्रतिगमन के साथ लॉजिस्टिक प्रतिगमन के बीच अंतर क्या है?

मैं यादृच्छिक जंगलों के लिए एक ही सवाल है!

और "मशीन लर्निंग" की परिभाषा क्या है?


4
मैंने आपके प्रश्न को व्याकरणिक स्पष्टता के लिए संपादित किया है, लेकिन यह निश्चित नहीं है कि आपका समग्र अर्थ क्या है ... लॉजिस्टिक प्रतिगमन एमएल के तहत आता है क्योंकि यह एक वर्गीकरण एल्गोरिथ्म है। मशीन लर्निंग का अर्थ यह नहीं है कि एल्गोरिदम को अनुकूल होना चाहिए (हालांकि नए एल्गोरिदम से सीखने वाले एल्गोरिदम हैं)। एडाप्टिंग एक कार्यान्वयन विकल्प है, जो आमतौर पर जेनरेटर मशीन लर्निंग एल्गोरिदम द्वारा प्राप्त किया जाता है जो संयुक्त संभावना को मॉडल करता है।
ज़ुर्बर्ब

12
"मशीन लर्निंग" एक कम परिभाषित अवधारणा है। वास्तव में, सभी सांख्यिकीय प्रक्रियाएं जिसमें एक मॉडल फिटिंग शामिल है, मशीन सीखने के बारे में सोचा जा सकता है। (मान लें कि मॉडल की फिटिंग कंप्यूटर द्वारा की जा सकती है, कुछ हद तक!)। यही कारण है कि कुछ सांख्यिकीविद "बड़े डेटा", "मशीन लर्निंग" आदि से निराश हो जाते हैं, आदि समुदाय पानी के बारे में
मैला कर रहे हैं


1
@ P.Windridge: अगर "सभी सांख्यिकीय प्रक्रियाएं जिसमें एक मॉडल को शामिल करना मशीन सीखने का विचार हो सकता है" तो मुझे नहीं लगता कि हमें मशीन सीखने और सांख्यिकीय को अलग क्यों करना चाहिए
Metariat

4
@XuanQuangDO हम शायद मशीन सीखने और आंकड़ों में अंतर नहीं करना चाहिए।
साइकोरैक्स का कहना है कि मोनिका

जवाबों:


21

मशीन लर्निंग एक अच्छी तरह से परिभाषित शब्द नहीं है।

वास्तव में, यदि आप Google "मशीन लर्निंग डेफिनिशन" पहले दो चीजें जो आपको मिलती हैं, वे काफी अलग हैं।

से WhatIs.com ,

मशीन लर्निंग एक प्रकार की कृत्रिम बुद्धिमत्ता (एआई) है जो कंप्यूटर को स्पष्ट रूप से प्रोग्राम किए बिना सीखने की क्षमता प्रदान करती है। मशीन लर्निंग कंप्यूटर प्रोग्राम के विकास पर केंद्रित है जो नए डेटा के संपर्क में आने पर खुद को विकसित और बदलना सिखा सकता है।

से विकिपीडिया ,

मशीन लर्निंग एल्गोरिदम के निर्माण और अध्ययन की खोज करता है जो डेटा पर भविष्यवाणी कर सकता है और सीख सकता है।

लॉजिस्टिक रिग्रेशन निस्संदेह विकिपीडिया की परिभाषा को फिट करता है और आप यह तर्क दे सकते हैं कि क्या यह व्हाट्स डिफिबिशन को फिट करता है या नहीं।

मैं व्यक्तिगत रूप से मशीन लर्निंग को परिभाषित करता हूं जैसा कि विकिपीडिया करता है और इसे आंकड़ों का सबसेट मानता है।


1
मैं आपके द्वारा कही गई अधिकांश बातों से सहमत हूं, सिवाय इसके कि यह आंकड़ों का सबसेट है। इसका एक बड़ा ओवरलैप है, लेकिन इसमें सीखने के प्रकार हैं, जैसे सुदृढीकरण सीखने, जिसे वास्तव में आंकड़ों का सबसेट नहीं माना जा सकता है।
जॉर्ज

2
ये अच्छे स्रोत नहीं हैं।
नील जी

@George राइट, लेकिन इसका सामना करते हैं, अगर आपको एक लेबल को सभी डेटा संग्रह, विश्लेषण, और मॉडलिंग के तरीकों को लागू करना था, चाहे वह मशीन लर्निंग, पर्यवेक्षित या अप्रकाशित, पैरामीट्रिक या नॉनपैमेट्रिक हो, यह सभी आँकड़े हैं। एमएल सांख्यिकी में एक विशेष क्षेत्र है।
राबर्ट एफपी

@ रोबर्टफ मैं असहमत हूं। मशीन लर्निंग वह क्षेत्र है जो अध्ययन करता है कि मशीनें कैसे सीख सकती हैं। मैं इस बात से सहमत हूं कि एमएल में इस्तेमाल होने वाले अधिकांश तरीकों को सांख्यिकीय तरीके माना जा सकता है, लेकिन यह क्षेत्र स्वाभाविक रूप से आंकड़ों का एक उपक्षेत्र नहीं है। उदाहरण के लिए, मुझे नहीं लगता कि मार्कोव निर्णय प्रक्रियाओं को सांख्यिकीय तरीके माना जाता है।
जॉर्ज

1
@ जॉर्ज डे-टाइम मार्कोव मॉडल प्रायिकता मॉडल हैं। एक बार जब आप एक संभाव्यता मॉडल (जैसे मार्कोव निर्णय प्रक्रियाओं) के अज्ञात मापदंडों का अनुमान लगाते हैं, तो यह एक सांख्यिकीय प्रक्रिया की पाठ्यपुस्तक परिभाषा है। मुझे लगता है कि गतिविधियों का मुख्य वर्ग जिसे एमएल कहा जा सकता है और आँकड़े विशिष्ट अनुप्रयोग नहीं हैं, जैसे एक रोबोट जो शतरंज खेलता है। अंतर्निहित एल्गोरिदम निस्संदेह संभावना और आँकड़े शामिल करेगा, लेकिन आवेदन वास्तव में "आँकड़े" नहीं है। इस तरह की तरह जीनोमिक्स अनुसंधान आँकड़ों का भारी उपयोग करता है, लेकिन वे निश्चित रूप से अलग-अलग क्षेत्र हैं।
आह '

20

मशीन लर्निंग हॉट है और पैसा कहां है। लोग उन चीज़ों को कहते हैं जिन्हें वे इस समय बेचने की कोशिश कर रहे हैं जो कुछ गर्म है और इसलिए "बेचता है"। वह सॉफ्टवेयर बेच सकता है। कि वर्तमान कर्मचारियों के रूप में पदोन्नत करने की कोशिश कर रहे वर्तमान कर्मचारियों के रूप में, भावी कर्मचारियों, सलाहकारों के रूप में, आदि हो सकता है कि एक प्रबंधक एक कंपनी bigwig से बजट प्राप्त करने के लिए लोगों को काम पर रखने और सामान खरीदने, या निवेशकों को निवेश करने के लिए मनाने की कोशिश कर सकता है उसकी / उसके गर्म नए स्टार्टअप जो मशीन लर्निंग को एक बेहतर सेक्सटिंग ऐप बनाने की कुंजी के रूप में करता है। तो सॉफ्टवेयर मशीन लर्निंग करता है और लोग मशीन लर्निंग विशेषज्ञ हैं, क्योंकि यही हॉट है और इसलिए जो बेचता है ... कम से कम अभी के लिए।

मैंने 30 साल से अधिक समय के सभी प्रकार के रैखिक और गैर-सांख्यिकीय सांख्यिकीय मॉडल फिटिंग किए। इसे मशीन लर्निंग नहीं कहा जाता था। अब, यह सबसे अधिक होगा।

बस के रूप में हर कोई और उनके चाचा अब एक डेटा "वैज्ञानिक" है। यह गर्म है, यह माना जाता है कि यह सेक्सी है, इसलिए लोग इसे स्वयं कहते हैं। और यही वह है जो काम पर रखने वाले प्रबंधकों को बजट सूची प्राप्त करने के लिए अनुमोदित करना होगा जैसे कि किसी सूची पदों को रखने के लिए। जो कोई गणित, संभाव्यता, सांख्यिकी, अनुकूलन, या संख्यात्मक / फ्लोटिंग पॉइंट कम्प्यूटेशन के बारे में पहली बात नहीं जानता, वह आर एंड पायथन पैकेज का उपयोग करता है जो संदिग्ध शुद्धता और कार्यान्वयन की मजबूती के लिए होता है, और जिसे मशीन प्रिंटिंग एल्गोरिथ्म के रूप में लेबल किया जाता है। डेटा पर लागू करने के लिए वे समझ में नहीं आते हैं, और ऐसा करने में अपने अनुभव के आधार पर खुद को एक डेटा वैज्ञानिक कहते हैं।

यह स्पष्ट लग सकता है, लेकिन मेरा मानना ​​है कि यह स्थिति का सार है।

संपादित करें: 26 सितंबर, 2019 को निम्नलिखित ट्वीट किया गया था:

https://twitter.com/daniela_witten/status/1177294449702928384

Daniela Witten @daniela_witten "जब हम धन जुटाते हैं तो यह AI होता है, जब हम इसे मशीन लर्निंग को किराए पर लेते हैं, और जब हम काम करते हैं तो यह लॉजिस्टिक रिग्रेशन होता है।"

(मुझे यकीन नहीं है कि यह किसके साथ आया था लेकिन यह एक रत्न है came)


16
मैं यह नहीं छिपाऊंगा कि मैं इनमें से कुछ राय साझा करता हूं और बाकी के लिए सहानुभूति रखता हूं। हालांकि, उनके लिए एक एसई साइट पर एक उत्तर के रूप में उपयुक्त होने के लिए उन्हें किसी प्रकार का समर्थन करने की आवश्यकता है। जाहिर है कि यह कटौतीत्मक तर्क के माध्यम से नहीं होगा: इसे तथ्यों को जोड़ने और / या आधिकारिक स्रोतों का हवाला देकर आना होगा। यह अच्छा होगा यदि आप ऐसा कर सकते हैं!
whuber

10
आसानी से सबसे मनोरंजक पोस्ट जो मैंने आज इस साइट पर पढ़ी है, और मैं इससे बहुत सहमत हूं। लेकिन मुझे @whuber से सहमत होना होगा कि यह वास्तव में इस सवाल का जवाब नहीं देता है।
निक कॉक्स

6
एक छोटे से स्पष्टीकरण के रूप में। मैं सॉफ्टवेयर डेवलपमेंट और "डेटा साइंस" दोनों में काम करता हूं। मैं बहुत सारे लोगों का इंटरव्यू करता हूं। सॉफ्टवेयर डेवलपमेंट पोजीशन और डेटा साइंस पोजिशन के लिए इंटरव्यू लेने वाले लोगों की दर जिनके पास जॉब करने का हुनर ​​नहीं है। तो डेटा विज्ञान शीर्षक के बारे में क्या खास है? लोग सभी तकनीकी विषयों में अपने कौशल को बढ़ाने जा रहे हैं। मुझे यकीन है कि स्टैक एक्सचेंज की प्रोग्रामिंग में समान शिकायतें हैं।
मैथ्यू ड्र्यू

7
यह एक उत्तर की तुलना में अधिक शेख़ी जैसा लगता है। ज़रूर, नाम बदल जाते हैं, ब्रांडिंग महत्वपूर्ण है और मशीन लर्निंग गर्म है (और इसलिए कई स्व-घोषित चिकित्सक हैं जो नहीं जानते कि वे क्या कर रहे हैं)। हालांकि, एक क्षेत्र को नीचा दिखाने के लिए एक तर्क के रूप में उपयोग करना जो स्थापित हो गया है और अनुसंधान और उद्योग दोनों में अत्यधिक प्रासंगिक है, मुझे सस्ता लगता है।
मार्क क्लेसेन

7
@ MarkL.Stone मैं आपकी स्थिति को समझता हूं और मैं पूरी तरह से सहमत हूं कि यहां कई अक्षम सम्मिलित हॉट टर्म हैं । हालांकि, मेरी राय में ऐसे लोग मिल जाते हैं (और रखते हैं!) नौकरी प्रबंधन की गलती है। यदि प्रबंधक विश्लेषकों के परिणामों से नाखुश हैं, और सभी विश्लेषकों को व्यक्तिगत कौशल / परिणामों की परवाह किए बिना समान व्यवहार करते हैं, तो प्रबंधन खराब विश्लेषकों के समान ही अक्षम है। किसी भी नौकरी में कैश की गंध होती है, उदाहरण के लिए दवा लें। डेटा वैज्ञानिकों / मशीन सीखने वाले लोगों के बारे में व्यापक सामान्यीकरण सभी विश्लेषकों के अविश्वास के रूप में बुरे हैं।
मार्क क्लेन

18

जैसा कि दूसरों ने पहले ही उल्लेख किया है, आंकड़ों, मशीन सीखने, कृत्रिम बुद्धि और इतने पर कोई स्पष्ट अलगाव नहीं है, इसलिए नमक के एक दाने के साथ कोई भी परिभाषा लें। लॉजिस्टिक रिग्रेशन को अक्सर मशीन लर्निंग के बजाय सांख्यिकी के रूप में लेबल किया जाता है, जबकि तंत्रिका नेटवर्क को आमतौर पर मशीन लर्निंग के रूप में लेबल किया जाता है (भले ही न्यूरल नेटवर्क अक्सर लॉजिस्टिक रिग्रेशन मॉडल का एक संग्रह होता है)।

मेरी राय में, मशीन लर्निंग स्टडी मेथड्स जो किसी तरह डेटा से सीख सकते हैं, आमतौर पर किसी न किसी शेप या फॉर्म में मॉडल बनाकर। लॉजिस्टिक रिग्रेशन, जैसे एसवीएम, तंत्रिका नेटवर्क, यादृच्छिक वन और कई अन्य तकनीकें, मॉडल का निर्माण करते समय डेटा से सीखती हैं ।

अगर मुझे मशीन लर्निंग एल्गोरिदम में सही ढंग से समझ में आया, तो मॉडल को अपने अनुभव से सीखना होगा

यह वास्तव में नहीं है कि आमतौर पर मशीन लर्निंग को कैसे परिभाषित किया जाता है। सभी मशीन लर्निंग के तरीके ऐसे मॉडल नहीं देते हैं जो गतिशील रूप से नए डेटा के अनुकूल हो (इस सबफील्ड को ऑनलाइन लर्निंग कहा जाता है )।

"सीखने" की अवधि में सामान्य प्रतिगमन के साथ लॉजिस्टिक प्रतिगमन के बीच अंतर क्या है?

कई प्रतिगमन विधियों को मशीन लर्निंग (जैसे SVM) के रूप में भी वर्गीकृत किया जाता है।


2
ध्यान दें कि बिना पढ़े हुए सीखने को अभी भी (मशीन) शिक्षा कहा जाता है, इसलिए आपको किसी चीज़ को "मशीन लर्निंग" के रूप में वर्गीकृत करने के लिए किसी भी फीडबैक लूप की आवश्यकता नहीं है।
vsz

यह प्रश्न के लिए विषय पर नहीं है, लेकिन इस उत्तर में एआई और एमएल के बीच अलगाव का उल्लेख है। मुझे हमेशा AI की यह परिभाषा पसंद आई: en.wikipedia.org/wiki/…
डेविस योशिदा

10

लॉजिस्टिक रिग्रेशन का आविष्कार सांख्यिकीविद् डीआर कॉक्स ने 1958 में किया था और इसलिए मशीन लर्निंग के क्षेत्र की भविष्यवाणी करता है। लॉजिस्टिक रिग्रेशन नहीं है एक वर्गीकरण विधि है, अच्छाई का धन्यवाद। यह एक प्रत्यक्ष संभावना मॉडल है।

यदि आपको लगता है कि एक एल्गोरिथ्म के दो चरण हैं (प्रारंभिक अनुमान, तो "सही" भविष्यवाणी "त्रुटियों") इस पर विचार करें: लॉजिस्टिक प्रतिगमन इसे पहली बार सही पाता है। यही है, एडिटिव (लॉगिट में) मॉडल की जगह में। लॉजिस्टिक रिग्रेशन कई मशीन लर्निंग के तरीकों का प्रत्यक्ष प्रतियोगी है और जब उनमें से मुख्य रूप से additively कार्य करते हैं (या जब विषय वस्तु ज्ञान सही ढंग से बातचीत को पूर्व-निर्दिष्ट करता है), तो उनमें से कई को बेहतर बनाता है। कुछ लोग लॉजिस्टिक रिग्रेशन को एक प्रकार की मशीन लर्निंग कहते हैं लेकिन अधिकांश नहीं। आप कुछ मशीन सीखने के तरीकों (तंत्रिका नेटवर्क उदाहरण हैं) को सांख्यिकीय मॉडल कह सकते हैं।


1
मजेदार रूप से अमेज़ॅन की मशीन सीखने की सेवा केवल एक एल्गोरिथ्म (afaik) - लॉजिस्टिक प्रतिगमन - वर्गीकरण कार्यों के लिए उपयोग करती है : पी aws.amazon.com/machine-learning/faqs
stmax

आप डेटा को केवल एक ऑनलाइन सीखने की समस्या के रूप में बढ़ा-चढ़ाकर पेश कर सकते हैं । उस स्थिति में, लॉजिस्टिक रिग्रेशन "इसे पहली बार सही करना" नहीं है। मैं उत्तरोत्तर सीखता हूं। इसका एक मानक नुकसान है, और इसका अद्यतन ग्रेडिएंट डिसेंट का मानक अनुप्रयोग है। लॉजिस्टिक रिग्रेशन हर मशीन लर्निंग टेक्स्ट बुक में है जिसे मैंने देखा है।
नील जी

1
तथ्य यह है कि आप एक वृद्धिशील फैशन में डेटा का नमूना कर सकते हैं किसी भी अनुमानक पर लागू कर सकते हैं यहां तक ​​कि एक मतलब है कि अलग रखें। लॉजिस्टिक मॉडल जैसे विधि में जहां लॉग लाइबिलिटी फ़ंक्शन का पहला और दूसरा डेरिवेटिव विश्लेषणात्मक रूप से उपलब्ध हैं, आप केवल अनुमान लगाने के लिए स्टेप-हॉल्टिंग के साथ अल्ट्रा-फास्ट न्यूटन-रैपसन विधि का उपयोग करते हैं।βइंटरसेप्ट को छोड़कर प्रारंभिक अनुमान शून्य पर सेट है।
फ्रैंक हरेल

@FrankHarrell: सही है, और यह है कि एक लॉजिस्टिक रिग्रेशन समस्या के समाधान की अधिकतम संभावना कितनी है।
नील जी

लॉजिस्टिक रिग्रेशन "मशीन लर्निंग" शब्द की भविष्यवाणी कर सकता है , लेकिन यह क्षेत्र को पूर्व निर्धारित नहीं करता है : एसएनएआरसी को 1951 में विकसित किया गया था और यह एक सीखने की मशीन थी । इसके अलावा, यह तर्क कि लॉजिस्टिक प्रतिगमन केवल संभावनाओं को मॉडल करता है, और अपने आप से, एक क्लासिफायरियर नहीं है, बाल-विभाजन है। उस तर्क से, एक तंत्रिका नेटवर्क एक क्लासिफायरियर नहीं है (जब तक कि आउटपुट परत में बाइनरी न्यूरॉन्स नहीं होते हैं, लेकिन यह बैकप्रॉपैगैशन को असंभव बना देगा)।
इगोर एफ।

8

मुझे यहाँ अधिकतर उत्तरों से असहमत होना पड़ेगा और यह दावा करना पड़ेगा मशीन लर्निंगबहुत सटीक गुंजाइश है और सांख्यिकी से स्पष्ट अंतर है। एमएल एक लंबे इतिहास के साथ कंप्यूटर विज्ञान का एक उप-क्षेत्र है, जो केवल हाल के वर्षों में अपने डोमेन के बाहर के अनुप्रयोगों को मिला है। ML का पैतृक क्षेत्र और एप्लिकेशन डोमेन आर्टिफिशियल इंटेलिजेंस (रोबोटिक्स, पैटर्न रिकॉग्निशन सॉफ्टवेयर, आदि) के भीतर है, इसलिए, यह "बिग डेटा" या "डेटा साइंस" की तरह "हॉट टर्म" नहीं है। दूसरी ओर आंकड़े, (जो "राज्य" शब्द से आया है) सामाजिक और आर्थिक विज्ञान के भीतर मनुष्य के लिए एक उपकरण के रूप में विकसित हुआ था, मशीनों के लिए नहीं। एमएल आँकड़ों से अलग-अलग विकसित हुआ और, सांख्यिकीय सिद्धांतों पर बहुत अधिक भरोसा करने के तरीके के साथ कहीं न कहीं, यह किसी भी तरह से आंकड़ों का एक उपक्षेत्र नहीं है। एमएल और आँकड़े पूरक हैं, अतिव्यापी क्षेत्र नहीं।

लंबे उत्तर :

जैसा कि इसके नाम से निहित है एमएल विधियां सॉफ्टवेयर / मशीनों के लिए बनाई गई थीं जबकि मानव के लिए सांख्यिकीय तरीके बनाए गए थे। एमएल और सांख्यिकी दोनों डेटा पर भविष्यवाणियों से निपटते हैं, हालांकि, एमएल विधियाँ एक गैर पैरामीट्रिक स्वचालित दृष्टिकोण का पालन करती हैं, जबकि सांख्यिकीय विधियों में एक जोड़ा व्याख्यात्मक कारक के साथ मैनुअल मॉडल-निर्माण कार्य का एक बड़ा सौदा आवश्यक है। यह एकदम सही समझ में आता है यदि आप समझते हैं कि ए.एल. शोध में एमएल एल्गोरिदम को स्वचालित भविष्यवाणी-निर्माण के साधन के रूप में विकसित किया गया था जिसे रोबोटिक्स सॉफ्टवेयर (जैसे आवाज और चेहरे की पहचान के प्रयोजनों के लिए) में एकीकृत किया जाना था। जब एक "मशीन" एक भविष्यवाणी करता है, तो इसके पीछे के कारणों की परवाह नहीं करता है। एक मशीन को एक मॉडल के पीछे ड्राइवरों / भविष्यवाणियों को जानने की परवाह नहीं है जो ईमेल को स्पैम या गैर-स्पैम के रूप में वर्गीकृत करता है, यह केवल भविष्यवाणी की सबसे अच्छी सटीकता की परवाह करता है।ब्लैक बॉक्स , ऐसा नहीं है क्योंकि उनके पास एक मॉडल नहीं है, यह इसलिए है क्योंकि मॉडल का निर्माण एल्गोरिथम रूप से किया गया है और इसका मतलब न तो मानव और न ही मशीन से दिखाई देना है।

एमएल में "प्रशिक्षण" की अवधारणा कम्प्यूटेशनल शक्ति पर निर्भर करती है, जबकि पैरामीटर अनुमान के लिए ओएलएस-प्रकार के साथ सांख्यिकीय मॉडल-निर्माण एक मानव विशेषज्ञ के ज्ञान पर निर्भर करता है। एक बहु प्रतिगमन परिदृश्य में यह अपने मॉडल को चुनने और सभी आवश्यक सांख्यिकीय मान्यताओं को सत्यापित करने के लिए अपने विशेषज्ञ निर्णय का उपयोग करने के लिए सांख्यिकीविद् के लिए सख्ती से है। एक सांख्यिकीविद् का लक्ष्य केवल प्रतिमानों का पता लगाना और भविष्यवाणियों के लिए उनका उपयोग करना नहीं है, बल्कि उनके आंकड़ों और उनकी समस्या को एमएल की तुलना में अधिक गहराई से समझना है।

बेशक कुछ अवसरों में एमएल और आंकड़े ओवरलैप करते हैं, जैसा कि कई विषयों के साथ होता है। तार्किक प्रतिगमन इन अवसरों में से एक है; मूल रूप से एक सांख्यिकीय विधि, जो सरल परसेप्ट्रॉन (सबसे मौलिक एमएल तकनीकों में से एक) के लिए बहुत समानता है, कि यह कुछ एमएल पद्धति के रूप में देखा जाता है।


1
शायद आपने कभी नॉनपैरेट्रिक आँकड़ों और नॉनपामेट्रिक सांख्यिकीय मॉडल और मॉडल बिल्डिंग के बारे में नहीं सुना है?
मार्क एल। स्टोन

1
हां, मैं दैनिक आधार पर नॉनपैमेट्रिक सांख्यिकी का उपयोग करता हूं। मैंने यह नहीं कहा कि एमएल आँकड़ों के लिए एक गैर-जवाबदेह है, मैं सिर्फ यह पाता हूँ कि गैर-घटक तरीकों से होने वाले एमएल तरीके एक साइड-इफ़ेक्ट के रूप में आते हैं। जब पैरामीट्रिक आँकड़े विफल हो जाते हैं तो नॉनपैमेट्रिक सांख्यिकी सांख्यिकीविद् का एक वैकल्पिक विकल्प होता है, लेकिन यह अभी भी एक विशेषज्ञ की सचेत पसंद का परिणाम है। मैं शायद अपने दृष्टिकोण को संप्रेषित करने के लिए पर्याप्त स्पष्ट नहीं हूं और इसके लिए मैं माफी चाहता हूं।
डिगियो जूल

3
बहुत सारे सांख्यिकीविद् हैं जो हर समय गैर-पैरामीट्रिक मॉडल, आंकड़े करते हैं। क्या आपने अनुभवजन्य संभावना के बारे में सुना है - एक सांख्यिकीविद द्वारा आविष्कार किया गया है, जो सांख्यिकीविदों द्वारा उपयोग किया जाता है, और काफी गैर-पैरामीट्रिक है, हालांकि इसका उपयोग अर्ध-पैरामीट्रिक फैशन में भी किया जा सकता है। इसलिए मैं आपसे असहमत हूं, लेकिन मैंने आपको निराश नहीं किया।
मार्क एल। स्टोन

1
असहमत मार्क ठीक है, लेकिन मुझे अभी भी काफी समझ नहीं है कि आपका काउंटर तर्क क्या है। क्या आप अनुमान लगा रहे हैं कि गैर-समरूप आँकड़ों को मशीन लर्निंग (मुझे कभी इनकार नहीं किया गया) की कोई आवश्यकता नहीं है? या आप यह दावा कर रहे हैं कि मशीन लर्निंग वास्तव में गैर-समरूप आंकड़ों के लिए एक और नाम है (कुछ मैंने इनकार किया था)?
डिगियो जूल

3
यहाँ असहमत होने के लिए बहुत कुछ है। बहुक्रियाशील प्रतिगमन मॉडल, जब आधुनिक सांख्यिकीय उपकरणों के साथ संयोजन में उपयोग किया जाता है, तो यह एमएल के साथ लचीला और अत्यधिक प्रतिस्पर्धी हो सकता है।
फ्रैंक हरेल

3

मशीन लर्निंग काफी शिथिल परिभाषित है और आप इस सोच में सही हैं कि प्रतिगमन मॉडल - और केवल लॉजिस्टिक प्रतिगमन वाले ही नहीं - डेटा से "सीखना" भी। मुझे वास्तव में यकीन नहीं है कि इसका मतलब है कि मशीन लर्निंग वास्तव में आंकड़े हैं या आंकड़े वास्तव में मशीन लर्निंग हैं - या यदि इनमें से कोई भी मामला है।

हालाँकि, मुझे नहीं लगता कि एल्गोरिथ्म के लिए अपनी गलतियों से बार-बार सीखना आवश्यक है। अधिकांश तरीके कुछ मापदंडों की गणना के लिए एक प्रशिक्षण सेट का उपयोग करते हैं और फिर कुछ अतिरिक्त परीक्षण डेटा पर पूर्वानुमान बनाने के लिए इन निश्चित मापदंडों का उपयोग करते हैं। प्रशिक्षण प्रक्रिया में बार-बार मापदंडों को अपडेट करना शामिल हो सकता है (बैकप्रॉपैजेशन के रूप में), लेकिन यह जरूरी नहीं है (-अनुकूल पड़ोसी प्रशिक्षण के दौरान बिल्कुल भी कुछ नहीं करते!)। किसी भी मामले में, परीक्षण के समय, आपके पास ग्राउंड-सत्य डेटा तक पहुंच भी नहीं हो सकती है।

कहा कि, कुछ एल्गोरिदम भविष्यवाणी त्रुटियों से सीखते हैं - यह विशेष रूप से सुदृढीकरण सीखने में आम है , जहां एक एजेंट कुछ कार्रवाई करता है, इसके परिणाम का निरीक्षण करता है, और फिर भविष्य के कार्यों की योजना बनाने के लिए परिणाम का उपयोग करता है। उदाहरण के लिए, एक रोबोट वैक्यूम दुनिया के एक मॉडल के साथ शुरू हो सकता है जहां यह सभी स्थानों को समान रूप से साफ करता है, और फिर गंदे स्थानों (जहां यह गंदगी को ढूंढकर "पुरस्कृत होता है) को और अधिक और स्वच्छ स्थानों को कम सीखता है।

ऑनलाइन या वृद्धिशील एल्गोरिदम को नए प्रशिक्षण डेटा के साथ बार-बार अपडेट किया जा सकता है। यह आवश्यक रूप से मॉडल की भविष्यवाणी सटीकता पर निर्भर नहीं करता है, लेकिन मैं एक एल्गोरिथ्म की कल्पना कर सकता हूं जहां वजन अधिक आक्रामक रूप से अपडेट किया जाता है यदि, उदाहरण के लिए, नया डेटा वर्तमान मॉडल को देखते हुए बहुत संभावना नहीं है। लॉजिस्टिक रिग्रेशन के लिए ऑनलाइन संस्करण हैं: उदाहरण के लिए, मैकमैहन और स्ट्रीटर (2012)


3

मुझे अंत में यह समझ आ गया। अब मैं सांख्यिकीय मॉडल फिटिंग और मशीन सीखने के बीच अंतर जानता हूं।

  • यदि आप एक मॉडल (प्रतिगमन) फिट करते हैं, तो यह सांख्यिकीय मॉडल फिटिंग है
  • यदि आप एक मॉडल (प्रतिगमन) सीखते हैं, तो यह मशीन सीखना है

इसलिए यदि आप लॉजिस्टिक रिग्रेशन सीखते हैं, तो यह मशीन लर्निंग एल्गोरिदम है।

टिप्पणी: मुझे एक पुराने गीजर होने के लिए क्षमा करें, लेकिन जब भी मैं लोगों को एक मॉडल सीखने, या एक प्रतिगमन सीखने के बारे में बात करते हुए सुनता हूं, तो यह मुझे जेथ्रो के बारे में सोचता है "मैंने मुझे एक शिक्षा सीखा है"।

थ्रेड का अंत


??? मैं लॉजिस्टिक्स मॉडल भी सीख सकता हूं, आप किस बारे में बात कर रहे हैं?
स्मॉलचेयर

1
@Student T, यदि आप लॉजिस्टिक्स मॉडल फिट करते हैं, तो यह सांख्यिकीय मॉडल फिटिंग है। यदि आप एक लॉजिस्टिक्स मॉडल सीखते हैं, तो वह मशीन लर्निंग है। वास्तव में, यह विभिन्न क्षेत्रों द्वारा उपयोग की जाने वाली शब्दावली की बात है। एक ही चीज को विभिन्न क्षेत्रों (सांख्यिकी और मशीन लर्निंग) द्वारा अलग-अलग चीजें कहा जा सकता है।
मार्क एल। स्टोन

0

लॉजिस्टिक रिग्रेशन (और आमतौर पर, GLM) मशीन लर्निंग से संबंधित नहीं है ! बल्कि, ये तरीके पैरामीट्रिक के हैं modeling.

पैरामीट्रिक और एल्गोरिथम (एमएल) मॉडल दोनों डेटा का उपयोग करते हैं, लेकिन अलग-अलग तरीकों से। एल्गोरिथम मॉडल डेटा से सीखते हैं कि भविष्यवक्ता भविष्यवाणी करने के लिए कैसे मैप करते हैं, लेकिन वे उस प्रक्रिया के बारे में कोई धारणा नहीं बनाते हैं, जिसने टिप्पणियों (न ही किसी अन्य धारणा, वास्तव में) को उत्पन्न किया है। वे मानते हैं कि इनपुट और आउटपुट चर के बीच अंतर्निहित संबंध जटिल और अज्ञात हैं, और इस प्रकार, औपचारिक समीकरण को लागू करने के बजाय क्या चल रहा है, यह समझने के लिए एक डेटा संचालित दृष्टिकोण को अपनाएं।

दूसरी ओर, पैरामीट्रिक मॉडल का अध्ययन की गई प्रक्रिया के कुछ ज्ञान के आधार पर एक प्राथमिकता निर्धारित की जाती है, उनके मापदंडों का अनुमान लगाने के लिए डेटा का उपयोग करें, और बहुत सी अवास्तविक धारणाएं बनाएं जो शायद ही कभी व्यवहार में आती हैं (जैसे कि स्वतंत्रता, समान रूपांतर, और त्रुटियों का सामान्य वितरण)।

इसके अलावा, पैरामीट्रिक मॉडल (जैसे लॉजिस्टिक रिग्रेशन) वैश्विक मॉडल हैं। वे डेटा में स्थानीय पैटर्न कैप्चर नहीं कर सकते (एमएल तरीकों के विपरीत जो पेड़ों को अपने आधार मॉडल के रूप में उपयोग करते हैं, उदाहरण के लिए आरएफ या बूस्टेड पेड़)। इस पेपर पेज को देखें 5. एक सुधारात्मक रणनीति के रूप में, स्थानीय (यानी, नॉनपैमेट्रिक) जीएलएम का उपयोग किया जा सकता है (उदाहरण के लिए लोफिट आर पैकेज देखें)।

Often, when little knowledge about the underlying phenomenon is available, it is better to adopt a data-driven approach and to use algorithmic modeling. For instance, if you use logistic regression in a case where the interplay between input and output variables is not linear, your model will be clearly inadequate and a lot of signal will not be captured. However, when the process is well understood, parametric models have the advantage of providing a formal equation to summarize everything, which is powerful from a theoretical standpoint.

For a more detailed discussion, read this excellent paper by Leo Breiman.


4
Please take the time to understand logistic regression. It makes no distributional assumptions whatsoever. It makes exactly the same kind of independence assumption made by ML. ML requires much larger sample sizes than logistic regression. For example, random forests and SVM can require 200 events per candidate feature to be stable whereas logistic regression typically requires 200 events per candidate variable.
Frank Harrell

2
आपको लॉजिस्टिक रिग्रेशन को समझने के लिए समय निकालना चाहिए! यह एक सामान्यीकृत रैखिक मॉडल है जहां लिंक लॉगिट फ़ंक्शन है। यह पैरामीट्रिक है। यह मानता है कि प्रेक्षण IID हैं। इसके अलावा, nonlinear संबंधों पर कब्जा करने के साथ शुभकामनाएँ। इसके अलावा, आपकी सजा के दूसरे हिस्से का क्या मतलब है? मेरे लिए, एक विशेषता एक चर (?) है
एंटोनी

5
There are plenty of good books on the subject and I recommend you consult them before proceeding. Logistic regression does not assume identical distributions and in effect assumes no distribution at all. Unless you can demonstrate how you factor in correlation structure in ML, both approaches assume independence. Regression splines have been used since 1982 to relax linearity assumptions in logistic regression. For this discussion feature=variable unless expanded in a spline.
Frank Harrell

5
Breiman understood things quite well. He just didn't deal with post 1982 developments in logistic regression, e.g. penalized maximum likelihood estimation, regression splines, and combinations with data reduction methods. The only serious limitation to logistic regression is that like other methods it is not good at finding the right interactions if one searches for interactions and they are not pre-specified. Most methods that purport to be able to do this do not result in replicable findings. Also, Breiman used an improper accuracy score that can be optimzed by a bogus model.
Frank Harrell

3
@Antoine: "why logistic regression radically differs from ML". Notice that some methods in ML (most noticeably, SVM) are very much related to logistic regression. With the exception of multiple interactions -as Frank wrote- logistic reg with non-linearities and penalization give very similar results to SVM and other ML methods. It continues to amaze me how some papers cite performance improvements based of an ML method vs. a stat101 logistic model to negatively frame logistic regression.
Thomas Speidel

-1

मुझे लगता है कि अन्य उत्तर मशीन लर्निंग को कम या ज्यादा पहचानने में एक अच्छा काम करते हैं (जैसा कि वे संकेत करते हैं, यह एक फ़र्ज़ी बात हो सकती है)। मैं जोड़ूंगा कि लॉजिस्टिक रिग्रेशन (और इसके सामान्य बहुराष्ट्रीय संस्करण) का उपयोग आमतौर पर कृत्रिम तंत्रिका नेटवर्क में वर्गीकरण के साधन के रूप में किया जाता है (जो मुझे लगता है कि जो भी समझदार मशीन सीखने की परिभाषा आप चुनते हैं, उससे स्पष्ट रूप से कवर होती हैं), और यदि आप उल्लेख करते हैं तो एक तंत्रिका जाल व्यक्ति के लिए तार्किक प्रतिगमन, वे तुरंत इस संदर्भ में इसके बारे में सोचने की संभावना रखते हैं। मशीन लर्निंग में एक भारी हिटर के साथ बंधे रहना मशीन लर्निंग तकनीक बनने का एक अच्छा तरीका है, और मुझे लगता है कि यह कुछ हद तक विभिन्न प्रतिगमन तकनीकों के साथ हुआ है, हालांकि मैं उन्हें उचित मशीन लर्निंग तकनीक होने से छूट नहीं दूंगा अपने आप में।


Note that logistic regression is not a classifier but a direct probability estimation method.
Frank Harrell

For further information on Dr. Harrell's point, please see my post here. stats.stackexchange.com/questions/127042/…
Sycorax says Reinstate Monica

@FrankHarrell We can also use the probability for classification, so it's really a classifier.
SmallChess

@StudentT4 That could not be more incorrect. If is a direct probability estimator. How you use the final result of the logistic model is up to you. By your logic the sample mean is a classifier.
Frank Harrell

-1

I think any procedure which is "iterative" can be considered a case of machine learning. Regression can be considered machine learning. We could do it by hand, but it would take a long time, if at all possible. So now we have these programs, machines, which do the iterations for us. It gets closer and closer to a solution, or to the best solution or best fit. Thus, "machine learning". Of course things like neural networks get most of the attention in regard to machine learning, so we usually associate machine learning to these sexy procedures. Also, the difference between "supervised" and "unsupervised" machine learning is relevant here


-2

It is a very common mistake that most people do and i can see it here also (done by almost everyone). Let me explain it in detail... Logistic Regression and linear Regression model, both are parametric model as well as Machine Learning Technique. It just depends on the method you are using to estimate the model parameters(theta's). There are 2 ways of finding model parameters in Linear Regression and Logistic reg.

  1. Gradient Descent Technique: Here we starts by assigning random values to the parameters and find cost function(error). In each iteration we update our parameters and minimize cost function. After certain number of iterations, cost function reduced to desired values and corresponding parameters values are our final values. This is what a machine learning techniques supposed to do. So, if You are using Gradient Descent technique, Logistic regression can call as a machine learning technique.

  2. By using Least Square Method: Here we have direct formula to find our parameters (some matrix algebra is required to understand the derivation of this formula) which is known as normal equation. Least Square Method

Here b represents parameters X is design Matrix. Both Methods have their own advantages and limitations. To get more details: follow coursera Machine Learning course still running.

I hope this post might be helpful .. :-)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.