क्या रेखीय प्रतिगमन अप्रचलित है? [बन्द है]


12

मैं इस समय एक रेखीय प्रतिगमन कक्षा में हूं, लेकिन मैं इस भावना को हिला नहीं सकता कि जो मैं सीख रहा हूं वह अब आधुनिक आंकड़ों या मशीन सीखने में प्रासंगिक नहीं है। जब साधारण या एकाधिक रैखिक प्रतिगमन पर आक्षेप करने में इतना समय व्यतीत होता है, तो इन दिनों इतने दिलचस्प डेटासेट अक्सर रैखिक प्रतिगमन की अवास्तविक मान्यताओं का उल्लंघन करते हैं? इसके बजाय समर्थन वेक्टर मशीनों या गाऊसी प्रक्रिया का उपयोग करके प्रतिगमन जैसे अधिक लचीले, आधुनिक उपकरणों पर अनुमान क्यों नहीं पढ़ाया जाता है? हालांकि एक अंतरिक्ष में हाइपरप्लेन खोजने की तुलना में अधिक जटिल है, क्या इससे छात्रों को आधुनिक पृष्ठभूमि की समस्याओं से निपटने के लिए बहुत बेहतर पृष्ठभूमि नहीं मिलेगी?


10
क्या पेचकश हथौड़ों को अप्रचलित बनाते हैं? या प्रत्येक एक अलग कार्य करता है?
साइकोरैक्स का कहना है कि मोनिका

6
मेरे पास एक मल्टीटूल है जो एक चाकू, एक आरा, विभिन्न स्क्रूड्राइवर्स के एक जोड़े, सरौता की एक जोड़ी और शायद अन्य चीजों के एक जोड़े के रूप में कार्य करता है, लेकिन जब मुझे उन उपकरणों में से किसी की आवश्यकता होती है तो यह आखिरी चीज होगी। यह केवल एक चुटकी में उपयोगी है, यह "नौकरी के लिए सबसे अच्छा उपकरण" कभी नहीं है।
डैरेन

7
कई, वास्तविक लोगों द्वारा सामना की जाने वाली कई स्थितियों में उच्च शोर के साथ बहुत छोटे डेटा सेट शामिल होते हैं; कई मामलों में अधिक जटिल मॉडल संभव नहीं हैं, जबकि उस समय का एक अच्छा अंश कम से कम एक सादा रैखिक मॉडल कम से कम टिकाऊ है। जबकि बड़े डेटा सेट (और उनके संबंधित मुद्दे) कुल डेटा विश्लेषण के अनुपात के रूप में बढ़ते रहेंगे, बहुत छोटे डेटा सेट और अपेक्षाकृत सरल विश्लेषण जो वे भरोसा करते हैं, वे कभी दूर नहीं जाएंगे। इसमें जोड़ा गया है कि अधिक परिष्कृत उपकरण सीधे सरल लोगों के ऊपर बनाए जाते हैं, न केवल ऐतिहासिक रूप से बल्कि वैचारिक रूप से।
Glen_b -Reinstate Monica

6
कई स्थितियों के अलावा जहां रैखिक प्रतिगमन निरंतर व्यावहारिक उपयोग का है, यह भी इंगित करने योग्य है कि यह अधिक परिष्कृत एडिटिव मॉडल के व्यापक वर्ग के बारे में सीखने में मूलभूत है। उस संबंध में, यह प्रश्न यह पूछने की तरह है कि क्या कैलकुलस अंकगणित को अप्रचलित बनाता है।
जैकब सोल्जर

1
@ अक्षल कृपया विस्तृत करें। बायेसियन अनुकूलन में उपयोग के बारे में क्या?
मार्क एल। स्टोन

जवाबों:


24

यह सच है कि रैखिक प्रतिगमन की धारणाएं यथार्थवादी नहीं हैं। हालांकि, यह सभी सांख्यिकीय मॉडल का सच है। "सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं।"

मुझे लगता है कि आप इस धारणा के तहत हैं कि जब आप अधिक जटिल मॉडल का उपयोग कर सकते हैं तो रैखिक प्रतिगमन का उपयोग करने का कोई कारण नहीं है। यह सच नहीं है, क्योंकि सामान्य तौर पर, अधिक जटिल मॉडल ओवरफिटिंग के लिए अधिक कमजोर होते हैं, और वे अधिक कम्प्यूटेशनल संसाधनों का उपयोग करते हैं, जो महत्वपूर्ण हैं यदि, उदाहरण के लिए, आप एक एम्बेडेड प्रोसेसर या एक वेब सर्वर पर आंकड़े करने की कोशिश कर रहे हैं। सरल मॉडल समझने और व्याख्या करने में भी आसान हैं; इसके विपरीत, जटिल मशीन-शिक्षण मॉडल जैसे कि तंत्रिका नेटवर्क ब्लैक बॉक्स के रूप में समाप्त होते हैं, कम या ज्यादा।

यहां तक ​​कि अगर किसी दिन रैखिक प्रतिगमन व्यावहारिक रूप से उपयोगी नहीं हो जाता है (जो निकट भविष्य में अत्यंत संभावना नहीं है), यह अभी भी सैद्धांतिक रूप से महत्वपूर्ण होगा, क्योंकि अधिक जटिल मॉडल एक नींव के रूप में रैखिक प्रतिगमन पर निर्माण करते हैं। उदाहरण के लिए, एक नियमित रूप से मिश्रित-प्रभाव लॉजिस्टिक प्रतिगमन को समझने के लिए, आपको पहले सादे पुराने रैखिक प्रतिगमन को समझने की आवश्यकता है।

यह कहना नहीं है कि अधिक जटिल, नए और शिनियर मॉडल उपयोगी या महत्वपूर्ण नहीं हैं। उनमें से कई हैं। लेकिन सरल मॉडल अधिक व्यापक रूप से लागू होते हैं और इसलिए अधिक महत्वपूर्ण होते हैं, और स्पष्ट रूप से पहले पेश करने के लिए समझ में आता है यदि आप विभिन्न प्रकार के मॉडल पेश करने जा रहे हैं। लोगों द्वारा इन दिनों किए गए बहुत से खराब डेटा विश्लेषण हैं, जो खुद को "डेटा वैज्ञानिक" या कुछ और कहते हैं, लेकिन मूलभूत सामान भी नहीं जानते हैं, जैसे कि वास्तव में एक आत्मविश्वास अंतराल क्या है। एक आंकड़ा मत बनो!


क्या आप स्पष्ट कर सकते हैं कि "जटिल मॉडल" से आपका क्या मतलब है? क्या ओपी का भी यही मतलब है?
हत्शेपसुत

1
@Hatshepsut व्यावहारिक रूप से ऐसा कुछ भी जो केवल रैखिक प्रतिगमन या एक विशेष मामला नहीं है। ओपी ने उदाहरण के रूप में एसवीएम और गॉसियन-प्रोसेस मॉडल दिए। मैंने मिश्रित मॉडल, लॉजिस्टिक प्रतिगमन और दंडित प्रतिगमन का उल्लेख किया। कुछ अन्य उदाहरण निर्णय वृक्ष, तंत्रिका नेटवर्क, MARS, बायेसियन श्रेणीबद्ध मॉडल और संरचनात्मक समीकरण मॉडल हैं। यदि आप पूछ रहे हैं कि हम कैसे तय करते हैं कि एक मॉडल दूसरे की तुलना में अधिक जटिल है, या क्या वास्तव में एक मॉडल के रूप में गिना जाता है, तो वे स्वयं के लिए क्रॉस वैध प्रश्न हैं।
कोडियोलॉजिस्ट

"Overfitting"; नौवें क्रम के बहुपद का उपयोग करने के लिए कुछ फिट करने के लिए जो घातांक का भारित योग है। यह इतना अच्छा है कि प्लॉट शोर स्तर के ठीक ऊपर उपकरण की त्रुटियों को पुन: उत्पन्न करता है। मुझे अभी भी आश्चर्य है कि अगर वास्तव में उस बहुपद का उपयोग किया जाता तो बेहतर काम होता।
जोशुआ

7

सामान्य रूप से रैखिक प्रतिगमन अप्रचलित नहीं है । अभी भी ऐसे लोग हैं जो LASSO- संबंधित विधियों के आसपास अनुसंधान पर काम कर रहे हैं, और वे उदाहरण के लिए एकाधिक परीक्षण से कैसे संबंधित हैं - आप Emmanuel Candes और Malgorzata Bogdan को गूगल कर सकते हैं।

यदि आप विशेष रूप से ओएलएस एल्गोरिथ्म के बारे में पूछ रहे हैं, तो इसका उत्तर वे क्यों सिखाते हैं, यह तरीका इतना सरल है कि इसका क्लोज-फॉर्म समाधान है। इसके अलावा यह रिज प्रतिगमन या लासो / इलास्टिक के साथ संस्करण की तुलना में सरल है। आप सरल रेखीय प्रतिगमन के समाधान पर अपने अंतर्ज्ञान / प्रमाण का निर्माण कर सकते हैं और फिर अतिरिक्त बाधाओं के साथ मॉडल को समृद्ध कर सकते हैं।


3

मुझे नहीं लगता कि प्रतिगमन पुराना है, इसे कुछ समस्याओं के लिए तुच्छ माना जा सकता है जो वर्तमान में डेटा वैज्ञानिकों द्वारा सामना कर रहे हैं, लेकिन अभी भी सांख्यिकीय विश्लेषण की एबीसी है। यदि आप नहीं जानते कि एसवीएम सही तरीके से काम कर रहा है तो आप यह कैसे समझ सकते हैं कि आप सबसे सरल मॉडल कैसे काम कर रहे हैं? इस तरह के एक सरल उपकरण का उपयोग आपको सिखाता है कि पागल जटिल मॉडल में कूदने से पहले डेटा को कैसे देखें और गहराई से समझें कि कौन से उपकरण आगे के विश्लेषण में उपयोग किए जा सकते हैं और कौन से नहीं। एक बार मेरी एक प्रोफेसर और सहकर्मी के साथ यह बातचीत होने के बाद उन्होंने मुझे बताया कि उनके छात्र जहां जटिल मॉडल लागू करने में महान थे, लेकिन वे यह नहीं समझ पाए कि लीवर क्या है या डेटा के साथ क्या गलत था, यह समझने के लिए एक सरल qq- प्लॉट पढ़ें। अक्सर सबसे सरल और पठनीय मॉडल में सुंदरता होती है।


3

संक्षिप्त उत्तर नहीं है । उदाहरण के लिए, यदि आप MNIST डेटा के साथ लीनियर मॉडल आज़माते हैं, तो भी आपको सटीकता का ~ 90% मिलेगा!

एक लंबा जवाब "डोमेन के आधार पर" होगा, लेकिन रैखिक मॉडल का व्यापक रूप से उपयोग किया जाता है।

  • कुछ क्षेत्रों में, कहते हैं, चिकित्सा अध्ययन, यह एक डेटा बिंदु पाने के लिए सुपर महंगा है। और विश्लेषण कार्य अभी भी कई साल पहले के समान है: रैखिक प्रतिगमन अभी भी बहुत महत्वपूर्ण भूमिका निभाता है।

  • मॉर्डन मशीन लर्निंग में, कहते हैं, पाठ वर्गीकरण, रैखिक मॉडल अभी भी बहुत महत्वपूर्ण है, हालांकि अन्य कट्टर मॉडल हैं। ऐसा इसलिए है क्योंकि रैखिक मॉडल बहुत "स्थिर" है, इसमें डेटा को फिट करने के लिए कम पसंद होगा।

अंत में, रैखिक मॉडल वास्तव में अधिकांश अन्य मॉडलों के लिए बिल्डिंग ब्लॉक है। अच्छी तरह से सीखने से आपको भविष्य में फायदा होगा।


2

व्यावहारिक रूप से, रैखिक प्रतिगमन उपयोगी है भले ही आप अपने काम के लिए एक अधिक जटिल मॉडल का उपयोग कर रहे हों। कुंजी यह है कि रैखिक प्रतिगमन को समझना आसान है और इसलिए अधिक जटिल मॉडल में क्या हो रहा है, यह समझने के लिए वैचारिक रूप से उपयोग करना आसान है।

मैं आपको सांख्यिकीय विश्लेषक के रूप में अपनी वास्तविक लाइव नौकरी से एक व्यावहारिक आवेदन उदाहरण पेश कर सकता हूं। यदि आप एक बड़े डेटासेट के साथ अपने आप को जंगली, अनसुना कर पाते हैं, और आपका बॉस आपसे इस पर कुछ विश्लेषण चलाने के लिए कहता है, तो आप कहाँ से शुरू करते हैं? ठीक है, यदि आप डेटासेट से अपरिचित हैं और इस बात का अच्छा पता नहीं है कि विभिन्न विशेषताओं को एक-दूसरे से कैसे जोड़ा जाता है, तो आपके द्वारा सुझाए गए एक जटिल मॉडल की जांच शुरू करने के लिए एक बुरी जगह है।

इसके बजाय, शुरू करने के लिए सबसे अच्छी जगह सरल पुरानी रैखिक प्रतिगमन है। एक प्रतिगमन विश्लेषण करें, गुणांक को देखें और अवशिष्टों को ग्राफ़ करें। एक बार जब आप यह देखना शुरू कर देते हैं कि डेटा के साथ क्या हो रहा है, तो आप कुछ निर्णय ले सकते हैं कि आप किन उन्नत तरीकों को लागू करने की कोशिश कर रहे हैं।

मैं दावा करता हूं कि यदि आपने अपने डेटा को sklearn.svm (यदि आप पायथन में हैं) जैसे कुछ उन्नत मॉडल ब्लैक बॉक्स में प्लग किया है, तो आपको बहुत कम विश्वास होगा कि आपके परिणाम सार्थक होंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.