पूर्ण त्रुटि को कम करने के बराबर चुकता त्रुटि न्यूनतम है? चुकता त्रुटि बाद की तुलना में अधिक लोकप्रिय क्यों है?


38

जब हम डेटा बिंदुओं के एक समूह को फिट करने के लिए रैखिक प्रतिगमन का संचालन करते हैं , तो क्लासिक दृष्टिकोण चुकता त्रुटि को कम करता है। मैं लंबे समय से एक प्रश्न से हैरान हूं कि क्या चुकता त्रुटि को कम करके पूर्ण त्रुटि को कम करने के समान परिणाम मिलेगा ? यदि नहीं, तो चुकता त्रुटि को कम करना बेहतर क्यों है? क्या "उद्देश्य फ़ंक्शन अलग है" के अलावा कोई कारण है?y=ax+b(x1,y1),(x2,y2),...,(xn,yn)

चुकता त्रुटि भी व्यापक रूप से मॉडल के प्रदर्शन का मूल्यांकन करने के लिए उपयोग की जाती है, लेकिन पूर्ण त्रुटि कम लोकप्रिय है। चुकता त्रुटि पूर्ण त्रुटि की तुलना में अधिक सामान्यतः क्यों उपयोग की जाती है? यदि डेरिवेटिव लेना शामिल नहीं है, तो पूर्ण त्रुटि की गणना करना चुकता त्रुटि के रूप में आसान है, फिर चुकता त्रुटि इतनी प्रचलित क्यों है ? क्या कोई अनूठा लाभ है जो इसकी व्यापकता को समझा सकता है?

धन्यवाद।


हमेशा पीछे कुछ अनुकूलन समस्या होती है और आप चाहते हैं कि ग्रेडिएंट की गणना न्यूनतम / अधिकतम करने में सक्षम हो।
व्लादिस्लाव्स डोवलगेक्स

11
एक्स ( - 1 , 1 ) x 2 > | x | | x | > 1x2<|x|के लिए औरअगर । इस प्रकार, चुकता त्रुटि पूर्ण त्रुटि की तुलना में बड़ी त्रुटियों को दंडित करती है और पूर्ण त्रुटि की तुलना में छोटी त्रुटियों को अधिक क्षमा करना है। यह बहुत अच्छी तरह से समझता है कि चीजों को करने का एक उपयुक्त तरीका क्या है। x(1,1)x2>|x||x|>1
दिलीप सरवटे

जवाबों:


46

वर्ग त्रुटियों को कम करना (MSE) निश्चित रूप से त्रुटियों के पूर्ण विचलन (एमएडी) को कम करने के समान नहीं है। एमएसई प्रदान करता है मतलब की प्रतिक्रिया पर वातानुकूलित जबकि MAD प्रदान करता है, मंझला की प्रतिक्रिया पर वातानुकूलित ।x xyxyx

ऐतिहासिक रूप से, लाप्लास ने मूल रूप से एक मॉडल की शुद्धता के माप के रूप में अधिकतम देखी गई त्रुटि को माना । वह जल्द ही MAD पर विचार करने के लिए चले गए । दोनों स्थितियों को सटीक रूप से हल करने में असमर्थता के कारण, उन्होंने जल्द ही अंतर MSE पर विचार किया। खुद और गॉस (प्रतीत होता है समवर्ती) ने सामान्य समीकरणों को व्युत्पन्न किया, इस समस्या के लिए एक बंद-रूप समाधान। आजकल, रैखिक प्रोग्रामिंग के माध्यम से एमएडी को हल करना अपेक्षाकृत आसान है। जैसा कि यह सर्वविदित है, हालांकि, रैखिक प्रोग्रामिंग में एक बंद-रूप समाधान नहीं है।

एक अनुकूलन दृष्टिकोण से, दोनों उत्तल कार्यों के अनुरूप हैं। हालांकि, MSE विभेदी है, इस प्रकार, ढाल-आधारित विधियों के लिए अनुमति देता है, उनके गैर-परिवर्तनीय समकक्ष की तुलना में बहुत कुशल है। MAD पर भिन्न नहीं है ।x=0

एक और सैद्धांतिक कारण यह है कि, एक बायेसियन सेटिंग में, जब मॉडल मापदंडों के एक समान पुजारियों को मानते हुए, MSE सामान्य वितरित त्रुटियों की पैदावार करता है, जिसे विधि की शुद्धता के प्रमाण के रूप में लिया गया है। सिद्धांतवादी सामान्य वितरण को पसंद करते हैं क्योंकि उनका मानना ​​था कि यह एक अनुभवजन्य तथ्य है, जबकि यह इस तरह के प्रयोग करता है क्योंकि वे इसे एक सैद्धांतिक परिणाम मानते हैं।

MSE की व्यापक स्वीकृति के कारण इसका एक अंतिम कारण यह हो सकता है कि यह यूक्लिडियन दूरी पर आधारित है (वास्तव में यह एक यूक्लिडियन प्रतिबंध स्थान पर प्रक्षेपण समस्या का समाधान है) जो कि हमारी ज्यामितीय वास्तविकता को देखते हुए अत्यंत सहज है।


1
(+1) लाप्लास के संदर्भ के लिए!
शीआन

2
"सिद्धांतवादी सामान्य वितरण को पसंद करते हैं क्योंकि उनका मानना ​​था कि यह एक अनुभवजन्य तथ्य है, जबकि यह इस तरह के प्रयोग करता है क्योंकि वे इसे सैद्धांतिक परिणाम मानते हैं।" -- मुझे यह पसंद है। लेकिन गॉसियन वितरण के लिए प्रत्यक्ष भौतिकी अनुप्रयोग नहीं हैं? और अधिकतम एंट्रोपी वितरण के बारे में सामान भी है
छायाकार

8
@ssdecontrol मुझे लगता है कि सौ साल पहले थोड़ा सा हेनरी पोनकारे के कारण एपिग्राम है। Tout le monde y croit cognant, me disait un magazine M. Lippmann, car les expérimentateurs s'imaginent que c'est un théorème de mathématiques, et les mathmmaticiens que c'est un faitéééental। "हर कोई इस बारे में सुनिश्चित है [कि त्रुटियों को सामान्य रूप से वितरित किया जाता है], श्री लिप्पमैन ने मुझे एक दिन बताया, क्योंकि प्रायोगिकों का मानना ​​है कि यह एक गणितीय प्रमेय है, और गणितज्ञों का कहना है कि यह एक प्रयोगात्मक रूप से निर्धारित तथ्य है।" से Calcul डेस Probabilités (2 एड।, 1912), पी। 171
दिलीप सरवटे

1
यहाँ एक गणितीय उत्तर है। यदि हमारे पास स्वतंत्र चर X और कॉलम मैट्रिक्स Y का डेटा मैट्रिक्स है, तो अगर संपत्ति Xb = Y के साथ मैट्रिक्स b है, तो हमारे पास एक सोल है। आमतौर पर हम नहीं कर सकते हैं और हम चाहते हैं कि बी एक सटीक समाधान के लिए 'निकटतम' है। गणित के रूप में यह हल करने के लिए 'आसान' है। यह X के स्तंभ स्थान पर Y का प्रक्षेपण है। प्रक्षेपण और लंबवत आदि की धारणाएं मीट्रिक पर निर्भर करती हैं। सामान्य यूक्लिडियन L2 मीट्रिक वह है जिसका हम उपयोग करते हैं और यह सबसे कम वर्ग देता है। Mse की न्यूनतम संपत्ति इस तथ्य की एक सीमा है कि हमारे पास प्रक्षेपण है।
एजिनेंस्की

1
मुझे लगा कि गौस और लेजेंड्रे के बीच प्राथमिकता असहमति थी, लेजेंड्रे प्रकाशन में गॉस से पहले, लेकिन गॉस अनौपचारिक पत्राचार में लीजेंड से पहले थे। मैं भी (अस्पष्ट रूप से) अवगत हूं कि लाप्लास के प्रमाण को श्रेष्ठ माना जाता है। इन पर कोई संदर्भ?
पैट्रिकटी

31

एक वैकल्पिक स्पष्टीकरण के रूप में, निम्नलिखित अंतर्ज्ञान पर विचार करें:

त्रुटि को कम करते समय, हमें यह तय करना चाहिए कि इन त्रुटियों को कैसे दंडित किया जाए। दरअसल, दंडात्मक त्रुटियों के लिए सबसे सीधा तरीका एक linearly proportionalदंड समारोह का उपयोग करना होगा । इस तरह के फ़ंक्शन के साथ, माध्य से प्रत्येक विचलन को आनुपातिक संगत त्रुटि दी जाती है। इस बीच से दो बार के परिणामस्वरूप दोगुना जुर्माना होगा।

अधिक सामान्य दृष्टिकोण squared proportionalमाध्य और इसी दंड से विचलन के बीच एक संबंध पर विचार करना है। इससे यह सुनिश्चित हो जाएगा कि आप जितना आगे से दूर हैं, आनुपातिक रूप से उतना ही अधिक आपको दंडित किया जाएगा। इस दंड समारोह का उपयोग करते हुए, आउटलेर्स (माध्य से दूर) को आनुपातिक रूप से अर्थ के निकट टिप्पणियों की तुलना में अधिक जानकारीपूर्ण माना जाता है।

इसका एक विज़ुअलाइज़ेशन देने के लिए, आप बस दंड कार्यों को प्लॉट कर सकते हैं:

एमएडी और एमएसई दंड कार्यों की तुलना

अब विशेष रूप से जब प्रतिगमन (जैसे ओएलएस) के आकलन पर विचार करते हैं, तो अलग-अलग दंड कार्य अलग-अलग परिणाम देंगे। linearly proportionalपेनल्टी फ़ंक्शन का उपयोग करते हुए , प्रतिगमन फ़ंक्शन का उपयोग करते समय रिग्रेशन आउटलेर्स को कम वजन देगा squared proportional। इसलिए मेडियन एब्सोल्यूट डिविएशन (एमएडी) एक अधिक मजबूत अनुमानक के रूप में जाना जाता है । सामान्य तौर पर, यह ऐसा मामला है कि एक मजबूत अनुमानक अधिकांश डेटा बिंदुओं को अच्छी तरह से फिट बैठता है, लेकिन आउटलेर्स को 'अनदेखा' करता है। एक न्यूनतम वर्ग, फिट बैठता है, तुलना में, आउटलेर्स की ओर अधिक खींचा जाता है। यहाँ तुलना के लिए एक दृश्य है:

ओएलएस बनाम एक मजबूत अनुमानक की तुलना

अब भले ही ओएलएस बहुत मानक है, अलग-अलग दंड कार्य सबसे निश्चित रूप से उपयोग में हैं। एक उदाहरण के रूप में, आप मैटलैब के सुदृढ़ कार्य पर एक नज़र डाल सकते हैं जो आपको अपने प्रतिगमन के लिए एक अलग दंड (जिसे 'वेट' भी कहा जाता है) फ़ंक्शन का चयन करने की अनुमति देता है। दंड कार्यों में andrews, bisquare, cauchy, fair, huber, logistic, ols, talwar और welsch शामिल हैं। उनकी संबंधित अभिव्यक्तियों को वेबसाइट पर भी पाया जा सकता है।

मुझे उम्मीद है कि आपको दंड कार्यों के लिए थोड़ा और अंतर्ज्ञान प्राप्त करने में मदद मिलेगी :)

अद्यतन करें

यदि आपके पास माटलैब है , तो मैं मतलाब के स्ट्रांगडेमो के साथ खेलने की सिफारिश कर सकता हूं , जो विशेष रूप से साधारण रिक्वायरमेंट से मजबूत प्रतिगमन की तुलना के लिए बनाया गया था:

robustdemo

डेमो आपको व्यक्तिगत बिंदुओं को खींचने की अनुमति देता है और तुरंत साधारण कम से कम वर्गों और मजबूत प्रतिगमन (जो शिक्षण उद्देश्यों के लिए एकदम सही है!) दोनों पर प्रभाव देखता है।


3

जैसा कि एक अन्य उत्तर में बताया गया है, चुकता त्रुटि को कम करना पूर्ण त्रुटि को कम करने के समान नहीं है।

चुकता त्रुटि को कम करने का कारण पसंद किया जाता है क्योंकि यह बड़ी त्रुटियों को बेहतर तरीके से रोकता है।

कहें कि आपके एम्प्लॉयर का पेरोल डिपार्टमेंट गलती से कुल दस कर्मचारियों में से प्रत्येक को आवश्यकता से 50 डॉलर कम भुगतान करता है। यही कारण है कि की एक निरपेक्ष त्रुटि है $ 500 यह भी की एक निरपेक्ष त्रुटि है $ 500 अगर विभाग का भुगतान करती है सिर्फ एक कर्मचारी $ 500 कम है। लेकिन यह चुकता त्रुटि की शर्तों, यह 25000 बनाम 250000 है।

चुकता त्रुटि का उपयोग करना हमेशा बेहतर नहीं होता है। यदि आपके पास डेटा अधिग्रहण त्रुटि के कारण चरम आउटरीयर के साथ डेटा सेट है, तो कम से कम चुकता त्रुटि चरम त्रुटि की तुलना में फिट को पूर्ण त्रुटि को कम करने की तुलना में बहुत अधिक खींच लेगी। यह कहा जा रहा है, यह -इसमें-चुकता त्रुटि का उपयोग करने के लिए बेहतर है।


4
चुकता त्रुटि को कम करने का कारण पसंद किया जाता है क्योंकि यह बड़ी त्रुटियों को बेहतर तरीके से रोकता है। - फिर क्यूब क्यों नहीं किया गया?
डैनियल ईयरविकर

@DanielEarwicker Cubed गलत दिशा में घटाव को गलत बनाता है। तो यह पूरी तरह से त्रुटि, या यहां तक ​​कि शक्तियों से चिपके रहना होगा। वास्तव में "अच्छा" कारण नहीं है कि उच्च शक्तियों (या, वास्तव में, गैर-बहुपदीय दंड कार्यों) के बजाय वर्ग का उपयोग किया जाता है। यह गणना करना आसान है, कम से कम करना आसान है, और काम करता है।
चींटी

1
बेशक मुझे किसी भी उच्च शक्ति को भी कहना चाहिए था! :)
डैनियल ईयरविकर

इसका कोई अपवाह (फिलहाल) नहीं है, लेकिन क्या यह उत्तर के समान नहीं है (वर्तमान में) 15 वोट हैं (यानी आउटलेर्स का अधिक प्रभाव है)? क्या यह वोट नहीं हो रहा है क्योंकि यह गलत है, या क्योंकि यह कुछ महत्वपूर्ण जानकारी को याद करता है? या क्योंकि यह बहुत रेखांकन नहीं है? ;-)
डैरेन कुक

@DarrenCook मुझे संदेह है कि आंकड़ों में "आधुनिक" दृष्टिकोण ओएलएस से अधिक एमएडी को पसंद करता है, और यह सुझाव देता है कि चुकता त्रुटि "आमतौर पर" बेहतर है जिसने मुझे कुछ डाउनवोट अर्जित किया है।
चींटी

2

सिद्धांत रूप में आप किसी भी प्रकार की हानि कार्य का उपयोग कर सकते हैं। पूर्ण और चुकता हानि कार्य केवल सबसे लोकप्रिय और सबसे सहज हानि कार्य होने के लिए होते हैं। इस विकिपीडिया प्रविष्टि के अनुसार ,

एक सामान्य उदाहरण में "स्थान" का अनुमान लगाना शामिल है। विशिष्ट सांख्यिकीय मान्यताओं के तहत, औसत या औसत स्थान का आकलन करने के लिए सांख्यिकीय है जो चुकता-त्रुटि हानि फ़ंक्शन के तहत अनुभव किए गए अपेक्षित नुकसान को कम करता है, जबकि मध्यमान वह अनुमानक है जो पूर्ण-अंतर हानि फ़ंक्शन के तहत अनुभव किए गए अपेक्षित नुकसान को कम करता है। अभी भी अलग-अलग अनुमानक अन्य, कम सामान्य परिस्थितियों में इष्टतम होंगे।

जैसा कि विकिपीडिया प्रविष्टि में भी बताया गया है, नुकसान कार्यों की पसंद इस बात पर निर्भर करती है कि आप अपने लक्षित ऑब्जेक्ट से विचलन कैसे करते हैं। यदि आपके लिए सभी विचलन समान रूप से खराब हैं, तो कोई फर्क नहीं पड़ता है, तो आप निरपेक्ष हानि फ़ंक्शन का उपयोग कर सकते हैं। यदि विचलन आपके लिए सबसे खराब हो जाता है, तो आप इष्टतम से दूर हैं और आपको इस बात की परवाह नहीं है कि विचलन सकारात्मक है या नकारात्मक है, तो चुकता हानि कार्य आपकी सबसे आसान पसंद है। लेकिन अगर नुकसान की उपरोक्त परिभाषाओं में से कोई भी आपकी समस्या को हाथ नहीं लगाता है, क्योंकि उदाहरण के लिए छोटे विचलन बड़े विचलन की तुलना में आपके लिए बदतर हैं, तो आप एक अलग नुकसान फ़ंक्शन चुन सकते हैं और न्यूनतम समस्या को हल करने का प्रयास कर सकते हैं। हालाँकि आपके समाधान के सांख्यिकीय गुणों का आकलन करना कठिन हो सकता है।


थोड़ा विस्तार से: "यदि आपके लिए सभी विचलन समान रूप से खराब हैं, तो उनका कोई फर्क नहीं पड़ता है ..": एमएडी फ़ंक्शन त्रुटियों को रैखिक-आनुपातिक रूप से दंडित करता है। इसलिए त्रुटियां 'समान रूप से खराब' नहीं हैं, लेकिन 'आनुपातिक रूप से खराब' हैं क्योंकि दो बार त्रुटि दो बार जुर्माना हो जाती है।
जीन-पॉल

@ जीन-पॉल: आप सही हैं। मैं इसे इस तरह से मतलब था। मैं "समान रूप से खराब" के साथ कहना चाहता था कि एमएडी का ग्रेडिएंट स्थिर है जबकि एमएसई के लिए ग्रेडिएंट त्रुटि के साथ रैखिक रूप से बढ़ता है। इसलिए यदि दो त्रुटियों के बीच का अंतर स्थिर नहीं है तो आप कितनी दूर हैं, जबकि वही MSE के लिए सही नहीं है। मुझे आशा है, कि यह थोड़ा और समझने योग्य है कि मैं क्या कहना चाहता हूं।
कृष्णजन

-1

छोटे जवाब

  1. नहीं
  2. माध्य की तुलना में माध्य में अधिक दिलचस्प सांख्यिकीय गुण हैं

10
यह बहुत अच्छा होगा यदि आप "अधिक दिलचस्प सांख्यिकीय गुणों" को प्राप्त कर सकते हैं।
मोमो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.