क्या एक दूसरे पर एक अनुमानक की सापेक्ष श्रेष्ठता का आकलन करने के लिए उपयोग की गई चुकता त्रुटि है?


13

मान लीजिए कि हमारे पास कुछ पैरामीटर लिए दो अनुमानक और 2 हैं । यह निर्धारित करने के लिए कि कौन सा अनुमानक "बेहतर" है, क्या हम एमएसई (मतलब चुकता त्रुटि) को देखते हैं? दूसरे शब्दों में, हम जहां अनुमानक का पूर्वाग्रह है और अनुमानक का प्रसरण है? जो भी अधिक से अधिक एमएसई एक बदतर अनुमानक है?α1 एक्स एम एस = बीटा 2 + σ 2 बीटा σ 2α2x

MSE=β2+σ2
βσ2

जवाबों:


10

आप दो प्रतिस्पर्धी आकलनकर्ता है, तो और , या नहीं, आपको बताता है कि है बेहतर अनुमानक पूरी तरह से "सर्वश्रेष्ठ" की आपकी परिभाषा पर निर्भर करता है। उदाहरण के लिए, यदि आप निष्पक्ष आकलनकर्ताओं की तुलना कर रहे हैं और "बेहतर" से आपका मतलब है कि कम विचरण है, तो, इसका अर्थ यह होगा कि बेहतर है। एक लोकप्रिय मानदंड है क्योंकि इसका संबंध लिस्ट स्क्वायर और गाऊसी लॉग-लाइबिलिटी के साथ है, लेकिन कई सांख्यिकीय मानदंडों की तरह, किसी को भी का उपयोग करने से सावधान रहना चाहिए θ 2एमएस( θ 1)<एमएस( θ 2) θ 1 θ 1एमएसएमएसθ^1θ^2

MSE(θ^1)<MSE(θ^2)
θ^1θ^1MSEMSE आवेदन पर ध्यान दिए बिना अनुमानक गुणवत्ता का एक उपाय के रूप में आँख बंद करके।

ऐसी कुछ स्थितियाँ हैं जहाँ को कम करने के लिए एक अनुमानक का चयन करना विशेष रूप से समझदारी वाली बात नहीं हो सकती है। दो परिदृश्य दिमाग में आते हैं:MSE

  • यदि किसी डेटा सेट में बहुत बड़े आउटलेयर हैं तो वे MSE को काफी प्रभावित कर सकते हैं और इस प्रकार जो अनुमानक MSE को कम करता है, वह ऐसे आउटलेर्स से अवांछित रूप से प्रभावित हो सकता है। ऐसी स्थितियों में, यह तथ्य कि एक अनुमानक कम से कम एमएसई वास्तव में आपको बहुत कुछ नहीं बताता है, यदि आपने आउटलाइर (एस) को हटा दिया है, तो आप एक बेतहाशा अलग अनुमान प्राप्त कर सकते हैं। उस अर्थ में, MSE आउटलेर्स के लिए "मजबूत" नहीं है। प्रतिगमन के संदर्भ में, यह तथ्य वही है जिसने ह्यूबर एम-एस्टीमेटर को प्रेरित किया (कि मैं इस उत्तर में चर्चा करता हूं), जो एक अलग मानदंड फ़ंक्शन (जो चुकता त्रुटि और पूर्ण त्रुटि के बीच एक मिश्रण है) को कम करता है जब लंबी-पूंछ वाली त्रुटियां होती हैं। ।

  • यदि आप एक घिरे पैरामीटर का आकलन कर रहे हैं, की तुलना रों उपयुक्त नहीं हो सकता है, क्योंकि यह उस स्थिति में अधिक penalizes और understimation अलग ढंग से। उदाहरण के लिए, मान लें कि आप एक विचरण का अनुमान लगा रहे हैं, । फिर, यदि आप सचेत रूप से मात्रा को कम आंकते हैं, तो आपका अधिकतम पर हो सकता है , जबकि overestimation एक उत्पादन कर सकता है, जो कि अब तक से अधिक है , शायद एक अनबिक राशि से भी।σ 2 एम एस σ 4 एम एस σ 4MSEσ2MSEσ4MSEσ4

इन कमियों को और अधिक स्पष्ट करने के लिए, मैं कब, इन मुद्दों की वजह से एक ठोस उदाहरण दूंगा, अनुमानक गुणवत्ता का एक उपयुक्त उपाय नहीं हो सकता है।MSE

मान लीजिए कि आपके पास एक नमूना है से वितरण से डिग्री की स्वतंत्रता है और हम विचरण का अनुमान लगाने की कोशिश कर रहे हैं, जो । दो प्रतिस्पर्धी आकलनकर्ताओं पर विचार करें: और स्पष्ट रूप से और यह एक तथ्य है कि जिसका उपयोग करके व्युत्पन्न किया जा सकता हैX1,...,Xntν>2ν/(ν2)

θ^1:the unbiased sample variance
θ^2=0, regardless of the data
MSE(θ^2)=ν2(ν2)2
MSE(θ^1)={if ν4ν2(ν2)2(2n1+6n(ν4))if ν>4.
तथ्य यह है इस सूत्र में चर्चा की और के गुणों -distributiontइस प्रकार भोले अनुमानक नमूना आकार की परवाह किए बिना जब भीMSEν<4 , संदर्भ में बेहतर प्रदर्शन करते हैं , जो कि असतत है। यह तब भी बेहतर होता है जब लेकिन यह केवल बहुत छोटे नमूना आकारों के लिए प्रासंगिक है। उपरोक्त वितरण आज़ादी के छोटे अंशों के साथ वितरण के लंबे प्रकृति के कारण होता है , जो को बहुत बड़े मानों से प्रभावित करता है और लिए भारी दंडित करता है, जबकि "(2n1+6n(ν4))>1tθ^2MSEθ^1 यह समस्या नहीं है।

नीचे की रेखा यह है कि इस परिदृश्य में एक उपयुक्त माप अनुमानक प्रदर्शन नहीं हैMSE । यह स्पष्ट है क्योंकि अनुमानक जो कि संदर्भ में हावी है, एक हास्यास्पद है (विशेषकर चूंकि कोई मौका नहीं है कि यह देखा गया डेटा में कोई परिवर्तनशीलता है तो सही है)। शायद अधिक उपयुक्त दृष्टिकोण (जैसा कि कैसैला और बर्जर द्वारा इंगित किया गया है) वैरिएंट अनुमानक का चयन करने के लिए होगा, स्टीन के नुकसान को कम करने वाला :MSEθ^

S(θ^)=θ^ν/(ν2)1log(θ^ν/(ν2))

जो कम से कम overestimation को दंडित करता है। यह बाद से हमें पवित्रता में वापस लाता है :)S(θ^1)=


(+1) अच्छी चर्चा। निष्पक्ष होने के लिए, संभवतः यह ध्यान दिया जाना चाहिए कि इसी तरह के तर्क अन्य मानदंडों (अन्य नुकसान कार्यों) के लिए भी और उनके खिलाफ भी किए जा सकते हैं।
20

2
आमतौर पर, कोई अपने जोखिम वाले कार्यों को देखकर आकलनकर्ताओं का मूल्यांकन करता है, जो मापदंडों के अनुसार अपेक्षित नुकसान की साजिश करते हैं। यहां, मापदंडों को ठीक करके, आपने भ्रामक विश्लेषण का उत्पादन किया हो सकता है। आखिरकार, यह हमेशा ऐसा होता है कि एक बेवकूफ (स्थिर, डेटा-अज्ञानी) अनुमानक बहुत कम अपेक्षित नुकसान पैदा कर सकता है: बस इसे सही पैरामीटर के बराबर सेट करें! यह मुझे आश्चर्यचकित करता है कि सिमुलेशन ने वास्तव में यहां क्या दिखाया है।
whuber

@whuber, मैंने इस उत्तर को विश्लेषणात्मक रूप से उदाहरण देने के लिए संशोधित किया है, जो शायद इसे और अधिक स्पष्ट करता है। मैंने एक वैकल्पिक हानि फ़ंक्शन भी पेश किया है जो अधिक उपयुक्त हो सकता है।
मैक्रों

+1 बेहतर और बहुत दिलचस्प! मुझे लगता है कि "विवेकाधीन" पहलू देखने वाले की आंखों में हो सकता है। किसी को भी कुछ नावों को पर चिपकाने के लिए इच्छुक थे , इस परिणाम को प्राप्त करना चाहिए। इसके अलावा, हम में से कुछ नुकसान की पसंद प्राथमिक है और सबसे अधिक अन्य विचारों को छोड़ देना चाहिए: आपके ग्राहक के मूल्य और उद्देश्य नुकसान का निर्धारण करते हैं और इससे आपको एक अच्छी अनुमान प्रक्रिया का चयन करने में मदद मिलती है। एक आकलन प्रक्रिया के अनुकूल होना और फिर उस प्रक्रिया को काम करने के लिए एक नुकसान का प्रस्ताव देना एक उपयोगी अभ्यास है, लेकिन निश्चित रूप से एक प्रतिमान के रूप में नहीं लिया जा सकता है कि कैसे एक सांख्यिकीय समस्याओं को हल करता है! ν
whuber

2

MSE चुकता त्रुटि हानि फ़ंक्शन लिए जोखिम (अपेक्षित हानि) से मेल खाती है । चुकता त्रुटि हानि फ़ंक्शन बहुत लोकप्रिय है, लेकिन कई में से केवल एक विकल्प है। आपके द्वारा वर्णित प्रक्रिया चुकता त्रुटि हानि के तहत सही है; सवाल यह है कि क्या आपकी समस्या में उचित है या नहीं।L(αi)=(αiα)2


2

क्योंकि फ़ंक्शन भिन्न है, यह सैद्धांतिक और संख्यात्मक दोनों दृष्टिकोण से न्यूनतम MSE को आसान बनाता है। उदाहरण के लिए, साधारण कम से कम वर्गों में आप फिट ढलान और अवरोधन के लिए अन्वेषण को हल कर सकते हैं। एक संख्यात्मक दृष्टिकोण से, आपके पास एक व्युत्पन्न होने के साथ ही अधिक कुशल सॉल्वर हैं।f(x)=x2

औसत वर्ग त्रुटि आम तौर पर मेरी राय में आउटलेयर से अधिक है। यही कारण है कि औसत निरपेक्ष त्रुटि का उपयोग करने के लिए अक्सर अधिक मजबूत होता है, अर्थात उपयोग करें आपकी त्रुटि फ़ंक्शन के रूप में। हालांकि, चूंकि यह गैर-अलग-अलग है, इसलिए यह समाधान को काम करने के लिए अधिक कठिन बनाता है।f(x)=|x|

एमएसई शायद एक अच्छा विकल्प है यदि त्रुटि शर्तों को सामान्य रूप से वितरित किया जाता है। यदि उनके पास मोटी पूंछ है, तो अधिक मजबूत विकल्प जैसे कि पूर्ण मूल्य बेहतर है।


0

केस एंड बर्जर स्टैटिस्टिकल इन्वेंशन 2 संस्करण पृष्ठ 332 में कहा गया है कि MSE ओवरस्टीमेशन और अंडरस्टीमेशन के लिए समान रूप से दंडित करता है, जो कि स्थान के मामले में ठीक है। पैमाने के मामले में, हालांकि, 0 एक प्राकृतिक निचली सीमा है, इसलिए अनुमान समस्या सममित नहीं है। इस मामले में MSE का उपयोग कम करके क्षमा करने की प्रवृत्ति रखता है।

आप जाँच सकते हैं कि कौन सा अनुमानक UMVUE गुणों को संतुष्ट करता है, जिसका अर्थ है कि Cramer-Rao लोअर बाउंड का उपयोग करना। पृष्ठ ३४१

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.