एक सामान्य वितरण के मापदंडों का अनुमान लगाना: औसत के बजाय मंझला?


15

सामान्य वितरण के मापदंडों का अनुमान लगाने के लिए सामान्य दृष्टिकोण का मतलब और नमूना मानक विचलन / विचरण का उपयोग करना है।

हालांकि, अगर कुछ आउटलेयर हैं, तो माध्यिका और माध्यिका से मध्य विचलन बहुत अधिक मजबूत होना चाहिए, है ना?

कुछ डेटा सेट पर मैंने कोशिश की, सामान्य वितरण द्वारा अनुमानित क्लासिक की तुलना में काफी बेहतर फिट निर्माण करने के लिए लगता है एन ( μ , σ ) मतलब का उपयोग करते हुए और आरएमएस विचलन।N(median(x),median|xmedian(x)|)N(μ^,σ^)

क्या इसका कोई कारण है? यदि आप मानते हैं कि डेटा सेट में कुछ आउटलेर हैं, तो क्या माध्यिका का उपयोग नहीं ? क्या आप इस दृष्टिकोण के लिए कुछ संदर्भ जानते हैं? Google पर त्वरित खोज से मुझे ऐसे उपयोगी परिणाम नहीं मिले, जो यहां पर मध्यस्थों के उपयोग के लाभों पर चर्चा करते हैं (लेकिन जाहिर है, "सामान्य वितरण पैरामीटर अनुमान मेडियन" खोज शब्दों का एक बहुत विशिष्ट सेट नहीं है)।

मंझला विचलन, क्या यह पक्षपातपूर्ण है? क्या मुझे इसे n - 1 से गुणा करना चाहिएn1n पूर्वाग्रह को कम करने के लिए?

क्या आप अन्य वितरणों जैसे गामा वितरण या घातीय रूप से संशोधित गाऊसी वितरण के लिए समान मजबूत पैरामीटर अनुमान दृष्टिकोण जानते हैं (जो पैरामीटर अनुमान में Skewness की आवश्यकता है, और आउटलेरर्स वास्तव में इस मूल्य को गड़बड़ कर देते हैं)?


2
यदि आपके पास आउटलेयर हैं, तो हो सकता है कि आपका वितरण वास्तव में गॉसियन सामान्य न हो। यह आपके सवाल का जवाब नहीं देता है, लेकिन, आईएमओ, यह एक संभावना है जो हमेशा मनोरंजन करना चाहिए।
sds

2
मेरे पास एक सरल, स्वच्छ, गणितीय वितरण नहीं है। मेरे पास वास्तविक डेटा है, जो प्रकृति द्वारा गड़बड़ है। कोई भी वितरण सही नहीं होगा, क्योंकि आप स्थिति को विश्लेषणात्मक रूप से नहीं संभाल सकते। और आउटलेर्स वास्तव में मेरी रुचि है। :-)
एरच शूबर्ट

जवाबों:


15

एक उदाहरण है कि एक दूषित गाऊसी वितरण से तैयार किए गए डेटा को शामिल करने के उदाहरण में, आपको मेड के बजाय का उपयोग करके डेटा के थोक का वर्णन करने वाले मापदंडों का बेहतर अनुमान मिलेगा x - मेड ( x ) | जहां पागल ( एक्स ) है:madmed|xmed(x)|mad(x)

mad=1.4826×med|xmed(x)|

- वे, एक स्थिरता कारक है जिसे यह सुनिश्चित करने के लिए डिज़ाइन किया गया है कि ( पागल ( x ) 2 ) = वार ( x ) जब x अनियंत्रित है - मूल रूप से गॉस (वाकर) द्वारा बनाया गया था , एच। (1931))।(Φ1(0.75))1=1.4826

E(mad(x)2)=Var(x)
x

मैं इस मामले में नमूना माध्य के बजाय का उपयोग नहीं करने का कोई कारण नहीं सोच सकता । पागल की कम दक्षता (गौसियन में!) आपके उदाहरण में पागल का उपयोग नहीं करने का एक कारण हो सकता है । हालांकि, पागल के लिए समान रूप से मजबूत और अत्यधिक कुशल विकल्प मौजूद हैं । उनमें से एक है क्यू एनmedmadmadmadQn। इस अनुमान के पास कई अन्य फायदे हैं। यह आउटलेर्स के लिए बहुत ही असंवेदनशील है (वास्तव में पागल के रूप में लगभग असंवेदनशील है)। पागल के विपरीत, यह स्थान के अनुमान के आसपास नहीं बनाया गया है और यह नहीं मानता है कि डेटा के अनियंत्रित हिस्से का वितरण सममित है। पागल की तरह, यह ऑर्डर के आँकड़ों पर आधारित है, ताकि आपके नमूने के अंतर्निहित वितरण के कुछ पल न होने पर भी यह हमेशा अच्छी तरह से परिभाषित हो। पागल की तरह, इसका एक सरल स्पष्ट रूप है। पागल की तुलना में भी अधिक, मुझे आपके द्वारा वर्णित उदाहरण में बजाय नमूना मानक विचलन का उपयोग करने का कोई कारण नहीं दिखता है ( क्यू एन के बारे में अधिक जानकारी के लिए रूसेव्यू और क्राउक्स 1993 देखें )।QnQn

अपने आखिरी सवाल, विशेष मामले के बारे में के रूप में जहां , तोxΓ(ν,λ)

med(x)λ(ν1/3)

तथा

mad(x)λν

(दोनों मामलों में सन्निकटन अच्छे हो जाते हैं जब ) ν>1.5

ν^=(med(x)mad(x))2

तथा

λ^=mad(x)2med(x)

चेन और रुबिन (1986) को पूर्ण व्युत्पत्ति के लिए देखें।

  • जे। चेन और एच। रुबिन, 1986. गामा और पॉइसन वितरण, स्टेटिस्ट के माध्य और माध्य के बीच अंतर के लिए सीमा। Probab। लेट।, 4, 281-283।
  • पीजे रूससी और सी। क्रौक्स, 1993. अमेरिकन स्टैटिस्टिकल एसोसिएशन, वॉल्यूम के मेडियन निरपेक्ष विचलन जर्नल के विकल्प। 88, नंबर 424, पीपी। 1273-1283
  • वॉकर, एच। (1931)। सांख्यिकीय विधि के इतिहास में अध्ययन। बाल्टीमोर, एमडी: विलियम्स एंड विल्किंस कंपनी पीपी। 24-25।

1
Φ-1(0.75)-11.4826- क्या यह उपयोग करने के लिए मूल्य है, या दो आक्रमणों में से एक अतिरिक्त है?
एरच Schubert

@ErichSchubert: आप सही कह रहे हैं: मैं दूसरा उलटा भूल गया .. सही किया।
user603

2
+1। लेकिन मुझे लगता है कि आप "दक्षता कारक" का गलत चित्रण करते हैं: यह अनुरूप नहीं हैn/(n-1)प्रसरण के लिए कारक क्योंकि उत्तरार्द्ध सार्वभौमिक है जबकि आपका कारक केवल सामान्य वितरण के लिए विशिष्ट है: एक अलग वितरण को ध्यान में रखते हुए, आपको अपने कारक को बदलना होगा। यह अंतर एक महत्वपूर्ण कारण है कि भिन्नताओं और एसडी ने एमएडी की तुलना में इतने अधिक आवेदन देखे हैं।
whuber

1
@ वाउचर: इसके लिए धन्यवाद, मुझे अब मेरे वाक्य का एहसास है 'यह आत्मा में समान है ' आसानी से गलत समझा जा सकता है। मैंने उसे हटा दिया।
user603

1
मैंने एक्सटॉर्नल पार्ट को एक अलग प्रश्न बना दिया है : ysts.stackexchange.com/questions/48907/… लेकिन मेरे पास आपके लिए एक और है: लॉग-अप वितरण - लॉग को लागू करके संभाल, फिर सामान्य वितरण के साथ आगे बढ़ें?
एरच Schubert

7

यदि आप जोर देते हैं, तो डेटा कुछ छोटे अनुपातों के अलावा सामान्य हैं, मध्य और औसत निरपेक्ष विचलन सकल त्रुटियों के लिए मजबूत होंगे, लेकिन गैर-आउटसॉलिंग डेटा में जानकारी का बहुत कुशल उपयोग नहीं करेंगे।

यदि आपको पता था कि कुछ प्राथमिकताओं के आधार पर बाध्यता होती है, तो आप उस अनुपात को ट्रिम कर सकते हैं और मानक विचलन को जीत सकते हैं । एक विकल्प जिसके लिए इस तरह के ज्ञान की आवश्यकता नहीं होती है , वह स्थान और संबंधित मात्रा के लिए एम-आकलनकर्ताओं का उपयोग करना होगा । दक्षता में लाभ यदि आपकी धारणा सही है (जैसे कि डेटा वास्तव में सामान्य रूप से एक छोटे प्रतिशत आउटलेर्स से अलग है) कुछ परिस्थितियों में पर्याप्त हो सकता है।

माध्य विचलन मानक विचलन के अनुमान के रूप में पक्षपाती है - लेकिन ऐसा नहीं हैnn-1समायोजन; अनुचित नमूना माध्य वर्ग विषमतापूर्वक विचरण के लिए जा रहा है, लेकिन नमूना माध्य निरपेक्ष विचलन asymptotically जनसंख्या मानक विचलन पर नहीं जा रहा है; आपको निरंतरता प्राप्त करने के लिए इसे स्थिर रूप से गुणा करना होगा । आपके द्वारा किए जाने के बाद यह अभी भी छोटे-से-सैंपल को उसी अर्थ में पक्षपाती करता है जैसे कि अनुचित माध्य वर्ग।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.