मजबूत मतलब अनुमान में क्रैश कोर्स


15

मेरे पास अनुमानों का एक गुच्छा (लगभग 1000) है और वे सभी लंबे समय तक चलने वाले लोच का अनुमान लगाने वाले हैं। इनमें से आधे से थोड़ा अधिक विधि ए का उपयोग करने का अनुमान है और बाकी विधि बी का उपयोग करते हुए। कहीं मैंने कुछ ऐसा पढ़ा है "मुझे लगता है कि विधि बी पद्धति ए की तुलना में कुछ बहुत अलग है, क्योंकि अनुमान बहुत अधिक (50-60%) अधिक हैं "। मजबूत आंकड़ों के बारे में मेरा ज्ञान कुछ भी नहीं है, इसलिए मैंने केवल नमूने के नमूने और दोनों नमूनों के माध्यकों की गणना की ... और मैंने तुरंत अंतर देखा। विधि ए बहुत केंद्रित है, माध्य और माध्य के बीच का अंतर बहुत कम है, लेकिन विधि बी नमूना विविध रूप से बेतहाशा अलग है।

मैंने निष्कर्ष निकाला कि आउटलेर और माप त्रुटियां विधि बी नमूना को तिरछा करती हैं, इसलिए मैंने लगभग 50 मूल्यों (लगभग 15%) को फेंक दिया जो सिद्धांत के साथ बहुत असंगत थे ... और अचानक दोनों नमूनों (उनके CI सहित) के साधन बहुत समान थे । घनत्व प्लॉट भी।

(आउटलेर्स को खत्म करने की खोज में, मैंने नमूना ए की सीमा को देखा और बी में सभी नमूना बिंदुओं को हटा दिया जो इसके बाहर गिर गया।) मैं आपको यह बताना चाहूंगा कि मुझे साधनों के मजबूत अनुमान के कुछ मूल बातें पता चल सकती हैं। मुझे इस स्थिति को अधिक कठोरता से आंकने की अनुमति दें। और कुछ संदर्भ हैं। मुझे विभिन्न तकनीकों की बहुत गहरी समझ की आवश्यकता नहीं है, बल्कि मजबूत आकलन की कार्यप्रणाली के व्यापक सर्वेक्षण के माध्यम से पढ़ें।

मैंने आउटलेर्स को हटाने के बाद औसत अंतर के महत्व के लिए टी-परीक्षण किया और पी-वैल्यू 0.0559 (टी लगभग 1.9) है, पूर्ण नमूनों के लिए टी स्टेट लगभग 4.5 था। लेकिन यह वास्तव में बात नहीं है, साधन थोड़ा अलग हो सकते हैं, लेकिन उन्हें ऊपर बताए अनुसार 50-60% तक भिन्न नहीं होना चाहिए। और मुझे नहीं लगता कि वे करते हैं।


3
इस डेटा का उपयोग करके आपका इच्छित विश्लेषण क्या है? आउटलेर्स को हटाने का अभ्यास संदिग्ध सांख्यिकीय विश्वसनीयता का है: आप ऐसा करके किसी भी स्तर पर महत्व या कमी देने के लिए "डेटा बना सकते हैं"। क्या आबादी ए और बी हैं जो ए और बी तरीकों का उपयोग करके माप प्राप्त करते हैं वास्तव में समरूप आबादी हैं या क्या यह संभव है कि आपके तरीकों ने आपको अलग-अलग आबादी दी है?
एडमो

डेटा के साथ किए जाने के लिए कोई और गणना या विश्लेषण नहीं होगा। हाल ही में हुए शोध के अनुसार, वर्णित दोनों विधियां सुसंगत हैं, इसलिए आबादी समरूप होनी चाहिए; लेकिन डेटा महान गुणवत्ता का नहीं है और यह स्पष्ट है कि बी के कुछ मूल्य गलती से हैं (विधि त्रुटि प्रवण है), वे बिल्कुल कोई आर्थिक अर्थ नहीं बनाते हैं। मुझे पता है कि निष्कासन संदिग्ध है, इसीलिए मैं कुछ अधिक कठोर और विश्वसनीय लग रही हूं।
ओन्ड्रेज

जवाबों:


18

क्या आप सिद्धांत की तलाश कर रहे हैं, या कुछ व्यावहारिक?

यदि आप पुस्तकों की तलाश में हैं, तो यहां कुछ ऐसे हैं जो मुझे मददगार लगे:

  • एफआर हम्पेल, ईएम रोंचेती, पी.जोरसिएउ, डब्ल्यूए स्टेल, रोबस्ट स्टैटिस्टिक्स: द एप्रोच बेस्ड ऑन इन फ्लुएंस फंक्शंस , जॉन विले एंड संस, 1986।

  • पीजे ह्यूबर, रोबस्ट स्टैटिस्टिक्स , जॉन विले एंड संस, 1981।

  • पीजे राउसीउव, एएम लेरॉय, रोबस्ट रिग्रेशन एंड आउटलाइर डिटेक्शन , जॉन विले एंड संस, 1987।

  • RG Staudte, SJ Sheather, Robust Estimation and Testing , John Wiley & Sons, 1990।

यदि आप व्यावहारिक तरीकों की तलाश कर रहे हैं, तो यहां माध्य का अनुमान लगाने के कुछ मजबूत तरीके हैं ("स्थान के अनुमानक" क्या मुझे लगता है कि अधिक राजसी शब्द है):

  • मंझला सरल, प्रसिद्ध और बहुत शक्तिशाली है। यह आउटलेर्स के लिए उत्कृष्ट मजबूती है। मजबूती का "मूल्य" लगभग 25% है।

  • 5% -trimmed औसत एक और संभव तरीका है। यहां आप 5% उच्चतम और 5% निम्नतम मान फेंकते हैं, और फिर परिणाम का औसत (औसत) लेते हैं। यह बाहरी लोगों के लिए कम मजबूत है: जब तक आपके डेटा बिंदुओं में से 5% से अधिक भ्रष्ट नहीं होते हैं, यह अच्छा है, लेकिन यदि 5% से अधिक भ्रष्ट हैं, तो यह अचानक भयानक हो जाता है (यह इनायत नहीं करता है)। मजबूती का "मूल्य" माध्यिका से कम है, हालांकि मुझे नहीं पता कि यह वास्तव में क्या है।

  • {(xi+xj)/2:1ijn}n(n+1)/2x1,,xnअवलोकन हैं। इसमें बहुत अच्छी मजबूती है: यह लगभग 29% डेटा बिंदुओं के भ्रष्टाचार को पूरी तरह से अलग किए बिना संभाल सकता है। और मजबूती की "कीमत" कम है: लगभग 5%। यह मंझले के लिए एक प्रशंसनीय विकल्प है।

  • इंटरक्वेर्टाइल माध्य एक अन्य अनुमानक है जो कभी-कभी उपयोग किया जाता है। यह पहले और तीसरे चतुर्थांश के औसत की गणना करता है, और इस प्रकार गणना करने के लिए सरल है। इसमें बहुत अच्छी मजबूती है: यह डेटा बिंदुओं के 25% तक के भ्रष्टाचार को सहन कर सकता है। हालांकि, मजबूती का "मूल्य" गैर-तुच्छ है: लगभग 25%। नतीजतन, यह माध्य से नीच लगता है।

  • कई अन्य उपाय हैं जो प्रस्तावित किए गए हैं, लेकिन ऊपर वाले उचित लगते हैं।

संक्षेप में, मैं मध्यस्थ या संभवतः होजेस-लेहमन के अनुमानक का सुझाव दूंगा।

पीएस ओह, मुझे स्पष्ट करना चाहिए कि मजबूती के "मूल्य" से मेरा क्या मतलब है। एक मजबूत अनुमानक को अभी भी शालीनता से काम करने के लिए डिज़ाइन किया गया है, भले ही आपके कुछ डेटा पॉइंट दूषित हो गए हों या अन्यथा आउटलेयर हों। लेकिन क्या होगा यदि आप एक डेटा सेट पर एक मजबूत अनुमानक का उपयोग करते हैं जिसमें कोई आउटलेयर नहीं है और कोई भ्रष्टाचार नहीं है? आदर्श रूप में, हम डेटा के उपयोग को यथासंभव प्रभावी बनाने के लिए मजबूत अनुमानक चाहेंगे। यहां हम मानक त्रुटि (सहजता से, अनुमानक द्वारा उत्पादित अनुमान में त्रुटि की विशिष्ट राशि) द्वारा दक्षता को माप सकते हैं। यह ज्ञात है कि यदि आपके अवलोकन एक गाऊसी वितरण (आईआईडी) से आते हैं, और यदि आप जानते हैं कि आपको मजबूती की आवश्यकता नहीं होगी, तो इसका मतलब इष्टतम है: इसमें सबसे छोटी संभव अनुमान त्रुटि है। मजबूती का "मूल्य", ऊपर, अगर हम इस स्थिति के लिए एक विशेष मजबूत अनुमानक लागू करते हैं तो मानक त्रुटि कितनी बढ़ जाती है। माध्यिका के लिए 25% की मजबूती की कीमत का मतलब है कि माध्यिका के साथ ठेठ अनुमान त्रुटि का आकार औसत अनुमान त्रुटि के आकार से लगभग 25% बड़ा होगा। जाहिर है, "कीमत" जितना कम हो, उतना बेहतर है।


मैं अक्सर एचएल अनुमानक को के माध्यिका के रूप में परिभाषित करता हूंn(n+1)/2(xi+xj)/21मैंजेnwilcox.test(..., conf.int=TRUE)

+1, यह वास्तव में उत्कृष्ट है। मेरे पास एक नाइटपिक है, हालांकि: मैं आपके अंतिम पैराग्राफ में वाक्यांश "त्रुटि शब्द" का उपयोग नहीं करूंगा, क्योंकि इसका उपयोग अक्सर कुछ और करने के लिए किया जाता है; मैं इसके बजाय 'नमूना वितरण के मानक त्रुटि', या सिर्फ 'मानक त्रुटि' का उपयोग करूंगा।
गूँग - मोनिका

एक बहुत अच्छी तरह से संरचित और संक्षिप्त उत्तर, धन्यवाद! एक अवलोकन यह है कि मुझे क्या चाहिए, मैं हेनरिक द्वारा सुझाए गए पेपर के माध्यम से पढ़ूंगा और इसे कवर किया जाना चाहिए। गर्मियों की लंबी रात के मनोरंजन के लिए, मुझे आपके और जुम्मन द्वारा सुझाई गई पुस्तकों की जाँच करना सुनिश्चित होगा।
ओन्ड्रेज

@ कर्कल, आप सही हैं। एचएल के अनुमानक का मेरा चरित्र-चित्रण गलत था। सुधारों के लिए धन्यवाद। मैंने उसी हिसाब से अपना जवाब अपडेट किया है।
डीडब्ल्यू

धन्यवाद, @ शुंग! जैसा कि आप सुझाव देते हैं, मैंने 'मानक त्रुटि' का उपयोग करने के लिए उत्तर संपादित किया है।
DW

7

यदि आपको कुछ छोटा और पचने में आसान लगता है, तो मनोवैज्ञानिक साहित्य से निम्नलिखित कागज पर एक नज़र डालें:

एर्सग-हर्न, डीएम, और मिरोसेविच, वीएम (2008)। आधुनिक मजबूत सांख्यिकीय तरीके: अपने शोध की सटीकता और शक्ति को अधिकतम करने का एक आसान तरीका। अमेरिकी मनोवैज्ञानिक , 63 (7), 591–601। डोई: 10.1037 / 0003-066X.63.7.591

वे मुख्य रूप से रैंड आर विलकॉक्स की पुस्तकों पर भरोसा करते हैं (जो कि वास्तव में गणितीय भी नहीं हैं):

विलकॉक्स, आरआर (2001)। आधुनिक सांख्यिकीय विधियों के मूल तत्व: शक्ति और सटीकता में काफी सुधार करना। न्यूयॉर्क; बर्लिन: स्प्रिंगर।
विलकॉक्स, आरआर (2003)। समकालीन सांख्यिकीय तकनीकों को लागू करना। एम्सटर्डम; बोस्टन: अकादमिक प्रेस।
विलकॉक्स, आरआर (2005)। मजबूत आकलन और परिकल्पना परीक्षण का परिचय। अकादमिक प्रेस।


5

एक किताब जो बहुत अच्छी तरह से अभ्यास के साथ सिद्धांत को जोड़ती है , वह है ज्यूरेकोवका और पिसक द्वारा आर के साथ रॉबट स्टैटिस्टिक मेथड्स। मुझे भी Marust et al द्वारा Robust सांख्यिकी पसंद है । हालाँकि, इन दोनों में आपकी तुलना में अधिक गणित हो सकता है। R पर केंद्रित अधिक लागू ट्यूटोरियल के लिए, यह BelVenTutorial PDF मदद कर सकता है।


आह, प्रो। Jurečková - हमारे विश्वविद्यालय में एक शिक्षक, क्या हालात हैं। मैं दोनों किताबों की जांच करूंगा। हालांकि मैं एक और ... संक्षिप्त दस्तावेज (क्योंकि यह समस्या मेरे लिए बहुत ही मामूली है) की तलाश में था, लेकिन इसमें थोड़ी गहराई तक चोट करने से गुरेज नहीं करता। धन्यवाद!
ओन्ड्रेज

1
दुनिया बहुत छोटी है! ठीक है, कम से कम मैंने आपकी टिप्पणी से कॉपी करके वर्तनी को ठीक कर दिया ...
3
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.