दो नमूना वितरण की पूंछ की तुलना


13

मेरे पास दो सेट डेटा हैं जो लगभग शून्य पर केंद्रित हैं लेकिन मुझे संदेह है कि उनके पास अलग-अलग पूंछ हैं। मैं वितरण को सामान्य वितरण की तुलना करने के लिए कुछ परीक्षण जानता हूं, लेकिन मैं सीधे दो वितरणों की तुलना करना चाहूंगा।

2 वितरण की पूंछ की मोटापा की तुलना करने के लिए एक सरल परीक्षण है ?

धन्यवाद
fRed


क्या "वसा-पूंछ" टैग वास्तव में सार्थक है (भविष्य के प्रश्नों के लिए)?
chl

@chl आप मुझे बताएं, मैं निश्चित रूप से आंकड़ों में आपके जितना अनुभवी नहीं हूं। लेकिन IMO यह पूंछ के महत्व को कम करने के लिए एक क्लासिक पूर्वाग्रह है। क्या आपने मेंडलब्रॉट के काम को पढ़ा है? वित्त के लिए लागू आंकड़ों में वसा की पूंछ बहुत महत्वपूर्ण है और 2008 के क्रेडिट संकट कुछ मूल्य निर्धारण मॉडल से कुछ भाग के लिए आया था जो सामान्यता मान रहे थे और कुछ सहसंबंध वितरण की वसा पूंछ को कम करके आंका। हम चर्चा कर सकते हैं कि एक और सूत्र में :)
रॉकसाइंस

1
यह प्रश्न संभावित रूप से दिलचस्प है लेकिन कुछ स्पष्टीकरण का स्वागत किया जाएगा। क्या आप एक पूंछ या दोनों के बारे में चिंतित हैं? आप "मोटापा" कैसे मापते हैं? (क्या आप तुलना करने के लिए दो वितरणों को स्थानांतरित करने और पुनर्विक्रय करने के लिए तैयार हैं, उदाहरण के लिए?) आप "मोटापे" में विचलन कैसे मापते हैं? यदि आप एक परिकल्पना परीक्षण पर विचार करते हैं, तो वैकल्पिक परिकल्पना क्या होगी, ठीक है?
व्हीबर

@RockScience, मेरे दो वितरण हैं और केवल पूंछ की तुलना करना चाहते हैं, क्या आपने इसे कैसे प्रबंधित किया? मुझे पता है कि आप कुर्तोसिस की गणना कर सकते हैं लेकिन आपने कैसे परीक्षण किया कि दोनों पूंछ अलग हैं?
user2380782

जवाबों:


6

यह प्रश्न एक ही परिवार से संबंधित है क्योंकि यह परीक्षण के बारे में है कि क्या दो नमूनों में एक ही तिरछा है , इसलिए आप मेरे उत्तर को पढ़ना पसंद कर सकते हैं । मेरा मानना ​​है कि एल-मोमेंट्स यहां भी उन्हीं कारणों से उपयोगी होंगे (विशेष रूप से इस मामले में एल- स्केवनेस कुर्तोसिस )।


2

एक सीमा का निर्माण करते हुए, लंबोदर कहते हैं, हम इस पूंछ क्षेत्र में गिरने वाले अवलोकनों के दो डेटा सेटों के आधार पर पूंछ क्षेत्र (\ lambda, infinity) पर प्रतिबंधित दो वितरणों के दो साधनों या भिन्नताओं की समानता का परीक्षण कर सकते हैं। बेशक, दो नमूना टी-टेस्ट या एफ-टेस्ट ठीक हो सकते हैं लेकिन पाउडर के समान नहीं हैं क्योंकि इस पूंछ क्षेत्र पर प्रतिबंधित यादृच्छिक चर सामान्य नहीं हैं।


चरम मूल्य सिद्धांत ऐसे छंटे हुए वितरणों का अध्ययन करता है: स्पर्शोन्मुख रूप से, पूंछ का वितरण आमतौर पर सामान्यीकृत पेरेटो परिवार से होता है। वितरण के इस परिवार में डेटा को फिट करने और मापदंडों की तुलना करने की कोशिश भी की जा सकती है।
विंसेंट ज़ोन्कंड

@ विंसेंट ए टेल में व्यावहारिक रूप से कोई वितरण हो सकता है। चरम मूल्य सिद्धांत पूंछ के बारे में बहुत कम कहता है: यह iid नमूनों के मैक्सिमा (या मिनीमा) के वितरण पर केंद्रित है, जो काफी अलग बात है।
whuber

1

सामान्यीकृत लैम्ब्डा वितरण और बूटस्ट्रैपिंग आत्मविश्वास अंतरालों को तीसरे और चौथे मापदंडों पर फिट करने के बारे में कैसे ?


2
वितरण का यह परिवार विशेष रूप से इस समस्या के लिए अच्छा क्यों होगा और कुछ अन्य परिवार जैसे कि पियर्सन वितरण नहीं होगा?
whuber

1

ची स्क्वायर टेस्ट (गुडनेस-ऑफ-फिट टेस्ट) दो वितरणों की पूंछों की तुलना करने में बहुत अच्छा होगा क्योंकि यह दो वितरणों को मानों की बाल्टी से तुलना करने के लिए संरचित होता है (चित्र में हिस्टोग्राम द्वारा दर्शाया गया है)। और, पूंछ सबसे बाल्टी में शामिल होगी।

भले ही यह परीक्षण पूरे वितरण पर केंद्रित है, न केवल पूंछ आप आसानी से निरीक्षण कर सकते हैं कि ची स्क्वायर वैल्यू या डायवर्जेंस का कितना अंतर पूंछ की वसा में अंतर से निकला है।

देखें कि व्युत्पन्न हिस्टोग्राम वास्तव में आपको किसी भी परीक्षण से संबंधित सांख्यिकीय महत्व की तुलना में पूंछ के संबंधित मोटापे के बारे में अधिक जानकारी दे सकता है। यह बताने के लिए एक बात है कि पूंछ की मोटाई सांख्यिकीय रूप से भिन्न होती है। यह नेत्रहीन इसका निरीक्षण करने के लिए एक और है। कहते हैं एक तस्वीर हजार शब्दों के समान होती है। कभी-कभी यह एक हज़ार नंबरों के लायक भी होता है (यह समझ में आता है कि रेखांकन सभी नंबरों को इनकैप्सुलेट करता है)।


3
यह मुझे लगता है कि ची स्क्वायर परीक्षण पूंछों में अंतर की पहचान करने में विशेष रूप से खराब होगा । यदि पूंछ कई डिब्बे से आच्छादित हैं, तो - क्योंकि वे पूंछ हैं! - किसी भी डिब्बे में कुछ डेटा हो सकता है, ची-स्क्वेर सन्निकटन को अमान्य कर सकता है। यदि पूंछ कुछ डिब्बे द्वारा कवर की जाती हैं, तो आप उनकी आकृतियों को भेदने के लिए लगभग पूरी शक्ति खो देते हैं, और आप जो भेदभाव करने का प्रबंधन करते हैं, वह बहुत प्रासंगिक या उपयोगी नहीं हो सकता है। (एक समस्या यह है कि हम यहाँ के खिलाफ कर रहे हैं कि "पूंछ के मोटापा", परिभाषित नहीं किया गया तो सवाल वास्तव में बहुत अच्छी तरह जवाब देने के लिए अस्पष्ट है।)
whuber

@ जब भी, मैं यह नहीं कह सकता कि क्या मैं आपकी टिप्पणी से सहमत हूं क्योंकि मैं आपकी बातों को पूरी तरह से नहीं समझता। "ची-चुकता सन्निकटन को अमान्य" करने से आपका क्या तात्पर्य है?
सिम्पा

ची-स्क्वैयर परीक्षण ची-स्क्वेर्ड स्टैटिस्टिक के सही वितरण के लिए एक सामान्य-सिद्धांत सन्निकटन पर आधारित है। आम तौर पर यह अनुमान गरीब हो जाता है जब बिन आबादी 5. नीचे ड्रॉप
whuber

@ शुभंकर, स्पष्टीकरण के लिए धन्यवाद। इसे देखते हुए, मुझे ऐसा लगता है कि आपकी प्रारंभिक टिप्पणी का पहला वाक्यांश उतना सुस्पष्ट नहीं हो सकता है जितना आपने ध्यान रखा होगा ("ची स्क्वायर टेस्ट विशेष रूप से पूंछों में अंतर पहचानने में खराब होगा")। हो सकता है कि अधिक उपयुक्त कथन "यह निर्भर करता है ..." इस परीक्षण में कई गुण हैं, जिसमें आपको प्रासंगिक डिब्बे को परिभाषित करने के लिए मजबूर करना शामिल है। और, बस के रूप में महत्वपूर्ण रूप से एक हिस्टोग्राम के निर्माण की सुविधा। दी गई है यदि आपके पास एक बिन में 5 से कम अवलोकन है, तो आप सटीकता को खो देंगे जैसा कि आपने अच्छी तरह से समझाया है।
सिमपा

@ गण मुझे ध्यान की सराहना करते हैं, लेकिन इस मामले में निर्णय उचित लगता है। वितरणों की तुलना के लिए उपलब्ध कई अन्य तरीकों की तुलना में, ची स्क्वैयर परीक्षण अच्छी तरह से पकड़ में नहीं आता है। यदि आप स्वयं डेटा के आधार पर "प्रासंगिक डिब्बे को परिभाषित करते हैं", तो परीक्षण अमान्य है। इसके अलावा, एक हिस्टोग्राम आमतौर पर वितरण की पूंछ को देखने का एक उपयोगी तरीका नहीं है। हालाँकि, मैं विकल्पों का प्रस्ताव करने के लिए अनिच्छुक हूं क्योंकि समस्या को परिभाषित किया गया है: बस दो वितरणों के लिए एक ही अर्थ हो सकता है कि "पूंछ का मोटापा" समान हो? कर्टोसिस एक संभावना है, लेकिन यह एक कच्चा उपाय है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.