परिकल्पना परीक्षणों के लिए उच्च सकारात्मक कर्टोसिस समस्या क्यों है?


14

मैंने सुना है (क्षमा करें एक पाठ के लिए एक लिंक प्रदान नहीं कर सकता है, मुझे जो कुछ बताया गया है) कि अवशिष्ट के एक उच्च सकारात्मक कर्टोसिस सटीक परिकल्पना परीक्षण और आत्मविश्वास अंतराल (और इसलिए सांख्यिकीय अनुमान के साथ समस्याओं) के लिए समस्याग्रस्त हो सकता है। क्या यह सच है और, यदि हां, तो क्यों? क्या अवशिष्टों के उच्च धनात्मक कर्टोसिस यह संकेत नहीं देते हैं कि अवशिष्ट के अधिकांश भाग अवशिष्ट 0 के निकट हैं और इसलिए कम बड़े अवशिष्ट मौजूद हैं? (यदि आपके पास कोई उत्तर है, तो कृपया बहुत अधिक अनिश्चित गणित के साथ उत्तर देने का प्रयास करें क्योंकि मैं अत्यधिक गणितीय रूप से इच्छुक नहीं हूं)।


4
मैं अनुमान लगा रहा हूं कि आप सामान्य (गाऊसी) त्रुटि शर्तों की आदर्श स्थितियों के साथ मॉडल पर ध्यान केंद्रित कर रहे हैं। (कई अन्य संदर्भों में, अवशिष्ट के उच्च कर्टोसिस की अच्छी तरह से उम्मीद की जा सकती है।) उच्च कुर्तोसिस से सामान्य रूप से वितरण किए जाने वाले वितरण की संभावना होती है, इसलिए कुछ बहुत ही उच्च (+ या -) अवशिष्ट होते हैं। भले ही कई शून्य के पास हों, यह केवल अच्छी खबर है, और यह संभव बुरी खबर है जिस पर ध्यान देने की आवश्यकता है। लेकिन बदले में किसी भी चीज़ का कोई भी मतलब हो सकता है। एक अवशिष्ट बनाम सज्जित भूखंड आमतौर पर अधिक जानकारीपूर्ण होता है।
निक कॉक्स

वास्तव में, मैं सामान्य धारणाओं वाले मॉडल पर ध्यान केंद्रित कर रहा था।
DDK 8

जवाबों:


15

सुना [...] कि अवशिष्ट के एक उच्च सकारात्मक कर्टोसिस सटीक परिकल्पना परीक्षण और आत्मविश्वास अंतराल (और इसलिए सांख्यिकीय अनुमान के साथ समस्याओं) के लिए समस्याग्रस्त हो सकता है। क्या यह सच है और, यदि हां, तो क्यों?

कुछ प्रकार की परिकल्पना परीक्षण के लिए, यह सच है।

क्या अवशिष्टों के उच्च धनात्मक कर्टोसिस यह संकेत नहीं देते हैं कि अवशिष्ट के अधिकांश भाग अवशिष्ट 0 के निकट हैं और इसलिए कम बड़े अवशिष्ट मौजूद हैं?

नहीं।

ऐसा लगता है कि आप कर्टोसिस के साथ विचरण की अवधारणा को स्वीकार कर रहे हैं। यदि विचरण छोटा था, तो अधिक छोटे अवशिष्टों और कम बड़े अवशिष्टों की प्रवृत्ति एक साथ आएगी। कल्पना करें कि हम कर्टोसिस को बदलते समय मानक विचलन को लगातार बनाए रखते हैं (इसलिए हम निश्चित रूप से विचलन के बजाय कुर्तोसिस में परिवर्तन के बारे में बात कर रहे हैं)।

विभिन्न भिन्नताओं की तुलना करें (लेकिन एक ही कुर्तोसिस):

यहाँ छवि विवरण दर्ज करें

अलग-अलग कुर्तोसिस के साथ लेकिन एक ही रूपांतर:

यहाँ छवि विवरण दर्ज करें

( इस पोस्ट से चित्र )

एक उच्च कर्टोसिस कई मामलों में माध्य से अधिक छोटे विचलन के साथ जुड़ा हुआ है - सामान्य वितरण के साथ आपको मिलने वाले अधिक छोटे अवशिष्ट .. लेकिन एक ही मूल्य पर मानक विचलन रखने के लिए, हमारे पास और भी होना चाहिए बड़े अवशिष्ट (क्योंकि अधिक छोटे अवशिष्ट होने से माध्य छोटे से विशिष्ट दूरी बना लेते हैं)। दोनों बड़े अवशेषों और छोटे अवशेषों में से अधिक प्राप्त करने के लिए, आपके पास कम "विशिष्ट आकार" के अवशेष होंगे - जो कि औसत मानक विचलन के बारे में हैं।

यह इस बात पर निर्भर करता है कि आप " " को कैसे परिभाषित करते हैं; आप बस बहुत से बड़े अवशेषों को नहीं जोड़ सकते हैं और विचरण को स्थिर रख सकते हैं, आपको इसकी भरपाई के लिए कुछ चाहिए - लेकिन "छोटे" के कुछ दिए गए उपाय के लिए आप उस विशेष उपाय को बढ़ाए बिना कुर्तियों को बढ़ाने के तरीके पा सकते हैं। (उदाहरण के लिए, उच्च कर्टोसिस अपने आप ही उच्च शिखर का मतलब नहीं रखता है)

जब आप विचरण स्थिरांक रखते हैं, तो उच्च कर्टोसिस अधिक बड़े अवशिष्टों के साथ जाता है।

[आगे, कुछ मामलों में, छोटे अवशिष्टों की सांद्रता वास्तव में सबसे बड़े अवशिष्टों के अतिरिक्त अंश से अधिक समस्या का कारण बन सकती है - यह इस बात पर निर्भर करता है कि आप किन चीजों को देख रहे हैं।]

वैसे भी, आइए एक उदाहरण देखें। एक-नमूना टी-परीक्षण और 10 के एक नमूना आकार पर विचार करें।

यदि हम शून्य परिकल्पना को अस्वीकार करते हैं, जब टी-स्टेटिस्टिक का निरपेक्ष मूल्य 2.262 से बड़ा है, तो जब अवलोकन स्वतंत्र होते हैं, तो सामान्य रूप से सामान्य वितरण से वितरित किया जाता है, और परिकल्पित माध्य वास्तविक जनसंख्या का मतलब है, हम शून्य को अस्वीकार कर देंगे। 5% समय की परिकल्पना।

सामान्य से काफी अधिक कर्टोसिस के साथ एक विशेष वितरण पर विचार करें: हमारी आबादी के 75% में उनके मूल्य एक सामान्य वितरण से खींचे गए हैं और शेष 25% में मानक मान विचलन के साथ सामान्य वितरण से उनके मूल्य 50 गुना बड़े हैं।

यदि मैंने सही गणना की है, तो यह 12 के कुर्तोसिस (9 के अतिरिक्त कुर्तोसिस) से मेल खाती है। परिणामस्वरूप वितरण सामान्य की तुलना में बहुत अधिक है और भारी पूंछ है। घनत्व की तुलना नीचे सामान्य घनत्व से की जाती है - आप उच्च शिखर को देख सकते हैं, लेकिन आप वास्तव में बाईं छवि में भारी पूंछ नहीं देख सकते हैं, इसलिए मैंने घनत्वों के लघुगणक को भी प्लॉट किया है, जो नीचे के निचले हिस्से को फैलाता है छवि और शीर्ष को संपीड़ित करता है, जिससे चोटी और पूंछ दोनों को देखना आसान हो जाता है।

यहाँ छवि विवरण दर्ज करें

वास्तविक इस वितरण के लिए महत्व स्तर यदि आप के साथ एक "5%" एक नमूना टी परीक्षण बाहर ले जाने के 0.9% नीचे है। यह बहुत नाटकीय है, और बिजली की वक्र को काफी हद तक नीचे खींचता है।n=10

(आपको आत्मविश्वास अंतराल के कवरेज पर भी काफी प्रभाव दिखाई देगा।)

ध्यान दें कि समान कुर्तोसिस के साथ एक अलग वितरण का महत्व स्तर पर एक अलग प्रभाव पड़ेगा।


तो अस्वीकृति दर नीचे क्यों जाती है? इसका कारण यह है कि भारी पूंछ कुछ बड़े आउटलेर्स की ओर ले जाती है, जो कि मानक विचलन पर थोड़ा बड़ा प्रभाव डालती है, जितना कि इसका मतलब है; यह टी-स्टेटिस्टिक को प्रभावित करता है क्योंकि यह -1 और 1 के बीच अधिक टी-वैल्यू की ओर जाता है, इस प्रक्रिया में महत्वपूर्ण क्षेत्र में मूल्यों के अनुपात को कम करता है।

यदि आप एक नमूना लेते हैं जो एक सामान्य वितरण से आने के साथ बहुत सुसंगत दिखता है, जिसका अर्थ केवल परिकल्पित अर्थ से काफी ऊपर है, तो यह महत्वपूर्ण है, और फिर आप अवलोकन को ऊपर से मतलब के ऊपर ले जाते हैं और इसे और भी दूर खींचते हैं (अर्थात, माध्य को से भी बड़ा बनाते हैं ), आप वास्तव में टी-स्टेटिस्टिक को छोटा बनाते हैंH0

चलो मैं तुम्हें दिखाता हूँ। यहाँ 10 आकार का एक नमूना है:

 1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23

कल्पना करें कि हम इसे (एक-नमूना-परीक्षण) के विरुद्ध परीक्षण करना चाहते हैं । यह पता चला है कि यहां नमूना का मतलब 2.68 है और नमूना मानक विचलन 0.9424 है। आपको 2.282 का टी-स्टेटिस्टिक मिलता है - केवल 5% परीक्षण (0.0484 का पी-मूल्य) के लिए अस्वीकृति क्षेत्र में।H0:μ=2

अब उस सबसे बड़े मान को 50 करें:

      1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50

स्पष्ट रूप से हम माध्य को ऊपर खींचते हैं, इसलिए इसे पहले की तुलना में अधिक अंतर का संकेत देना चाहिए, है ना? खैर, नहीं, यह नहीं है। टी-स्टेटिस्टिक नीचे जाता है । यह अब 1.106 है, और पी-मूल्य काफी बड़ा है (30% के करीब)। क्या हुआ? ठीक है, हमने माध्य (7.257 तक) खींच लिया, लेकिन मानक विचलन 15 से अधिक था।

मानक विचलन, आउटलेर्स की तुलना में थोड़ा अधिक संवेदनशील होते हैं - जब आप एक आउटलेयर में डालते हैं, तो आप एक-नमूना टी-स्टेटिस्टिक को 1 या -1 की ओर धकेलते हैं।

यदि कई बाहरी लोगों का मौका होता है, तो बहुत कुछ ऐसा ही होता है, जो कभी-कभी विपरीत दिशाओं में भी हो सकते हैं (जिस स्थिति में मानक विचलन और भी अधिक बढ़ जाता है, जबकि माध्य पर प्रभाव एक बाह्य की तुलना में कम हो जाता है), इसलिए टी-स्टेटिस्टिक 0 के करीब जाने के लिए जाता है।

इसी तरह का सामान कई अन्य सामान्य परीक्षणों के साथ चलता है जो सामान्यता का अनुमान लगाते हैं - उच्च कर्टोसिस भारी पूंछ के साथ जुड़ा हुआ है, जिसका अर्थ है कि अधिक आउटलेयर, जिसका अर्थ है कि मानक विचलन साधनों के सापेक्ष फुलाया जाता है और इसलिए मतभेद आप उठाते हैं। परीक्षण पर आउटलेर के प्रभाव से "दलदली" पाने के लिए। यानी कम बिजली।


1
वाह, बहुत स्पष्ट और विस्तृत जवाब के लिए बहुत बहुत धन्यवाद। आपके समय की बहुत सराहना की जाती है!
DDK

यह भी ध्यान देने योग्य है कि, जबकि नमूने के बड़े-नमूने वितरण का मतलब कर्टोसिस पर निर्भर नहीं करता है (इसलिए, सामान्य अर्थ-ग्रहण परीक्षणों के लिए वास्तविक महत्व का स्तर नाममात्र स्तर पर परिवर्तित होता है, आमतौर पर .05, n> के रूप में। इन्फिनिटी, सभी परिमित कुर्तोसिस के लिए), वही variances के परीक्षण के लिए सही नहीं है। अनुमानित विचरण का बड़ा-नमूना वितरण कुर्तोसिस पर निर्भर करता है, इसलिए विचरण के लिए क्लासिक, सामान्यता-ग्रहण करने वाले परीक्षणों का वास्तविक महत्व स्तर नाममात्र स्तर के रूप में n -> अनन्तता में परिवर्तित नहीं होता है जब कुर्तोसिस शून्य से भिन्न होता है।
पीटर वेस्टफॉल

इसके अलावा, उच्च कर्टोसिस का अर्थ गणितीय रूप से नहीं होता है, कि "माध्य से अधिक छोटे विचलन होते हैं।" केवल यह सुनिश्चित करने के लिए आपको बताता है कि पूंछ में अधिक है।
पीटर वेस्टफॉल

जब तक आप अधिक छोटे विचलन भी नहीं करते तब तक आप अधिक बड़े विचलन प्राप्त नहीं कर सकते हैं और विचरण को स्थिर रख सकते हैं; यदि आप विचरण को स्थिर नहीं रखते हैं, तो आपके विचलन के नए स्तर के सापेक्ष छोटे हो जाते हैं। तो हाँ, जब कुर्तोसिस को देखने की बात आती है, तो गणित आपको बताता है कि अधिक बड़े इसके साथ अधिक छोटे होते हैं।
Glen_b -Reinstate मोनिका

@Peter को एक मानकीकृत रूप में लेते हैं । कर्टोसिस है , और में मोनोटोनिक है । यदि मैं की पूंछ में संभाव्यता को आगे बढ़ाता हूं , तो कुछ प्रायिकता को माध्य की ओर बढ़ना चाहिए (या मैं ) को पकड़ नहीं सकता । इसी तरह यदि मैं की पूंछ में संभाव्यता को आगे बढ़ाता हूं और विचरण को बढ़ाता हूं , तो व्यापक है, और इसलिए कम से कम कुछ वितरणों के लिए के बाकी हिस्सों में से कुछ उन सीमाओं के अंदर गिर जाएंगे। ; एक बार जब आप नए ( से मानकीकरण करते हैंएक्स κ = ( जेड 4 ) ZXκ=E(Z4)κजेडवार(जेड)=1एक्सμ±कश्मीरσकश्मीरएक्सएक्स'जेड'κ1=E(Z2)κZVar(Z)=1Xμ±kσkXXZकहते हैं), आपके पास उस प्रत्यक्ष अर्थ में अधिक छोटे मूल्य हैं।
Glen_b -Reinstate Monica

4

कर्टोसिस आउटलेर्स को मापता है। आउटलेयर मानक इनफ़ॉर्मेंस (जैसे, टी-टेस्ट, टी-अंतराल) के लिए समस्याग्रस्त हैं जो सामान्य वितरण पर आधारित हैं। यही कहानी का अंत है! और यह वास्तव में एक बहुत ही सरल कहानी है।

इस कहानी को अच्छी तरह से सराहा नहीं गया है क्योंकि कर्टोसिस को मापने वाला प्राचीन मिथक "शिखरता" कायम है।

यहाँ एक सरल विवरण दिखाया गया है कि क्यों कर्टोसिस आउटलेर को मापता है न कि "शिखरता"।

निम्नलिखित डेटा सेट पर विचार करें।

0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 1

कुर्टोसिस (z-मान) ^ 4 का अपेक्षित मूल्य है। यहाँ (z- मान) ^ 4 हैं:

6.51, 0.30, 5.33, 0.45, 0.00, 0.30, 6.51, 0.00, 0.45, 0.30, 0.00, 6.51, 0.00, 0.00, 0.30, 0.00, 27.90, 0.00, 0.30, 0.45

औसत 2.78 है, और यह कर्टोसिस का अनुमान है। (यदि आप अतिरिक्त कुर्तोसिस चाहते हैं तो 3 घटाएँ।)

अब, अंतिम डेटा मान को 999 के साथ बदलें ताकि यह एक बाहरी बन जाए:

0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999

अब, यहाँ (z-मान) ^ 4 हैं:

0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00,0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 360.98

औसत 18.05 है, और यह कर्टोसिस का अनुमान है। (यदि आप अतिरिक्त कुर्तोसिस चाहते हैं तो 3 घटाएँ।)

स्पष्ट रूप से, केवल बाहरी (ओं) मामले। "चोटी" या मध्य मामलों के पास डेटा के बारे में कुछ भी नहीं।

यदि आप दूसरे डेटा सेट के साथ मानक सांख्यिकीय विश्लेषण करते हैं, तो आपको परेशानी की उम्मीद करनी चाहिए। बड़े कुर्तोसिस आपको समस्या के प्रति सचेत करते हैं।

यहाँ एक पेपर है जो विस्तृत है:

वेस्टफॉल, पीएच (2014)। कर्टोसिस पीकडनेस के रूप में, 1905 - 2014. आरआईपी द अमेरिकन स्टेटिस्टिशियन, 68, 191-195।


क्यों न केवल गैरपरंपरागत परीक्षणों का उपयोग करें? इस प्रकार की समस्याओं के लिए उनके बेहतर होने की संभावना है।
कार्ल

1
सहमत, यह एक संभावित एवेन्यू है, यदि आपको परीक्षण पसंद है, जो तेजी से अपने क्लासिक रूप में कम दिलचस्प होता जा रहा है। लेकिन यह वास्तव में मेरी चिंता का विषय नहीं है। मैं सामान्य रूप से संभाव्य मॉडलिंग में अधिक रुचि रखता हूं। एक आवेदन: हो सकता है कि आप वास्तव में माध्य में रुचि रखते हैं, उदाहरण के लिए, उन मामलों में जहां आश्रित चर डॉलर कमाया जाता है, प्रक्रिया माध्य प्रक्रिया की तुलना में अधिक दिलचस्प है। तो, क्या डेटा आपको इस प्रक्रिया के बारे में बताता है जब डेटा आउटलाइन-प्रवण होता है? यह एक कठिन समस्या है, लेकिन एक महत्वपूर्ण एक, और पल कुर्तोसिस उत्तर के लिए प्रासंगिक है। नॉनपर टेस्ट नहीं।
पीटर वेस्टफाल

कॉची वितरण के लिए, छंटनी का मतलब मंझले की तुलना में स्थान का एक बेहतर उपाय हो सकता है, और सामान्य मतलब स्थान का माप नहीं होगा। स्थान के माप के रूप में उपयोग करने के लिए वितरण क्या है पर निर्भर है। एक उदाहरण जिसके लिए कर्टोसिस एक संकेतक के रूप में सहायक नहीं होगा, एक समान वितरण है जिसके लिए औसत चरम मान औसतन और माध्य दोनों की तुलना में स्थान का बेहतर माप है।
कार्ल

बात नहीं है। यदि आप योग में रुचि रखते हैं, उदाहरण के लिए, डॉलर, तो सामान्य मतलब आपके इच्छित स्थान का माप है।
पीटर वेस्टफॉल

यदि आपके पास एक कॉची वितरित चर है, तो आप कुल अर्जित डॉलर के लिए एक मामला बना सकते हैं, लेकिन इसका मतलब स्थान विशेष रूप से उपयोगी नहीं होगा जिसका अर्थ है कि "अपेक्षित मूल्य" के साथ कोई उचित अपेक्षा नहीं है।
कार्ल

-3

कर्टोसिस भी असममित पूंछ को इंगित करता है। दो पूंछ वाली परिकल्पना परीक्षण में, एक पूंछ एक लंबी पूंछ होगी, और दूसरी एक छोटी पूंछ होगी। पूंछ में से एक हो सकता है> अल्फा, लेकिन <बीटा। एक पूंछ पी-मूल्य पारित करेगी, लेकिन दूसरी नहीं होगी।

मूल रूप से, सांख्यिकीय अनुमान एक मानक सामान्य मानता है। जब यह एक सामान्य मानक नहीं होता है, तो आप कुछ अधिक परिष्कृत इंजेक्शन मैकेनिक्स के आधार पर एक अनुमान के साथ प्राप्त कर सकते हैं। हो सकता है कि आप हमारे लिए पॉसों का अनुमान लगा सकें, लेकिन एक वितरण जो सामान्य नहीं है, आप उन मानदंडों का उपयोग नहीं कर सकते हैं जो मानदंडों पर आधारित हैं।

तिरछा और कुर्तोसिस गैर-सामान्यता का एक उपाय है। हम सामान्य वितरण के लिए साधन लेना और उसका उपयोग करना सीखते हैं, इससे पहले कि हम जानते हैं कि हमें सामान्यता के लिए परीक्षण करना है। प्रत्येक आयाम से एक सामान्य को 36 या अधिक डेटा बिंदुओं की आवश्यकता होती है। आप 20 डेटा बिंदुओं का अनुमान लगा सकते हैं, लेकिन आपके पास अभी भी तिरछा और कुर्तोसिस होगा। जैसे-जैसे वितरण सामान्यता के करीब आता है, तिरछा और वितरण गायब होता जाता है।

स्पष्टीकरण में से एक कर्टोसिस को चोटी के रूप में परिभाषित किया गया है। दूसरे ने नहीं किया। यह इस समय एक अनसुलझी लड़ाई है। कर्टोसिस चौथा क्षण है, एक क्षेत्र। मैं मुद्दे की नहीं शिखर पर हूं।

एक और विचार जो वहाँ है वह यह है कि एक तिरछा के साथ, माध्यिका त्रिभुज बनाने वाली मोड पर झुक जाती है। का आनंद लें।


1
यह स्पष्ट नहीं है कि यह पहले से ही उत्कृष्ट उत्तरों के लिए कुछ भी उपयोगी और अलग जोड़ता है। इसमें कई गूढ़ कथन जोड़ दिए गए हैं, जैसे "सामान्य के लिए 36 या अधिक डेटा बिंदुओं की आवश्यकता होती है" (इसलिए 35 ठीक नहीं है? इस दावे का आधार क्या है? "चोटी के रूप में तिरछा होना" मुझे नहीं लगता कि कोई भी यह दावा कर रहा है। "सांख्यिकीय निष्कर्ष मानता है। मानक सामान्य ": सामान्य रूप से नहीं। कर्टोसिस चौथा क्षण है, एक क्षेत्र: नहीं; कुर्तोसिस जैसा कि यहां परिभाषित किया गया है, एक आयाम रहित अनुपात है, जो माध्य के बारे में चौथे और दूसरे क्षण पर आधारित है।
निक कॉक्स

चौथा क्षण एक अभिन्न है, इसलिए यह एक क्षेत्र है। उस क्षेत्र का चरमसीमा में अनुवाद कैसे किया जाता है या वक्रता मुझ पर खोई जाती है।
डेविड डब्ल्यू। लोके

वे कुर्तोसिस के विशिष्ट व्याख्यात्मकता शिखर हैं, लेकिन मेरे विचार में यह गलत है। मैं अपनी मूल प्रतिक्रिया को संपादित करने के लिए तिरछेपन को चोटी के रूप में बदलने के लिए कहूंगा कर्टोसिस है ... धन्यवाद।
डेविड डब्ल्यू लोके

पूंछ सममित नहीं हैं। मैंने कभी भी सांख्यिकीय निष्कर्ष के बारे में कुछ भी नहीं देखा है जो असममित पूंछ मानता है। कर्टोसिस का जोखिम इसलिए होता है क्योंकि अधिक डेटा बिंदु एकत्र किए जाने पर पूंछ हिल जाएगी। तिरछा और कुर्तोसिस मानक सामान्य को प्राप्त करने के लिए पर्याप्त डेटा नहीं होने के बारे में है।
डेविड डब्ल्यू लोके

1
ऐसा नहीं है: घातीय, गामा, वीबुल और कई और कई अन्य वितरणों के लिए सिद्धांत और अनुप्रयोगों का एक समूह है, जो सामान्य नहीं हैं।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.