सामान्य वितरण के लिए तिरछापन और कुर्तोसिस के मूल्यों की सीमा


11

मैं जानना चाहता हूँ कि क्या के मूल्यों की सीमा है चाहता हूँ तिरछापन और कुकुदता जिसके लिए डेटा सामान्य रूप से वितरित किया जाता है।

मैंने कई तर्क पढ़े हैं और ज्यादातर मुझे मिश्रित उत्तर मिले हैं। कुछ का कहना है कि तिरछापन के लिए और कुर्तोसिस सामान्य रूप से वितरित होने के लिए एक स्वीकार्य सीमा है। कुछ कहते हैं तिरछा होना एक स्वीकार्य सीमा है। मुझे यहां एक विस्तृत चर्चा मिली: इस मुद्दे के बारे में डेटा के सामान्य वितरण के लिए तिरछा और कर्टोसिस की स्वीकार्य सीमा क्या है । लेकिन मुझे कोई निर्णायक बयान नहीं मिला।( - 2 , 2 ) ( - 1.96 , 1.96 )(1,1)(2,2)(1.96,1.96)

इस तरह के अंतराल को तय करने का आधार क्या है? क्या यह एक व्यक्तिपरक विकल्प है? या इन अंतरालों के पीछे कोई गणितीय व्याख्या है?


3
क्या या जो "स्वीकार्य" को परिभाषित करता है?
Glen_b -राइनेट मोनिका

यह एक अच्छा सवाल है। मेरे पास इसके लिए स्पष्ट उत्तर नहीं है।
Dark_Knight

क्या मैं यह सोचने में सही हूं कि आपके प्रश्न के पीछे बिछाने की कुछ निहित विधि है, कुछ इस प्रकार है: "इस मॉडल का आकलन करने से पहले और उस परीक्षण को करने के लिए, नमूना तिरछा और कुर्तोसिस की जांच करें। यदि वे दोनों कुछ पूर्व-निर्दिष्ट सीमाओं के भीतर उपयोग करते हैं। सामान्य सिद्धांत प्रक्रिया, अन्यथा कुछ और उपयोग करें। " ...?
Glen_b -Reinstate Monica

यदि हां, तो ऐसी प्रक्रियाओं-सामान्य-मान्यताओं के साथ क्या आप इस तरह के दृष्टिकोण का उपयोग कर सकते हैं? आप इसे किस चर पर जाँचेंगे? यदि आप निष्कर्ष निकालते हैं कि वे क्या वैकल्पिक प्रक्रियाएँ हैं, तो वे कुछ मानदंड से "स्वीकार्य" नहीं थे?
Glen_b -Reinstate Monica

इसके अलावा - यह संदर्भ के लिए महत्वपूर्ण हो सकता है, विशेष रूप से ऐसे मामलों में जहां कुछ सीमाएं चुनने के लिए कुछ तर्क दिया जाता है - क्या आप कोई उद्धरण शामिल कर सकते हैं जो इस तरह से आते हैं कि आप पकड़ सकते हैं (विशेषकर जहां सुझाई गई सीमाएं काफी हैं विभिन्न)? एक बात जो इस तरह के संदर्भ से जानना उपयोगी होगी - वे किन परिस्थितियों के लिए इस तरह की चीजों का उपयोग कर रहे हैं?
Glen_b -Reinstate मोनिका

जवाबों:


6

मूल पोस्ट कुछ प्रमुख बिंदुओं को याद करती है: (1) कोई "डेटा" कभी भी सामान्य रूप से वितरित नहीं किया जा सकता है। डेटा जरूरी असतत हैं। वैध प्रश्न है, "वह प्रक्रिया है जो डेटा को सामान्य रूप से वितरित प्रक्रिया का उत्पादन करती है?" लेकिन (2) दूसरे प्रश्न का उत्तर हमेशा "नहीं" होता है, इस बात पर ध्यान दिए बिना कि कोई सांख्यिकीय परीक्षण या डेटा पर आधारित अन्य मूल्यांकन आपको देता है। आम तौर पर वितरित प्रक्रियाएं अनंत विचलन, पूर्ण समरूपता और मानक विचलन श्रेणियों (जैसे 68-95-99.7) के भीतर सटीक निर्दिष्ट डेटा के साथ डेटा का उत्पादन करती हैं, जिनमें से कोई भी उन प्रक्रियाओं के लिए कभी भी सही नहीं है जो उस डेटा को जन्म देती हैं जिसे हम जो भी माप सकते हैं माप उपकरण जिसे हम मनुष्य उपयोग कर सकते हैं।

इसलिए आप डेटा को सामान्य रूप से वितरित करने के लिए कभी भी विचार नहीं कर सकते हैं, और आप उस प्रक्रिया पर कभी विचार नहीं कर सकते हैं जो डेटा का उत्पादन सामान्य रूप से वितरित की जाने वाली प्रक्रिया है। लेकिन, जैसा कि Glen_b ने संकेत दिया है, यह बहुत ज्यादा मायने नहीं रखता है, यह इस बात पर निर्भर करता है कि आप डेटा के साथ क्या करने की कोशिश कर रहे हैं।

आपकी डेटा-जनरेटिंग प्रक्रिया की सामान्यता से कुछ प्रकार के विचलन का आकलन करने में तिरछापन और कर्टोसिस आंकड़े आपकी मदद कर सकते हैं। वे अत्यधिक परिवर्तनशील आँकड़े हैं, हालाँकि। ऊपर दी गई मानक त्रुटियां उपयोगी नहीं हैं क्योंकि वे केवल सामान्यता के तहत मान्य हैं, जिसका अर्थ है कि वे केवल सामान्यता के लिए एक परीक्षण के रूप में उपयोगी हैं, एक अनिवार्य रूप से बेकार व्यायाम। यह बेहतर होगा कि बूटस्ट्रैप का उपयोग सेईस को खोजने के लिए किया जाए, हालांकि सटीक एसई प्राप्त करने के लिए बड़े नमूनों की आवश्यकता होगी।

इसके अलावा, कर्टोसिस की व्याख्या करना बहुत आसान है, उपरोक्त पोस्ट के विपरीत। यह Z मानों का औसत (या अपेक्षित मूल्य) है, प्रत्येक को चौथी शक्ति पर ले जाया जाता है। बड़ा | जेड | मान आउटलेयर हैं और कर्टोसिस में भारी योगदान करते हैं। छोटा | जेड | मान, जहां वितरण का "शिखर" है, Z ^ 4 मान दें जो छोटे हैं और अनिवार्य रूप से कर्टोसिस के लिए कुछ भी योगदान नहीं करते हैं। मैंने अपने लेख https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ में साबित किया कि कुर्टोसिस बहुत अच्छी तरह से Z ^ 4 * I (! | Z> 1) मूल्यों के औसत से अनुमानित है। इसलिए कर्टोसिस डेटा-जनरेट करने की प्रक्रिया की बाहरीता को उत्पन्न करने के लिए मापता है।


बस स्पष्ट करने के लिए, "सामान्य रूप से वितरित प्रक्रिया" से आपका वास्तव में क्या मतलब है? मुझे लगता है कि आप यादृच्छिक चर की निरंतरता और निरंतरता के बारे में क्या कह रहे हैं लेकिन केंद्रीय वितरण प्रमेय का उपयोग करके किए जाने वाले सामान्य वितरण के बारे में क्या धारणा है?
Dark_Knight

सीएलटी यहां प्रासंगिक नहीं है - हम उस वितरण के बारे में बात कर रहे हैं जो व्यक्तिगत डेटा मूल्यों का उत्पादन करता है, औसत नहीं। एक "सामान्य रूप से वितरित प्रक्रिया" एक ऐसी प्रक्रिया है जो सामान्य रूप से वितरित यादृच्छिक चर का उत्पादन करती है। एक आदर्श सामान्य कंप्यूटर रैंडम नंबर जनरेटर एक उदाहरण होगा (ऐसी कोई चीज मौजूद नहीं है, लेकिन वे हमारे द्वारा उपयोग किए जाने वाले सॉफ़्टवेयर में बहुत अच्छे हैं।)
पीटर वेस्टफॉल

इसके अलावा, क्योंकि कोई भी प्रक्रिया जो डेटा का विश्लेषण करती है, वह एक सामान्य प्रक्रिया है, यह भी इस प्रकार है कि किसी भी ऐसी प्रक्रिया द्वारा उत्पादित औसत का वितरण नमूना आकार की परवाह किए बिना कभी भी सामान्य नहीं होता है। लेकिन हां, इस तरह के औसत के वितरण सीएलटी के अनुसार सामान्य वितरण के करीब हो सकते हैं। इस तरह के वितरण की सामान्यता पर निर्भरता (i) नमूना आकार और (ii) डेटा-जनरेटिंग प्रक्रिया की गैर-सामान्यता की डिग्री है जो व्यक्तिगत डेटा मानों का उत्पादन करती है।
पीटर वेस्टफॉल

4
हाय पीटर - क्या आप "उपरोक्त" जैसे संदर्भों से बच सकते हैं क्योंकि क्रम क्रम बदल जाएगा। आपके लिए जो ऊपर है वह अगले व्यक्ति को देखने के लिए ऊपर नहीं हो सकता है। यदि आपका मतलब है गंग की पोस्ट या मेरी पोस्ट (फिर भी एडिट में, जैसा कि मैं इसके कई पहलुओं पर काम कर रहा हूं) तो आप उन्हें केवल उनके लेखक द्वारा पहचान सकते हैं।
Glen_b -Reinstate मोनिका

आपको लगता है कि ऊपर से लगता है कि उच्च कर्टोसिस का अर्थ आउटलेर का उत्पादन करने की उच्च प्रवृत्ति है। जब तक आप आउटलायर्स को अनधिकृत रूप से परिभाषित नहीं करते हैं (यानी दावे को सच करने के लिए), यह सामान्य स्थिति में सच होने वाला बयान नहीं है। उदाहरण के लिए, वितरण के जोड़े का निर्माण करना काफी आसान है, जहां भारी पूंछ वाले व्यक्ति में कम कर्टोसिस होता है।
Glen_b -Reinstate मोनिका

5

आप यहां जो पूछ रहे हैं वह सामान्य आबादी से लिए गए नमूने के तिरछापन और कुर्तोसिस के लिए एक मानक त्रुटि है । नोट वहाँ जैसी चीजों का आकलन करने के विभिन्न तरीके हैं कि तिरछापन या वसा tailedness (कुकुदता) है, जो स्पष्ट रूप से प्रभावित करेगा क्या मानक त्रुटि हो जाएगा। सबसे आम उपाय जो लोग सोचते हैं कि वे तकनीकी रूप से तीसरे और चौथे मानकीकृत क्षणों के रूप में जाने जाते हैं।

यह इन मैट्रिक्स की कुछ जटिलताओं पर विचार करने के लायक है। जिस तरह से लोगों को संदेह है (सीएफ, यहां ) में विशिष्ट तिरछा स्टेटिस्टिक समरूपता का एक उपाय नहीं है । कुर्तोसिस और भी जटिल हो सकता है। इसकी एक संभावित सीमा , जहां सामान्य वितरण में कर्टोसिस होता है । नतीजतन, लोग आमतौर पर "अतिरिक्त कर्टोसिस" का उपयोग करते हैं, जो कि । फिर रेंज । हालाँकि, व्यवहार में कुर्तोसिस नीचे से से ऊपर और आपके नमूना आकार (लगभग ) के एक फंक्शन द्वारा बाउंड किया गया है । इसके अलावा, कर्टोसिस की व्याख्या करना कठिन है जब तिरछा नहीं होता है[1,)3kurtosis3[2,)skewness2+124/N0 । ये तथ्य लोगों की अपेक्षा की तुलना में उपयोग करना कठिन बनाते हैं।

इसके लायक क्या है, मानक त्रुटियां हैं:

SE(skewness)=6N(N1)(N2)(N+1)(N+3)SE(kurtosis)=2×SE(skewness)N21(N3)(N+5)

इस मुद्दे को अलग करते हुए कि क्या हम अपने नमूने के तिरछापन और कुरूपता को अलग कर सकते हैं, जो एक सामान्य आबादी से अपेक्षित होगा, आप यह भी पूछ सकते हैं कि से विचलन कितना बड़ा है। अंगूठे के नियम जो मैंने सुने हैं (वे जो लायक हैं) आम तौर पर हैं: 0

  • <|.5|छोटा
  • [|.5|,|1|) मध्यम
  • |1|विशाल

तिरछा और कुर्तोसिस का एक अच्छा परिचयात्मक अवलोकन यहां पाया जा सकता है


3

[में जो मैं मान रहा हूं कि आप कुछ ऐसा प्रपोज कर रहे हैं जैसे "सैंपल स्केवनेस और कर्टोसिस चेक करें, अगर वे दोनों कुछ पूर्व-निर्दिष्ट सीमाओं के भीतर कुछ सामान्य सिद्धांत प्रक्रिया का उपयोग करते हैं, तो कुछ और का उपयोग करें"।

इसके लिए कई पहलुओं की मेजबानी है, जिनमें से केवल कुछ मुट्ठी भर विचारों के लिए हमारे पास जगह होगी। मैं यह सूचीबद्ध करके शुरू करूंगा कि मुझे क्या लगता है कि इस तरह की कसौटी का उपयोग करने से पहले महत्वपूर्ण मुद्दों को देखना होगा। मैं वापस आने का प्रयास करूंगा और बाद में प्रत्येक आइटम के बारे में थोड़ा लिखूंगा:

विचार करने के लिए मुद्दे

  1. हम जो कुछ भी कर रहे हैं, उससे विभिन्न प्रकार की गैर-सामान्यता कितनी बुरी तरह से प्रभावित होगी?

  2. नमूना तिरछा और कुर्तोसिस पर श्रेणियों का उपयोग करके उन विचलन को उठाना कितना कठिन है?

    एक बात जो मैं प्रस्ताव में सहमत हूं - यह महत्व के बजाय प्रभाव आकार ( सामान्यता से कितना विचलन) से संबंधित उपायों की एक जोड़ी को देखता है। उस अर्थ में यह किसी उपयोगी चीज को संबोधित करने के करीब आएगा, जो एक औपचारिक परिकल्पना परीक्षण होगा, जो बड़े नमूने के आकार में भी तुच्छ विचलन को अस्वीकार करेगा, जबकि अधिक बड़े (और अधिक प्रभावशाली) विचलन की गैर-अस्वीकृति की झूठी सांत्वना की पेशकश करेगा। छोटे नमूना आकार। (परिकल्पना परीक्षण यहाँ गलत प्रश्न को संबोधित करते हैं।)

    बेशक छोटे नमूने के आकारों में यह अभी भी समस्याग्रस्त है कि उपाय बहुत "शोर" हैं, इसलिए हम अभी भी वहाँ भटक सकते हैं (एक आत्मविश्वास अंतराल हमें यह देखने में मदद करेगा कि यह वास्तव में कितना बुरा हो सकता है)।

    यह हमें यह नहीं बताता है कि तिरछापन या कुर्तोसिस में एक विचलन किस तरह की समस्याओं से संबंधित है जो हम सामान्यता चाहते हैं - और विभिन्न प्रक्रियाएं गैर-सामान्यता के लिए उनकी प्रतिक्रियाओं में काफी भिन्न हो सकती हैं।

    यह हमारी मदद नहीं करता है अगर सामान्यता से हमारा विचलन एक तरह का है जिसमें तिरछा होना और कुर्तोसिस अंधा हो जाएगा।

  3. यदि आप इन नमूना आँकड़ों का उपयोग दो प्रक्रियाओं के बीच निर्णय लेने के लिए आधार के रूप में कर रहे हैं, तो परिणामी अनुमान (जैसे एक परिकल्पना परीक्षण के लिए गुण) पर क्या प्रभाव पड़ता है, ऐसा करने से आपका महत्त्व स्तर और शक्ति क्या दिखती है?)

  4. वितरण की एक अनंत संख्या है जो बिल्कुल सामान्य वितरण के समान तिरछापन और कुर्तोसिस है लेकिन विशिष्ट रूप से गैर-सामान्य हैं। उन्हें सममित होने की भी आवश्यकता नहीं है! इस तरह की चीजों का अस्तित्व ऐसी प्रक्रियाओं के उपयोग को कैसे प्रभावित करता है? क्या उद्यम शुरू से ही बर्बाद है?

  5. सामान्य वितरण से निकाले गए नमूनों में आप नमूना तिरछा और कुर्तोसिस में कितनी भिन्नता देख सकते हैं? (सामान्य नमूनों के किस अनुपात को हम कुछ नियम से समाप्त कर देंगे?)

    [भाग में यह मुद्दा उनके उत्तर में किस गोबर की चर्चा करता है, से संबंधित है।]

  6. इसके बजाय कुछ बेहतर हो सकता है?

अंत में, अगर इन सभी मुद्दों पर विचार करने के बाद हम तय करते हैं कि हमें आगे बढ़ना चाहिए और इस दृष्टिकोण का उपयोग करना चाहिए, तो हम आपके प्रश्न से प्राप्त होने वाले विचारों पर पहुंचते हैं:

  1. विभिन्न प्रक्रियाओं के लिए तिरछापन और कुर्तोसिस पर रखने के लिए क्या अच्छी सीमाएं हैं? किन प्रक्रियाओं में हमें किन चर की चिंता करनी चाहिए?

    (जैसे अगर हम प्रतिगमन कर रहे हैं, तो ध्यान दें कि किसी भी IV और यहां तक ​​कि कच्चे DV से निपटने के लिए यह गलत है - इनमें से कोई भी एक सामान्य सामान्य वितरण से तैयार किया गया माना जाता है)


मैं वापस आऊंगा और कुछ विचार जोड़ूंगा, लेकिन इस बीच आपके पास मौजूद कोई भी टिप्पणी / प्रश्न उपयोगी हो सकते हैं।


0

और मुझे यह भी समझ में नहीं आ रहा है कि हमें किसी भी सामान्यता परीक्षण के लिए स्केवनेस और कुर्तोसिस के लिए किसी विशेष श्रेणी के मूल्यों की आवश्यकता क्यों है?
Dark_Knight
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.