यदि मेरा डेटा वितरण सममित है तो कैसे बताएं?


23

मुझे पता है कि अगर माध्यिका और माध्य लगभग समान हैं तो इसका मतलब है कि एक सममित वितरण है लेकिन इस विशेष मामले में मैं निश्चित नहीं हूं। माध्य और माध्यिका काफी करीब हैं (केवल 0.487 मी / गैल अंतर) जो मुझे यह कहने के लिए प्रेरित करेगा कि एक सममित वितरण है लेकिन बॉक्सप्लॉट को देखकर ऐसा लगता है कि यह थोड़ा सकारात्मक रूप से तिरछा है (जैसा कि पुष्टि के अनुसार मंझला Q1 से Q1 के करीब है) मूल्यों द्वारा)।

(यदि आप सॉफ़्टवेयर के इस टुकड़े के लिए कोई विशिष्ट सलाह चाहते हैं तो मैं मिनिटैब का उपयोग कर रहा हूं।)


एक विवरण पर रूढ़िवादी टिप्पणी: कौन सी इकाइयाँ m / gall हैं? यह प्रति गैलन मीटर की तरह दिखता है, और मैं अंतर्विरोधी हूं।
निक कॉक्स

यह यहाँ एक गंभीर सीमा है कि बॉक्स प्लॉट आमतौर पर बिल्कुल नहीं दिखाते हैं!
निक कॉक्स

यह आपके डेटा का मानक विचलन क्या है? यदि 0.487m / पित्त का मान आपके मानक विचलन से बहुत छोटा है, तो शायद आपके पास यह मानने के कारण हैं कि वितरण सममित हो सकता है। यदि यह मान आपके मानक विचलन (या एमएडी या आप जिस भी विचलन उपाय को देखते हैं) से बहुत अधिक है, तो संभवतः वितरण की समरूपता की जांच करना समय का नुकसान है।
us --r11852 का कहना है कि

1
70,63,56,49,42,35,28,21,14,7,0,1,4,9,16,25,36,49,64,81,100जानबूझकर सममित नहीं है (निचले आधे में समान है, लेकिन ऊपरी आधे में नहीं) और एक बॉक्स प्लॉट मध्य चतुर्थांश को मध्य (माध्य के बराबर) कम चतुर्थक की तुलना में अधिक समीप रखेगा, लेकिन अधिकतम की तुलना में न्यूनतम भी समीप होगा।
हेनरी

@NickCox यह एक टाइपो के साथ मिलिगल भी हो सकता है । यह लगभग 500 गैल होगा! या 10 - 4 ग्राम से कम है । (जैसा कि ऊपर उल्लेखित है, कुछ फैलाव पैमाने जैसे कि MAD के बिना, यह जानने का कोई तरीका नहीं है कि "महत्वपूर्ण" क्या हो सकता है।)μ104
GeoMatt22

जवाबों:


29

इसमें कोई संदेह नहीं है कि आपको अन्यथा कहा गया है, लेकिन इसका मतलब है कि माध्य समरूपता का अर्थ नहीं है।=

माध्य मीडियन (दूसरा पियर्सन तिरछा) के आधार पर तिरछापन का एक माप है, लेकिन यह 0 हो सकता है जब वितरण सममित नहीं होता है (जैसे कि सामान्य तिरछा उपायों में से कोई भी)।

इसी तरह, माध्य और माध्यिका के बीच का संबंध जरूरी नहीं कि मध्याह्न ( ) और मंझला के बीच समान संबंध हो । वे विपरीत तिरछापन का सुझाव दे सकते हैं, या एक माध्यिका के बराबर हो सकता है जबकि दूसरा नहीं करता है।(Q1+Q3)/2

समरूपता की जांच करने का एक तरीका सममिति साजिश * के माध्यम से है ।

तो सबसे छोटी से लेकर सबसे बड़ी (आर्डर आँकड़े) के लिए आदेशित अवलोकनों हैं, और M माध्यिका है, फिर एक सममिति प्लॉट Y ( n ) - M बनाम M - Y ( 1 ) , Y ( n - 1 ) - एम बनाम एम - वाई ( 2 )Y(1),Y(2),...,Y(n)MY(n)MMY(1)Y(n1)MMY(2) , ... और इसी तरह।

* मिनिटैब उन कर सकते हैं । वास्तव में मैं इस साजिश को एक संभावना के रूप में उठाता हूं क्योंकि मैंने उन्हें मिनिटाब में देखा है।

यहाँ चार उदाहरण हैं:

Symmetry plots
चार वितरण से नमूने के लिए उपरोक्त प्रकार के सममिति भूखंड

(वास्तविक वितरण थे (बाएं से दाएं, शीर्ष पंक्ति पहले) - लाप्लास, गामा (आकार = 0.8), बीटा (2,2) और बीटा (5,2)। कोड रॉस इहाका का है, यहां से )

भारी पूंछ वाले सममित उदाहरणों के साथ, यह अक्सर ऐसा होता है कि सबसे चरम बिंदु रेखा से बहुत दूर हो सकते हैं; आप आंकड़ा के शीर्ष दाईं ओर के पास एक या दो बिंदुओं की रेखा से दूरी पर कम ध्यान देंगे।

बेशक, अन्य भूखंड हैं (मैंने उस विशेष की वकालत की भावना से सममिति की साजिश का उल्लेख नहीं किया था, लेकिन क्योंकि मुझे पता था कि यह पहले से ही मिनीटैब में लागू है)। तो चलिए कुछ और लोगों की पड़ताल करते हैं।

निक कॉक्स ने टिप्पणियों में सुझाए गए इसी प्रकार के स्कूपप्लॉट्स हैं:

Skewness plots
टिप्पणियों में निक कॉक्स द्वारा सुझाया गया तिरछा भूखंड

इन भूखंडों में, एक प्रवृत्ति ऊपर बाईं ओर से आमतौर पर भारी पूंछ का संकेत देती है और नीचे की ओर एक प्रवृत्ति आमतौर पर भारी बाईं पूंछ को इंगित करती है, जबकि समरूपता अपेक्षाकृत सपाट (हालांकि शायद काफी शोर) भूखंड द्वारा सुझाई जाएगी।

निक सुझाव देते हैं कि यह साजिश बेहतर है (विशेष रूप से "अधिक प्रत्यक्ष")। मैं सहमत हूँ; कथानक की व्याख्या फलस्वरूप थोड़ी आसान लगती है, हालाँकि संबंधित भूखंडों में जानकारी अक्सर काफी समान होती है (जब आप पहले सेट में इकाई ढलान को घटाते हैं, तो आपको दूसरे सेट की तरह बहुत कुछ मिलता है)।

[बेशक, इनमें से कोई भी चीज हमें यह नहीं बताएगी कि डेटा जिस वितरण से खींचा गया था वह वास्तव में सममित है; हमें इस बात का संकेत मिलता है कि नमूना कितना निकट-सममित है, और इस हद तक हम यह आंक सकते हैं कि यदि डेटा सम-विषम जनसंख्या से खींचे जाने के कारण यथोचित संगत हैं।]


3
@ user72943 यदि आप इससे पूरी तरह से संतुष्ट हैं, तो वापस आना न भूलें और Glen_b का उत्तर चुनें। आप यह देखने के लिए थोड़ा इंतजार करना चाह सकते हैं कि क्या कोई बेहतर उत्तर प्रस्तुत करता है, लेकिन यदि आप उत्तर स्वीकार करते हैं तो Glen_b को अधिक क्रेडिट मिलेगा।
वेन

3
+

6
(Y(n+1i)+Y(i))/2in/2,n/4,n/8, और इसी तरह)। कुछ मायनों में यह कथानक समरूपता प्लॉटों के इनफ़रार से बेहतर है क्योंकि यह विस्तार की अधिकता को फ़िल्टर करता है और दर्शक को इस बात पर ध्यान केंद्रित करने में मदद करता है कि एक पूंछ में बाहर निकलते ही समरूपता (या उसके अभाव) कैसे बदल जाती है। एन-लेटर सारांश हाथ में होने के तुरंत बाद आसानी से और आसानी से गणना करने का अतिरिक्त लाभ होता है, जो बदले में सीधे स्टेम-एंड-प्लॉट से पढ़ा जा सकता है।
whuber

1
@whuber और मैं एक ही अंतर्निहित विचार की बात कर रहे हैं। अंतर सभी युग्मित क्रम आँकड़ों को प्लॉट करने के बीच है (व्यवहार में बहुत विचलित करने वाला नहीं) या बस कुछ की साजिश रचने के बीच।
निक कॉक्स

1
Stata-journal.com/sjpdf.html?articlenum=gr0003 पर संदर्भ और skewplotएसएससी के लिए प्रलेखन में स्टाटा उपयोगकर्ताओं के लिए । विचार कम से कम एक सुझाव के लिए वापस चला जाता है, जो विल्क, एमबी और ज्ञानादिकान, आर। 1968 में JW Tukey के लिए जिम्मेदार है। डेटा के विश्लेषण के लिए संभावना प्लॉटिंग के तरीके। बायोमेट्रिक 55: 1-17।
निक कॉक्स

6

सबसे आसान काम नमूना तिरछा गणना करना है । उसके लिए मिनिटैब में एक फंक्शन है। सममित वितरण में शून्य तिरछापन होगा। शून्य तिरछा होना जरूरी नहीं कि सममित है, लेकिन अधिकांश व्यावहारिक मामलों में यह होगा।

जैसा कि @NickCox ने उल्लेख किया है, वहाँ तिरछापन की एक से अधिक परिभाषा है। मैं एक्सेल के साथ संगत एक का उपयोग करता हूं , लेकिन आप किसी अन्य का उपयोग कर सकते हैं।


2
मुझे लगता है कि यह वर्तनी की जरूरत है। विशेष रूप से, "तिरछापन" जैसी कोई चीज नहीं है। बहुत सारे उपाय हैं और यहां तक ​​कि असामान्य भी अक्सर आम लोगों की तरह उपयोगी या दिलचस्प होते हैं (जैसे एल-पल)। माप के रूप में मानकीकृत तीसरे पल का सम्मान करने के लिए प्रलोभन देने वाले (और यह मेरी डिफ़ॉल्ट भी है) कार्ल पियर्सन के लिए और 20 वीं शताब्दी में कई अन्य लेखकों के लिए, इस बात पर ध्यान देना चाहिए कि तिरछापन सबसे अधिक बार मोड के सापेक्ष मापा जाता था।
निक कॉक्स

विषमता का पता लगाने के लिए बहुत अधिक शक्ति की कमी के अलावा कोई भी तिरछा गुणांक, (जैसा कि आप सही टिप्पणी करते हैं), भी (बेहद) गैर-मजबूत होने से ग्रस्त है, क्योंकि यह तीसरे नमूना क्षण पर आधारित है। इसके अलावा, चूंकि समरूपता का कई (और दिलचस्प) तरीकों से उल्लंघन किया जा सकता है, समरूपता का एक एकल संख्यात्मक लक्षण अन्वेषण डेटा विश्लेषण साहित्य में वर्णित समृद्ध चित्रमय निदान के लिए एक खराब विकल्प है।
whuber

1

नमूना माध्य को घटाकर अपने डेटा को शून्य के आसपास केन्द्रित करें। अब अपने डेटा को दो भागों में विभाजित करें, नकारात्मक और सकारात्मक। नकारात्मक डेटा बिंदुओं का पूर्ण मान लें। अब दो विभाजनों को एक-दूसरे से तुलना करके एक दो-नमूना Kolmogorov-Smirnov परीक्षण करें। P- मूल्य के आधार पर अपना निष्कर्ष निकालें।


0

एक कॉलम में बढ़ते मूल्यों में क्रमबद्ध अपनी टिप्पणियों को रखें, फिर उन्हें दूसरे कॉलम में मूल्यों को कम करने में क्रमबद्ध करें।
फिर इन दोनों स्तंभों के बीच सहसंबंध गुणांक (इसे आरएम कॉल करें) की गणना करें।
चिरल सूचकांक की गणना करें: CHI = (1 + Rm) / 2।
CHI अंतराल में मान लेता है [0..1]।
CHI null IF और ONLY है यदि आपका नमूना सममित रूप से वितरित किया गया है।
तीसरे क्षण की कोई जरूरत नहीं।
सिद्धांत:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(सबसे कागजात को निम्न दो पृष्ठों में उद्धृत पीडीएफ में डाउनलोड करने योग्य हैं)
यह आशा हाल ही में भी मदद करता है।


जरूरी नहीं कि सहसंबंध, Rm, नकारात्मक होगा? मैं नहीं देखता कि CHI 1 कैसे हो सकता है जब तक Rm 1 नहीं थे, लेकिन चूंकि col1 को बढ़ाया जा रहा है और Col2 को कम किया जा रहा है, आरएम <= 0 का अर्थ है, CHI मान [0, .5] में ले जाएगा। क्या मैं कुछ भूल रहा हूँ?
गुंग - को पुनः स्थापित मोनिका

हां Rm पॉजिटिव नहीं हो सकता है और CHI 1/2 को वास्तविक लाइन पर मान लेने वाले रैंडम वेरिएबल्स के डिस्ट्रीब्यूशन से अधिक नहीं हो सकता है। वास्तव में ऊपरी बाउंड 1 सामान्य सिद्धांत से आता है जो चिरल सूचकांक का परिचय देता है। यह अधिक सामान्य स्थान में मान लेने वाले यादृच्छिक चर के वितरण के लिए समझ में आता है। यह सिद्धांत वर्तमान चर्चा के दायरे से बाहर है, लेकिन यह उन दो वेब पृष्ठों में प्रस्तुत किया गया है जिनका मैंने पहले उल्लेख किया था।
पेटिटजेन 15

कृपया अपने खातों को पंजीकृत और / या मर्ज करें (आप हमारे सहायता केंद्र के मेरा खाता अनुभाग में यह कैसे करें के बारे में जानकारी पा सकते हैं ), फिर आप अपने प्रश्न पर संपादित और टिप्पणी कर सकेंगे।
गुंग - को पुनः स्थापित मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.