यदि मेरा हिस्टोग्राम घंटी के आकार का वक्र दिखाता है, तो क्या मैं कह सकता हूं कि मेरा डेटा सामान्य रूप से वितरित किया गया है?

मैंने रिस्पोंडेंट एज के लिए एक हिस्टोग्राम बनाया और एक बहुत अच्छा घंटी के आकार का वक्र प्राप्त करने में कामयाब रहा, जिससे मैंने निष्कर्ष निकाला कि वितरण सामान्य है।

फिर मैंने n = 169 के साथ SPSS में सामान्यता परीक्षण चलाया । कोलमोगोरोव-स्मिरनोव परीक्षण का p -value (Sig) 0.05 से कम है और इसलिए डेटा ने सामान्यता की धारणा का उल्लंघन किया है।

परीक्षण से संकेत मिलता है कि आयु वितरण सामान्य नहीं है, लेकिन हिस्टोग्राम ने घंटी के आकार का वक्र दिखाया, जो मेरी समझ से सामान्य है? मुझे किस परिणाम का पालन करना चाहिए?

— NoraNorad
स्रोत

आप सामान्यता का परीक्षण क्यों कर रहे हैं?

— Glen_b -Reinstate मोनिका

के अलावा @ Glen_b उत्तम टिप्पणी और Aksakal के समान रूप से उत्कृष्ट जवाब , टिप्पणी भी निरंतर वितरण के लिए, के एस जरूरी है कि मतलब और एसडी जा पहले से भी जाना जाता है , डेटा से अनुमान नहीं। यह अनिवार्य रूप से केएस परीक्षण को बेकार बनाता है। "कोलमोगोरोव-स्मिरनोव परीक्षण केवल एक ऐतिहासिक जिज्ञासा है। इसका इस्तेमाल कभी नहीं किया जाना चाहिए।" (डी'ऑगस्टीनो डी'गोस्टीनो और स्टीफेंस, संस्करण, 1986)। यदि बिल्कुल भी, इसके बजाय शापिरो-विल्क्स का उपयोग करें।

— स्टीफन कोलासा

@ स्टेफान कोलासा अच्छी सलाह, लेकिन आपका मतलब शापिरो-विल्क से है। (एमबी विल्क और एसएस विल्क्स के सुझाव अक्सर भ्रमित या भ्रमित होते हैं; यहां अंग्रेजी में प्रयोग के रूप में अजीब का उपयोग भ्रम की स्थिति में भी योगदान दे सकता है, यहां तक कि कई के लिए जो अपनी पहली भाषा के रूप में अंग्रेजी है।)

— निक कॉक्स

@StephanKolassa की टिप्पणी से संबंधित, देखें क्या शापिरो- विलक सर्वश्रेष्ठ सामान्यता परीक्षण है? ... जवाब यह है कि यह जरूरी नहीं है कि आप किस विकल्प में रुचि रखते हैं, इस पर निर्भर करता है, लेकिन यह अक्सर एक अच्छा विकल्प है।

— सिल्वरफिश

जवाबों:

हम आम तौर पर पता है कि यह असंभव है के लिए एक चर जा करने के लिए वास्तव में सामान्य रूप से वितरित ...

सामान्य वितरण में असीम रूप से लंबी पूंछ होती है, जो किसी भी दिशा में फैली होती है - इन चरम सीमाओं में डेटा के बहुत दूर होने की संभावना नहीं है, लेकिन एक सच्चे सामान्य वितरण के लिए शारीरिक रूप से संभव है। उम्र के लिए, एक सामान्य रूप से वितरित मॉडल भविष्यवाणी करेगा कि औसत से ऊपर या नीचे 5 मानक विचलन वाले डेटा की गैर-शून्य संभावना है - जो शारीरिक रूप से असंभव उम्र के अनुरूप होगा, जैसे 0 या 150 से नीचे। (हालांकि यदि आप देखते हैं एक जनसंख्या पिरामिड , यह स्पष्ट नहीं है कि आप क्यों उम्मीद करेंगे कि उम्र लगभग समान रूप से पहले स्थान पर वितरित की जाएगी।) इसी तरह यदि आपके पास हाइट्स डेटा था, जो सहज रूप से अधिक "सामान्य-समान" वितरण का पालन कर सकता है, तो यह केवल सही मायने में हो सकता है। सामान्य है अगर 0 सेमी से नीचे या 300 सेमी से अधिक ऊंचाइयों की कुछ संभावना थी।

मैंने कभी-कभी यह देखा है कि यह सुझाव दिया गया है कि हम इस समस्या को डेटा के माध्यम से शून्य कर सकते हैं। इस तरह सकारात्मक और नकारात्मक "केंद्रित उम्र" दोनों संभव हैं। लेकिन यद्यपि यह दोनों नकारात्मक मानों को भौतिक रूप से प्रशंसनीय और व्याख्या करने योग्य बनाता है (नकारात्मक केंद्रित मान इस मायने में नीचे झूठ बोल रहे हैं), यह इस मुद्दे के आसपास नहीं मिलता है कि सामान्य मॉडल गैर-शून्य संभावना के साथ शारीरिक रूप से असंभव भविष्यवाणियों का उत्पादन करेगा, एक बार जब आप एक "वास्तविक उम्र" के लिए मॉडल "केंद्रित उम्र" को डिकोड करें।

... तो परीक्षण क्यों परेशान? भले ही सटीक न हो, फिर भी सामान्यता एक उपयोगी मॉडल हो सकती है

महत्वपूर्ण सवाल वास्तव में यह नहीं है कि क्या डेटा बिल्कुल सामान्य हैं - हम एक प्राथमिकता जानते हैं कि मामला नहीं हो सकता है, ज्यादातर स्थितियों में, यहां तक कि एक परिकल्पना परीक्षण चलाने के बिना - लेकिन क्या सन्निकटन आपकी आवश्यकताओं के लिए पर्याप्त रूप से बंद है । प्रश्न देखें सामान्यता परीक्षण अनिवार्य रूप से बेकार है? सामान्य वितरण कई उद्देश्यों के लिए एक सुविधाजनक सन्निकटन है। यह शायद ही कभी "सही" होता है - लेकिन यह आम तौर पर उपयोगी होने के लिए बिल्कुल सही नहीं होता है। मुझे उम्मीद है कि सामान्य वितरण आमतौर पर लोगों की ऊंचाइयों के लिए एक उचित मॉडल होगा, लेकिन सामान्य वितरण के लिए लोगों के युग के मॉडल के रूप में समझ बनाने के लिए अधिक असामान्य संदर्भ की आवश्यकता होगी।

यदि आप वास्तव में एक सामान्यता परीक्षण करने की आवश्यकता महसूस करते हैं, तो कोलमोगोरोव-स्मिरनोव शायद सबसे अच्छा विकल्प नहीं है: जैसा कि टिप्पणियों में उल्लेख किया गया है, अधिक शक्तिशाली परीक्षण उपलब्ध हैं। शापिरो-विल्क में संभावित विकल्पों की एक श्रृंखला के खिलाफ अच्छी शक्ति है, और इसका फायदा है कि आपको पहले से इसका सही मतलब और भिन्नता जानने की आवश्यकता नहीं है । लेकिन सावधान रहें कि छोटे नमूनों में, सामान्यता से संभावित रूप से काफी बड़े विचलन अभी भी चल नहीं सकते हैं, जबकि बड़े नमूनों में, यहां तक कि सामान्य से बहुत छोटे (और व्यावहारिक उद्देश्यों के लिए, अप्रासंगिक) विचलन के रूप में "अत्यधिक महत्वपूर्ण" (कम पी ) दिखाने की संभावना है -value)।

"बेल के आकार का" जरूरी सामान्य नहीं है

ऐसा लगता है कि आपको "घंटी के आकार का" डेटा के बारे में कहा गया है - सममित डेटा जो बीच में चोटियों और पूंछ में कम संभावना है - जैसा कि "सामान्य" है। लेकिन सामान्य वितरण को अपने चरम और पूंछ के लिए एक विशिष्ट आकार की आवश्यकता होती है। पहली नज़र में एक समान आकार के साथ अन्य वितरण हैं, जिन्हें आपने "घंटी के आकार" के रूप में भी देखा हो सकता है, लेकिन जो सामान्य नहीं हैं। जब तक आपके पास बहुत अधिक डेटा नहीं होता है, तो आप यह भेद करने में सक्षम होने की संभावना नहीं रखते हैं कि "यह इस ऑफ-द-शेल्फ वितरण जैसा दिखता है, लेकिन दूसरों की तरह नहीं"। और यदि आपके पास बहुत अधिक डेटा है, तो आप पाएंगे कि यह बिल्कुल "ऑफ-द-शेल्फ" वितरण की तरह नहीं दिखता है ! लेकिन उस मामले में कई उद्देश्यों के लिए आप '

"घंटी के आकार" के वितरण की गैलरी

सामान्य वितरण "घंटी आकार" आप के लिए उपयोग किया जाता है; कॉची एक तेज शिखर और "भारी" (यानी अधिक संभावना से युक्त) पूंछ है; टी वितरण स्वतंत्रता की 5 डिग्री के साथ में बीच में कहीं आता है (सामान्य है टी के साथ अनंत df और कॉची है टी , 1 df के साथ इतना है कि बनाता है भावना); लाप्लास या डबल घातीय वितरण पीडीएफ दो पुनः पैमाना घातीय वितरण बैक-टू-बैक, सामान्य वितरण की तुलना में एक तेज शिखर में जिसके परिणामस्वरूप से गठन किया है; बीटा वितरणयह बिलकुल अलग है - इसमें तेज कट-ऑफ के बजाय अनंत की ओर सिर नहीं होता है, लेकिन यह अभी भी बीच में "कूबड़" आकार ले सकता है। वास्तव में मापदंडों के साथ खेलने के द्वारा, आप एक प्रकार का "तिरछा कूबड़" भी प्राप्त कर सकते हैं, या यहां तक कि "यू" आकार भी - लिंक किए गए विकिपीडिया पृष्ठ पर गैलरी उस वितरण के लचीलेपन के बारे में काफी शिक्षाप्रद है। अंत में, त्रिकोणीय वितरण एक सीमित समर्थन पर एक और सरल वितरण है, जिसे अक्सर जोखिम मॉडलिंग में उपयोग किया जाता है।

यह संभावना है कि इनमें से कोई भी वितरण आपके डेटा का बिल्कुल वर्णन नहीं करता है, और समान आकार वाले बहुत से अन्य वितरण मौजूद हैं, लेकिन मैं इस गलत धारणा को संबोधित करना चाहता था कि "बीच में गुनगुना और लगभग सममित सामान्य का मतलब है"। चूंकि आयु डेटा पर भौतिक सीमाएं हैं, यदि आपका आयु डेटा बीच में "humped" है, तो यह अभी भी बीटा जैसे परिमित समर्थन के साथ वितरण संभव है या यहां तक कि त्रिकोणीय वितरण भी सामान्य की तरह अनंत पूंछ वाले एक से बेहतर मॉडल साबित हो सकता है। ध्यान दें कि यदि आपका डेटा वास्तव में सामान्य रूप से वितरित किया गया था, तब तक आपका हिस्टोग्राम अभी भी क्लासिक "घंटी" से मिलता-जुलता नहीं है, जब तक कि आपका नमूना आकार काफी बड़ा न हो। यहां तक कि लाप्लास जैसे वितरण से एक नमूना, जिसका पीडीएफ स्पष्ट रूप से अपने पुच्छ के कारण सामान्य से अलग है,

विभिन्न नमूना आकारों के सामान्य और लाप्लास नमूने

आर कोड

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)

— silverfish
स्रोत

आयु सामान्य वितरण से नहीं हो सकती। तार्किक रूप से सोचें: आपके पास नकारात्मक आयु नहीं हो सकती है, फिर भी सामान्य वितरण नकारात्मक संख्याओं के लिए अनुमति देता है।

वहाँ घंटी के आकार के कई वितरण हैं। अगर कोई चीज बेल के आकार की दिखती है तो इसका मतलब यह नहीं है कि उसे सामान्य होना चाहिए।

आँकड़ों में किसी भी चीज़ के लिए निश्चित रूप से जानने का कोई तरीका नहीं है, जिसमें से डेटा का वितरण शामिल है। आकार एक सुराग है: बेल-आकार सामान्य वितरण के लिए एक तर्क है। साथ ही, आपके डेटा को समझना बहुत महत्वपूर्ण है। आयु जैसे चर को अक्सर तिरछा किया जाता है, जो सामान्यता को दर्शाता है। जैसा कि उल्लेख किया गया है कि सामान्य वितरण की कोई सीमा नहीं है, लेकिन इसका उपयोग कभी-कभी बंधे चर के लिए किया जाता है। उदाहरण के लिए, यदि औसत आयु 20 वर्ष है, और मानक विचलन 1 है, तो उम्र की संभावना <17 या> 23 0.3% से कम है। तो, यह सामान्य वितरण की तुलना में एक अच्छा अनुमान हो सकता है ।

आप जर्क-बेरा जैसी सामान्यता के लिए एक सांख्यिकीय परीक्षण चलाने की कोशिश कर सकते हैं, जो नमूने के तिरछापन और कुर्तोसिस को ध्यान में रखता है। कर्टोसिस कुछ मामलों में महत्वपूर्ण हो सकता है। यह वित्त में बहुत महत्वपूर्ण है, क्योंकि यदि आप डेटा को सामान्य वितरण के साथ मॉडल करते हैं, लेकिन डेटा वास्तव में वसा-पूंछित वितरण से है, तो आप परिसंपत्तियों के जोखिम और कीमतों को कम करके आंका जा सकता है।

यह आपकी मदद करेगा कुछ वर्णनात्मक आँकड़े या अपनी उम्र और ऊंचाई के आंकड़ों का एक हिस्टोग्राम, जैसे कि मीन, विचरण, तिरछापन, कुर्तोसिस।

— Aksakal
स्रोत

आपकी मदद के लिए धन्यवाद, क्या आप मुझे बता सकते हैं कि कैसे पता चलेगा कि आपके उत्तर में उदाहरण के लिए कुछ डेटा सामान्य वितरण से आता है, कहा गया है कि उम्र सामान्य वितरण से नहीं हो सकती है, ऊंचाई जैसे अन्य डेटा के बारे में क्या है। क्या मानदंड हैं जो मुझे चाहिए know.i मैं इस बारे में अधिक जानना चाहता हूं क्योंकि ऐसा लगता है कि मैंने इस अवधारणा को गलत समझा है क्योंकि मैं इस के लिए नया हूं। फिर से धन्यवाद।

— नोरनाड

फिर भी, सामान्य वितरण का उपयोग अक्सर उम्र के रूप में ऐसे चर के लिए एक सन्निकटन के रूप में किया जाता है । और यह वास्तव में एक समस्या नहीं है क्योंकि आप के age_centredरूप में परिभाषित कर सकते हैं age - mean(age)और आपके पास कुछ मानक विचलन, सकारात्मक और नकारात्मक मूल्यों के साथ 0 के साथ चर है। इसलिए मैं इसके बारे में इतना सख्त नहीं होगा।

— टिम

आपके पास लोगों के लिए नकारात्मक ऊँचाई नहीं हो सकती है, लेकिन यह मेरे लिए एक बाधा नहीं होगी कि यदि वह एक अच्छा सन्निकटन हो तो ऊँचाई को सामान्य रूप से वितरित करने में बाधा होगी। उस मामले के लिए, माप के लिए अनंत सीमा वाले किसी भी वितरण का उपयोग क्यों करें जो केवल परिमित हो सकता है? जैसा कि @ टिम कहता है, यह सभी अनुमानित आंकड़ों का मामला है और डेटा को उद्देश्य दिया गया है।

— निक कॉक्स

मैं मानता हूं कि कभी-कभी बाउंड डेटा के लिए सामान्य वितरण एक अच्छा सन्निकटन हो सकता है , लेकिन सवाल यह था कि डेटा सामान्य से है या नहीं।

— अक्कल

हाई स्कूल से वरिष्ठों को स्नातक करने की उम्र को आम तौर पर वितरित किया जा सकता है और नकारात्मक मूल्यों पर भी लिया जा सकता है, अगर इसका मतलब @Tim के रूप में केंद्रित है।

— ui_90jax