हम आम तौर पर पता है कि यह असंभव है के लिए एक चर जा करने के लिए वास्तव में सामान्य रूप से वितरित ...
सामान्य वितरण में असीम रूप से लंबी पूंछ होती है, जो किसी भी दिशा में फैली होती है - इन चरम सीमाओं में डेटा के बहुत दूर होने की संभावना नहीं है, लेकिन एक सच्चे सामान्य वितरण के लिए शारीरिक रूप से संभव है। उम्र के लिए, एक सामान्य रूप से वितरित मॉडल भविष्यवाणी करेगा कि औसत से ऊपर या नीचे 5 मानक विचलन वाले डेटा की गैर-शून्य संभावना है - जो शारीरिक रूप से असंभव उम्र के अनुरूप होगा, जैसे 0 या 150 से नीचे। (हालांकि यदि आप देखते हैं एक जनसंख्या पिरामिड , यह स्पष्ट नहीं है कि आप क्यों उम्मीद करेंगे कि उम्र लगभग समान रूप से पहले स्थान पर वितरित की जाएगी।) इसी तरह यदि आपके पास हाइट्स डेटा था, जो सहज रूप से अधिक "सामान्य-समान" वितरण का पालन कर सकता है, तो यह केवल सही मायने में हो सकता है। सामान्य है अगर 0 सेमी से नीचे या 300 सेमी से अधिक ऊंचाइयों की कुछ संभावना थी।
मैंने कभी-कभी यह देखा है कि यह सुझाव दिया गया है कि हम इस समस्या को डेटा के माध्यम से शून्य कर सकते हैं। इस तरह सकारात्मक और नकारात्मक "केंद्रित उम्र" दोनों संभव हैं। लेकिन यद्यपि यह दोनों नकारात्मक मानों को भौतिक रूप से प्रशंसनीय और व्याख्या करने योग्य बनाता है (नकारात्मक केंद्रित मान इस मायने में नीचे झूठ बोल रहे हैं), यह इस मुद्दे के आसपास नहीं मिलता है कि सामान्य मॉडल गैर-शून्य संभावना के साथ शारीरिक रूप से असंभव भविष्यवाणियों का उत्पादन करेगा, एक बार जब आप एक "वास्तविक उम्र" के लिए मॉडल "केंद्रित उम्र" को डिकोड करें।
... तो परीक्षण क्यों परेशान? भले ही सटीक न हो, फिर भी सामान्यता एक उपयोगी मॉडल हो सकती है
महत्वपूर्ण सवाल वास्तव में यह नहीं है कि क्या डेटा बिल्कुल सामान्य हैं - हम एक प्राथमिकता जानते हैं कि मामला नहीं हो सकता है, ज्यादातर स्थितियों में, यहां तक कि एक परिकल्पना परीक्षण चलाने के बिना - लेकिन क्या सन्निकटन आपकी आवश्यकताओं के लिए पर्याप्त रूप से बंद है । प्रश्न देखें सामान्यता परीक्षण अनिवार्य रूप से बेकार है? सामान्य वितरण कई उद्देश्यों के लिए एक सुविधाजनक सन्निकटन है। यह शायद ही कभी "सही" होता है - लेकिन यह आम तौर पर उपयोगी होने के लिए बिल्कुल सही नहीं होता है। मुझे उम्मीद है कि सामान्य वितरण आमतौर पर लोगों की ऊंचाइयों के लिए एक उचित मॉडल होगा, लेकिन सामान्य वितरण के लिए लोगों के युग के मॉडल के रूप में समझ बनाने के लिए अधिक असामान्य संदर्भ की आवश्यकता होगी।
यदि आप वास्तव में एक सामान्यता परीक्षण करने की आवश्यकता महसूस करते हैं, तो कोलमोगोरोव-स्मिरनोव शायद सबसे अच्छा विकल्प नहीं है: जैसा कि टिप्पणियों में उल्लेख किया गया है, अधिक शक्तिशाली परीक्षण उपलब्ध हैं। शापिरो-विल्क में संभावित विकल्पों की एक श्रृंखला के खिलाफ अच्छी शक्ति है, और इसका फायदा है कि आपको पहले से इसका सही मतलब और भिन्नता जानने की आवश्यकता नहीं है । लेकिन सावधान रहें कि छोटे नमूनों में, सामान्यता से संभावित रूप से काफी बड़े विचलन अभी भी चल नहीं सकते हैं, जबकि बड़े नमूनों में, यहां तक कि सामान्य से बहुत छोटे (और व्यावहारिक उद्देश्यों के लिए, अप्रासंगिक) विचलन के रूप में "अत्यधिक महत्वपूर्ण" (कम पी ) दिखाने की संभावना है -value)।
"बेल के आकार का" जरूरी सामान्य नहीं है
ऐसा लगता है कि आपको "घंटी के आकार का" डेटा के बारे में कहा गया है - सममित डेटा जो बीच में चोटियों और पूंछ में कम संभावना है - जैसा कि "सामान्य" है। लेकिन सामान्य वितरण को अपने चरम और पूंछ के लिए एक विशिष्ट आकार की आवश्यकता होती है। पहली नज़र में एक समान आकार के साथ अन्य वितरण हैं, जिन्हें आपने "घंटी के आकार" के रूप में भी देखा हो सकता है, लेकिन जो सामान्य नहीं हैं। जब तक आपके पास बहुत अधिक डेटा नहीं होता है, तो आप यह भेद करने में सक्षम होने की संभावना नहीं रखते हैं कि "यह इस ऑफ-द-शेल्फ वितरण जैसा दिखता है, लेकिन दूसरों की तरह नहीं"। और यदि आपके पास बहुत अधिक डेटा है, तो आप पाएंगे कि यह बिल्कुल "ऑफ-द-शेल्फ" वितरण की तरह नहीं दिखता है ! लेकिन उस मामले में कई उद्देश्यों के लिए आप '
सामान्य वितरण "घंटी आकार" आप के लिए उपयोग किया जाता है; कॉची एक तेज शिखर और "भारी" (यानी अधिक संभावना से युक्त) पूंछ है; टी वितरण स्वतंत्रता की 5 डिग्री के साथ में बीच में कहीं आता है (सामान्य है टी के साथ अनंत df और कॉची है टी , 1 df के साथ इतना है कि बनाता है भावना); लाप्लास या डबल घातीय वितरण पीडीएफ दो पुनः पैमाना घातीय वितरण बैक-टू-बैक, सामान्य वितरण की तुलना में एक तेज शिखर में जिसके परिणामस्वरूप से गठन किया है; बीटा वितरणयह बिलकुल अलग है - इसमें तेज कट-ऑफ के बजाय अनंत की ओर सिर नहीं होता है, लेकिन यह अभी भी बीच में "कूबड़" आकार ले सकता है। वास्तव में मापदंडों के साथ खेलने के द्वारा, आप एक प्रकार का "तिरछा कूबड़" भी प्राप्त कर सकते हैं, या यहां तक कि "यू" आकार भी - लिंक किए गए विकिपीडिया पृष्ठ पर गैलरी उस वितरण के लचीलेपन के बारे में काफी शिक्षाप्रद है। अंत में, त्रिकोणीय वितरण एक सीमित समर्थन पर एक और सरल वितरण है, जिसे अक्सर जोखिम मॉडलिंग में उपयोग किया जाता है।
यह संभावना है कि इनमें से कोई भी वितरण आपके डेटा का बिल्कुल वर्णन नहीं करता है, और समान आकार वाले बहुत से अन्य वितरण मौजूद हैं, लेकिन मैं इस गलत धारणा को संबोधित करना चाहता था कि "बीच में गुनगुना और लगभग सममित सामान्य का मतलब है"। चूंकि आयु डेटा पर भौतिक सीमाएं हैं, यदि आपका आयु डेटा बीच में "humped" है, तो यह अभी भी बीटा जैसे परिमित समर्थन के साथ वितरण संभव है या यहां तक कि त्रिकोणीय वितरण भी सामान्य की तरह अनंत पूंछ वाले एक से बेहतर मॉडल साबित हो सकता है। ध्यान दें कि यदि आपका डेटा वास्तव में सामान्य रूप से वितरित किया गया था, तब तक आपका हिस्टोग्राम अभी भी क्लासिक "घंटी" से मिलता-जुलता नहीं है, जब तक कि आपका नमूना आकार काफी बड़ा न हो। यहां तक कि लाप्लास जैसे वितरण से एक नमूना, जिसका पीडीएफ स्पष्ट रूप से अपने पुच्छ के कारण सामान्य से अलग है,
आर कोड
par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)")
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy")
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df")
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)")
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")
par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}
# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)