सामान्यता क्या है?


33

कई अलग-अलग सांख्यिकीय तरीकों में "सामान्यता की धारणा" है। "सामान्यता" क्या है और सामान्यता होने पर मुझे कैसे पता चलेगा?


2
क्या आपने पहले google / wikipedia आज़माया था? en.wikipedia.org/wiki/Normal_distribution
रॉबिन जिरार्ड

जवाबों:


29

सामान्यता की धारणा सिर्फ यह है कि ब्याज के अंतर्निहित यादृच्छिक चर को सामान्य रूप से वितरित किया जाता है , या लगभग ऐसा ही है। सहज रूप से, सामान्यता को बड़ी संख्या में स्वतंत्र यादृच्छिक घटनाओं के योग के रूप में समझा जा सकता है।

अधिक विशेष रूप से, सामान्य वितरण निम्नलिखित फ़ंक्शन द्वारा परिभाषित किए गए हैं:

वैकल्पिक शब्द

जहां और σ 2 , मतलब और विचरण कर रहे हैं क्रमशः, और जो रूप में प्रकट होता है:μσ2

वैकल्पिक शब्द

इसे कई तरीकों से जांचा जा सकता है , जो कि कमोबेश अपनी समस्याओं के अनुकूल हो सकता है, जैसे कि n का आकार। असल में, वे सभी सुविधाओं के लिए परीक्षण करते हैं यदि वितरण सामान्य था (उदाहरण के लिए अपेक्षित मात्रात्मक वितरण )।


33

एक नोट: सामान्यता की धारणा अक्सर आपके चर के बारे में नहीं होती है, लेकिन त्रुटि के बारे में होती है, जो अवशिष्ट द्वारा अनुमानित की जाती है। उदाहरण के लिए, रैखिक प्रतिगमन ; कोई धारणा नहीं है कि वाई सामान्य रूप से वितरित किया जाता है, केवल वह है।Y=+एक्स+Y


16
+1। अंत में किसी ने इंगित किया है कि शायद इस सवाल का सबसे महत्वपूर्ण पहलू क्या है: ज्यादातर स्थितियों में, "सामान्यता" अवशिष्टों या आंकड़ों के वितरण के नमूने के संबंध में महत्वपूर्ण है, न कि आबादी के वितरण के संबंध में!
whuber

4
मुझे लगता है कि अगर सामान्य रूप से वितरित किया जाता है, तो वाई कम से कम सशर्त रूप से सामान्य है। मुझे लगता है कि यह याद किया जाता है - लोगों को लगता है कि वाई मामूली सामान्य है, लेकिन इसकी वास्तव में सशर्त सामान्यता की आवश्यकता है। इसका सबसे सरल उदाहरण एक तरह से एनोवा है।
probabilityislogic

सशर्त रूप से किस पर?
बिल_इ २ bill

1
@bill_e स्वतंत्र चर
Glen_b -Reinstate Monica

10

एक संबंधित प्रश्न यहां त्रुटि की सामान्य धारणा के बारे में पाया जा सकता है (या आमतौर पर डेटा की अधिक जानकारी अगर हमें डेटा के बारे में पूर्व ज्ञान नहीं है)।

मूल रूप से,

  1. यह सामान्य वितरण का उपयोग करने के लिए गणितीय रूप से सुविधाजनक है। (यह लिस्ट स्क्वायर से संबंधित है और छद्म बिंदु से हल करना आसान है)
  2. केंद्रीय सीमा प्रमेय के कारण, हम मान सकते हैं कि प्रक्रिया को प्रभावित करने वाले बहुत सारे अंतर्निहित तथ्य हैं और इन व्यक्तिगत प्रभावों का योग सामान्य वितरण की तरह व्यवहार करेगा। व्यवहार में, ऐसा लगता है।

वहाँ से एक महत्वपूर्ण नोट यह है कि, जैसा कि टेरेंस ताओ ने यहां कहा है , "मोटे तौर पर, यह प्रमेय जोर देता है कि यदि कोई एक आँकड़ा लेता है जो कई स्वतंत्र और बेतरतीब उतार-चढ़ाव वाले घटकों का एक संयोजन होता है, जिसमें कोई भी घटक पूरे पर एक निर्णायक प्रभाव नहीं रखता है। , फिर उस आंकड़े को लगभग सामान्य वितरण नामक कानून के अनुसार वितरित किया जाएगा।

इसे स्पष्ट करने के लिए, मुझे एक पायथन कोड स्निपेट लिखना चाहिए

# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem

@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""

import scipy, scipy.stats
import numpy as np
import pylab

#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random

y = y / sum(y);

N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)

# Plotting details 
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])

#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
    y = np.convolve(y,y)
    y = y / sum(y);    

    x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
    ax = pylab.subplot(N+1,1,i+1)
    pylab.plot(x,y)
    ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
    ax.set_xticks([2**i * 10])
    ax.set_yticks([round(np.max(y),3)])

pylab.show()

यादृच्छिक वितरण

घातांकी रूप से वितरण

वर्दी वितरण

जैसा कि आंकड़ों से देखा जा सकता है, परिणामस्वरूप वितरण (योग) व्यक्तिगत वितरण प्रकारों की परवाह किए बिना एक सामान्य वितरण की ओर जाता है। इसलिए, यदि हमारे पास डेटा में अंतर्निहित प्रभावों के बारे में पर्याप्त जानकारी नहीं है, तो सामान्य धारणा उचित है।


1
सीएलटी हमें यह मानने की अनुमति नहीं देता है कि किसी भी प्रक्रिया में बहुत सारे व्यक्तिगत प्रभाव हैं - अगर हमें दिया जाता है कि माप में योगदान करने वाले बहुत सारे नहीं-निर्भर व्यक्तिगत कारक हैं (जिनमें से कोई भी कुल बहुत अधिक नहीं है भिन्नता), हम CLT को लागू करके सामान्यता मानने में उचित हो सकते हैं। कई योगदान की धारणा सीएलटी के आवेदन से पहले है, यह किसी भी मायने में सीएलटी का परिणाम नहीं है। अन्यथा सब कुछ सामान्य होगा, जब वास्तव में यह केवल कभी-कभी सच होता है।
Glen_b -Reinstate मोनिका

5

आप नहीं जान सकते कि सामान्यता है या नहीं और इसीलिए आपको एक धारणा बनानी होगी। आप केवल सांख्यिकीय परीक्षणों के साथ सामान्यता की अनुपस्थिति को साबित कर सकते हैं।

इससे भी बदतर, जब आप वास्तविक विश्व डेटा के साथ काम करते हैं तो यह लगभग निश्चित है कि आपके डेटा में सही सामान्यता नहीं है।

इसका मतलब है कि आपका सांख्यिकीय परीक्षण हमेशा थोड़ा पक्षपाती होता है। सवाल यह है कि क्या आप इसके साथ पक्षपात कर सकते हैं। ऐसा करने के लिए आपको अपने डेटा और उस तरह की सामान्यता को समझना होगा जो आपका सांख्यिकीय उपकरण मानता है।

यही कारण है कि फ्रीक्वेंटिस्ट टूल बायेसियन टूल के रूप में व्यक्तिपरक हैं। आप उस डेटा के आधार पर निर्धारित नहीं कर सकते हैं जो सामान्य रूप से वितरित किया गया है। आपको सामान्यता माननी होगी।


5
आप आँकड़ों का उपयोग करके कुछ भी साबित नहीं कर सकते। एक प्रमाण का मतलब सटीक होना है। सांख्यिकी संभावनाओं के बारे में है। यहां तक ​​कि एपी = 0.99 परिणाम में ची स्क्वार्ड "साबित" नहीं करता है कि अंतर्निहित वितरण सामान्य नहीं है। यह सिर्फ लानत है कि यह सामान्य नहीं है।
xmjx

@ xmjx: आप यह भी नहीं कह सकते हैं कि दिया गया वितरण संभवतः सामान्य वितरित है। यदि आपके पास एक वितरण है जहां आपके 99.99% मूल्य 1 हैं, लेकिन 0.01% आपके मान 1000000 एक सांख्यिकीय परीक्षण हैं, तो 100 मानों का नमूना आपको गलत तरीके से यह बताने का एक अच्छा मौका है कि आपका वितरण सामान्य रूप से वितरित किया गया है।
क्रिश्चियन

2
मैं एक सांख्यिकीय विशेषज्ञ के रूप में ज्यादा नहीं हूं, इसलिए यह एक मूर्खतापूर्ण प्रश्न की तरह लग सकता है ... क्या "वास्तविक सामान्यता" अंतर्निहित प्रक्रिया में मौजूद नहीं है जो डेटा के बजाय चर उत्पन्न करता है? यह एक मूर्खतापूर्ण भेद की तरह लग सकता है, लेकिन शायद यह कुछ आत्मा-खोज को बचा सकता है। यदि एकत्रित डेटा बिल्कुल सामान्य नहीं है, लेकिन अंतर्निहित यादृच्छिक प्रक्रिया मूल रूप से सामान्य तरीके से काम करती है, तो क्या वह स्थिति है जहां आप "पूर्वाग्रह के साथ जीने" का फैसला कर सकते हैं?
जोनाथन

@Christian - आपकी टिप्पणी है कि "... 100 मानों के पास एक अच्छा मौका है ..." मेरी हैकिंग से बिल्कुल भी पैदा नहीं हुआ है: x = c (rep (1,99), rep (1000000,1)); ks.test (x, pnorm)> सामान्यता की धारणा केएस टेस्ट द्वारा अभी भी "अस्वीकृत" है।
rolando2

मुझे यह उत्तर (+1) पसंद है लेकिन यह थोड़ा निराशावादी है कि सामान्यता की धारणा के साथ क्या किया जा सकता है। यह आमतौर पर किसी भी मॉडलिंग के लिए एक अच्छा प्रारंभिक बिंदु है, और आप सामान्य रूप से वितरित यादृच्छिक चर के मिश्रण या कार्यों को ले कर वितरण के एक बहुत व्यापक वर्ग के लिए सामान्य कर सकते हैं।
probabilityislogic

4

सामान्यता की धारणा यह मानती है कि आपका डेटा सामान्य रूप से वितरित किया जाता है (घंटी वक्र, या गाऊसी वितरण)। आप डेटा की साजिश रचने या कर्टोसिस के उपायों की जाँच करके (चोटी कितना तेज है) और तिरछापन (?) (यदि आधा से अधिक डेटा शिखर के एक तरफ है) की जाँच कर सकते हैं।


2
सामान्यता की धारणा को पूरा करने के लिए कुर्तोसिस और विषमता के कौन से स्तर स्वीकार्य हैं?
एक शेर

5
अधिकांश सांख्यिकीय विधियां सामान्यता मानती हैं, डेटा की नहीं, बल्कि एक यादृच्छिक यादृच्छिक मान लेते हैं, जैसे कि रेखीय प्रतिगमन में त्रुटि शब्द। जाँच में अवशिष्टों को देखना शामिल है, मूल डेटा को नहीं!

3

अन्य उत्तरों में शामिल है कि सामान्यता क्या है और सामान्यता परीक्षण विधियों का सुझाव दिया गया है। क्रिश्चियन ने कहा कि व्यवहार में पूर्ण सामान्यता मुश्किल से मौजूद है।

मैं इस बात पर प्रकाश डालता हूं कि सामान्यता से विचलन का मतलब यह नहीं है कि सामान्यता मानने वाले तरीकों का उपयोग नहीं किया जा सकता है, और सामान्यता परीक्षण बहुत उपयोगी नहीं हो सकता है।

  1. सामान्यता से विचलन आउटलेर के कारण हो सकता है जो डेटा संग्रह में त्रुटियों के कारण होता है। कई मामलों में डेटा संग्रह लॉग की जांच करने से आप इन आंकड़ों को ठीक कर सकते हैं और सामान्यता में अक्सर सुधार होता है।
  2. बड़े नमूनों के लिए एक सामान्यता परीक्षण सामान्यता से एक नगण्य विचलन का पता लगाने में सक्षम होगा।
  3. सामान्यता मानने वाले तरीके गैर-सामान्यता के लिए मजबूत हो सकते हैं और स्वीकार्य सटीकता के परिणाम दे सकते हैं। टी-टेस्ट को इस अर्थ में मजबूत माना जाता है, जबकि एफ परीक्षण स्रोत ( पर्मलिंक ) नहीं है । मजबूती के बारे में साहित्य की जांच करने के लिए एक विशिष्ट विधि के बारे में जानना सबसे अच्छा है।

1
मुझे लगता है कि सामान्यता एक अच्छी धारणा है इसका कारण यह है कि डेटा के उपयोग के सापेक्ष कमी के कारण - सामान्य वितरण के साथ अनुमान में केवल पहले दो क्षणों का उपयोग किया जाता है। यह कम से कम वर्गों के मॉडल की नैदानिक ​​जाँच को बहुत आसान बनाता है - मूल रूप से आप सिर्फ ऐसे आउटलेर की तलाश करते हैं जो पर्याप्त आँकड़ों को प्रभावित कर सके।
probabilityislogic

3

Y=μ+एक्सβ+εεσ2ε

इस तीन मान्यताओं में से, 2) और 3) ज्यादातर वासली 1 से अधिक महत्वपूर्ण हैं)! इसलिए आपको उनके साथ खुद को ज्यादा व्यस्त रखना चाहिए। जॉर्ज बॉक्स ने "" "की लाइन में कुछ कहा था" भिन्नताओं पर एक प्रारंभिक परीक्षण करने के बजाय एक समुद्री नाव में समुद्र में डालने की तरह है ताकि यह पता लगाया जा सके कि क्या महासागर लाइनर को बंदरगाह छोड़ने के लिए स्थितियां पर्याप्त रूप से शांत हैं! "- [बॉक्स," गैर -अनुमानों पर परीक्षण और परीक्षण ", 1953, बायोमेट्रिक 40, पीपी। 318-335]"

इसका मतलब यह है कि, असमान परिवर्तन बहुत चिंता का विषय है, लेकिन वास्तव में उनके लिए परीक्षण बहुत कठिन है, क्योंकि परीक्षण गैर-सामान्यता से इतने छोटे रूप से प्रभावित होते हैं कि साधनों के परीक्षण के लिए इसका कोई महत्व नहीं है। आज, असमान भिन्नताओं के लिए गैर-पैरामीट्रिक परीक्षण हैं जिनका उपयोग DEFINITELY किया जाना चाहिए।

संक्षेप में, अपने आप को असमान रूपांतरों के बारे में पहले से बताएं, फिर सामान्यता के बारे में। जब आपने उनके बारे में अपनी राय बना ली है, तो आप सामान्यता के बारे में सोच सकते हैं!

यहाँ अच्छी सलाह के एक बहुत है: http://rfd.uoregon.edu/files/rfd/StatisticalResources/glm10_homog_var.txt


मुझे पूरा यकीन है कि मेरी व्याख्या सही है। बॉक्स में इसके बारे में लंबाई में बॉक्स, हंटर और हंटर भी लिखा है: सांख्यिकी के लिए प्रयोगकर्ता जो मैंने पूरी तरह से पढ़ा है। लेकिन अब मैं देख रहा हूँ कि मैंने व्हाट्स के बारे में जो कुछ भी लिखा था उसका मतलब नहीं था, यह कहना चाहिए ... फिर सामान्यता के बारे में! असमान भिन्नताएं सामान्यता से बहुत अधिक महत्वपूर्ण हैं। बेशक, स्वतंत्रता सभी मान्यताओं की जननी है।
kjetil b halvorsen 22
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.