टी-टेस्ट करने के लिए एक्सेल का उपयोग करके सामान्य वितरण की जांच कैसे करें?


21

मैं यह जानना चाहता हूं कि एक्सेल में सामान्यता के लिए सेट किए गए डेटा की जांच कैसे करें, बस यह सत्यापित करने के लिए कि टी-टेस्ट का उपयोग करने के लिए आवश्यकताओं को पूरा किया जा रहा है

सही पूंछ के लिए, क्या किसी माध्य और मानक विचलन की गणना करना उचित है, एक सीमा बनाने के लिए माध्य से 1, 2 और 3 मानक विचलन जोड़ें, फिर उपयोग करने के बाद मानक सामान्य वितरण के लिए सामान्य 68/95 / 99.7 से तुलना करें। हर मानक विचलन मूल्य का परीक्षण करने के लिए excel में norm.dist फ़ंक्शन।

या सामान्यता के लिए परीक्षण करने का एक बेहतर तरीका है?


जवाबों:


15

आपके पास सही विचार है। यह व्यवस्थित रूप से, व्यापक रूप से, और अपेक्षाकृत सरल गणनाओं के साथ किया जा सकता है। परिणामों के एक ग्राफ को सामान्य संभावना प्लॉट (या कभी-कभी पीपी प्लॉट) कहा जाता है। इससे आप अन्य चित्रमय अभ्यावेदन, विशेष रूप से हिस्टोग्राम में प्रकट होने की तुलना में बहुत अधिक विस्तार देख सकते हैं , और थोड़े अभ्यास के साथ आप अपने डेटा को फिर से व्यक्त करने के तरीकों को निर्धारित करने के लिए सीख सकते हैं, जहां वे वारंट किए गए हैं।

यहाँ एक उदाहरण है:

संभावना प्लॉट के साथ स्प्रेडशीट

डेटा कॉलम A(और नाम Data) में हैं। बाकी सभी गणना है, हालांकि आप प्लॉट के संदर्भ लाइन को फिट करने के लिए उपयोग किए जाने वाले "हिंज रैंक" मूल्य को नियंत्रित कर सकते हैं।

यह प्लॉट डेटा के मूल्यों की तुलना करने वाला एक स्कैप्लेट है जो एक मानक सामान्य वितरण से स्वतंत्र रूप से खींची गई संख्याओं द्वारा प्राप्त किया जाएगा। जब अंक विकर्ण के साथ ऊपर होते हैं, तो वे सामान्य के करीब होते हैं; क्षैतिज प्रस्थान (डेटा अक्ष के साथ) सामान्यता से प्रस्थान का संकेत देते हैं। इस उदाहरण में बिंदु उल्लेखनीय रूप से संदर्भ रेखा के करीब हैं; सबसे बड़ा प्रस्थान उच्चतम मूल्य पर होता है, जो पंक्ति के बाईं ओर लगभग इकाई है। इस प्रकार हम एक नज़र में देखते हैं कि ये डेटा सामान्य रूप से वितरित होने के बहुत करीब हैं, लेकिन शायद थोड़ा "प्रकाश" सही पूंछ है। टी-टेस्ट लागू करने के लिए यह पूरी तरह से ठीक है।1.5

ऊर्ध्वाधर अक्ष पर तुलनात्मक मान दो चरणों में गणना किए जाते हैं। सबसे पहले प्रत्येक डेटा मान से स्थान दिया गया है के माध्यम से , डेटा की मात्रा (में दिखाया सेल में क्षेत्र )। इन्हें आनुपातिक रूप से से मान में परिवर्तित किया जाता है । उपयोग करने के लिए एक अच्छा सूत्र (देखें कि http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm जहां से आता है।) फिर इन्हें मानक सामान्य मानों में फ़ंक्शन के माध्यम से परिवर्तित किया जाता है। ये मान स्तंभ में दिखाई देते हैं । दाईं ओर का प्लॉट XY स्कैप्लेट है1n0 1 ( रैंक - 1 / 6 ) / ( n + 2 / 3 )CountF201(rank1/6)/(n+2/3).NormSInvNormal scoreNormal Scoreडेटा के खिलाफ। (कुछ संदर्भों में आप इस प्लॉट का स्थानान्तरण देखेंगे, जो शायद अधिक स्वाभाविक है, लेकिन एक्सेल क्षैतिज अक्ष पर बाएं स्तंभ और ऊर्ध्वाधर अक्ष पर सबसे दाहिने स्तंभ को रखना पसंद करता है, इसलिए मैंने इसे ऐसा करने दिया जो इसे पसंद करता है। )

स्प्रेडशीट: सामान्य स्कोर गणना

(जैसा कि आप देख सकते हैं, मैंने माध्य और मानक विचलन साथ एक सामान्य वितरण से स्वतंत्र यादृच्छिक ड्रॉ के साथ इन आंकड़ों को सिम्युलेटेड किया । इसलिए यह कोई आश्चर्य की बात नहीं है कि संभावना प्लॉट इतना अच्छा दिखता है।) वास्तव में टाइप करने के लिए केवल दो सूत्र हैं। जो आप डेटा से मेल खाने के लिए नीचे की ओर फैलते हैं: वे कोशिकाओं में दिखाई देते हैं और सेल में गणना किए गए मूल्य पर भरोसा करते हैं । साजिश के अलावा, वास्तव में यह सब वहाँ है।52B2:C2CountF2

इस शीट का बाकी हिस्सा आवश्यक नहीं है, लेकिन यह कथानक को पहचानने के लिए सहायक है: यह एक संदर्भ रेखा का एक मजबूत अनुमान प्रदान करता है। यह कथानक के बाएँ और दाएँ से समान रूप से दो बिंदुओं को उठाकर और उन्हें एक रेखा से जोड़कर किया जाता है। उदाहरण में इन बिंदुओं के रूप में द्वारा निर्धारित, तीसरा निम्नतम और उच्चतम तीसरे हैं में , सेल । एक बोनस के रूप में, इसकी ढलान और अवरोधन क्रमशः डेटा के मानक विचलन और माध्य के मजबूत अनुमान हैं।3Hinge RankF3

संदर्भ रेखा को प्लॉट करने के लिए, दो चरम बिंदुओं की गणना की जाती है और प्लॉट में जोड़ा जाता है: उनकी गणना कॉलम I:J, लेबल Xऔर में होती है Y

स्प्रेडशीट: संदर्भ पंक्ति गणना


कर्नल बी में सूत्रों के लिए, क्या आप 1 को जोड़ने और 6 और 3 ("+ 1/6" और "+ 1/3") से विभाजित करने का कारण बताएंगे? इसके अलावा एक कारण है जिसे आपने हिंज रैंक सेल में 6 से विभाजित करने के लिए चुना है?

@ मिचेल अच्छा सवाल। 1/6100×1/6100×5/601/21/40.16, सामान्य वितरण के लिए 1 एसडी के अनुरूप।
whuber

सूत्र (रैंक + 1/6) / (n + 1/3) सममित प्रतीत नहीं होता क्योंकि हम अनुमान लगा सकते हैं। उदाहरण के लिए 3 के मध्य अवलोकन के साथ रैंक 2 है और यह मध्यम अवलोकन (0.5) के लिए लेने के लिए स्वाभाविक प्रतीत होने के बजाय 0.65 के संगत प्रतिशत का सुझाव देगा। क्या मुझे कुछ स्पष्ट याद आया? [मैंने देखा है कि Tukey ने विभिन्न स्थानों में (i-1/3) / (n + 1/3) सहित कुछ भिन्न सूत्रों का उपयोग किया है। आपके लिंक का सूत्र सामान्य (ia) / (n + 1-2a) योजना में फिट बैठता है, लेकिन आपके उत्तर में जो सूत्र आप देते हैं, वह नहीं है]
Glen_b -Reinstate Monica

ran+12a
r1na011/6(r1/6)/(n+2/3)a=1/3
व्हिबर

5

आप एक्सेल में डेटा विश्लेषण टूलपैक का उपयोग करके हिस्टोग्राम की साजिश कर सकते हैं । ग्राफिकल दृष्टिकोण गैर-सामान्यता की डिग्री को संप्रेषित करने की अधिक संभावना है, जो आम तौर पर धारणा परीक्षण के लिए अधिक प्रासंगिक है ( सामान्यता की इस चर्चा को देखें )।

एक्सेल में डेटा विश्लेषण टूलपैक भी आपको तिरछा और कुर्तोसिस देगा यदि आप वर्णनात्मक आंकड़े मांगते हैं और "सारांश आंकड़े" विकल्प चुनते हैं। उदाहरण के लिए आप ऊपर के तिरछापन के मूल्यों पर विचार कर सकते हैं या शून्य से एक सामान्य गैर-सामान्यता का एक रूप हो सकता है।

उस ने कहा, टी-परीक्षणों के साथ धारणा यह है कि अवशेषों को सामान्य रूप से वितरित किया जाता है न कि चर। इसके अलावा, वे काफी मजबूत भी हैं कि गैर-सामान्यता की काफी बड़ी मात्रा के साथ, पी-मूल्य अभी भी काफी वैध हैं।


4

सांख्यिकी सिद्धांत पर भी यह प्रश्न सीमाओं - सीमित डेटा के साथ सामान्यता के लिए परीक्षण संदिग्ध हो सकता है (हालांकि हम सभी ने समय-समय पर ऐसा किया है)।

एक विकल्प के रूप में, आप कुर्तोसिस और तिरछा गुणांक देख सकते हैं। से हैन और शापिरो: इंजीनियरिंग में सांख्यिकीय मॉडल कुछ पृष्ठभूमि गुण Beta1 और Beta2 (पृष्ठों 49 करने के लिए 42) और पृष्ठ की छवि 6-1 197. इसके पीछे अतिरिक्त सिद्धांत विकिपीडिया पर पाया जा सकता है (पियर्सन वितरण देखें) पर प्रदान की जाती है।

मूल रूप से आपको तथाकथित गुण बीटा 1 और बीटा 2 की गणना करने की आवश्यकता है। एक Beta1 = 0 और Beta2 = 3 से पता चलता है कि डेटा सेट सामान्यता का दृष्टिकोण है। यह एक मोटा परीक्षण है लेकिन सीमित आंकड़ों के साथ यह तर्क दिया जा सकता है कि किसी भी परीक्षण को एक मोटा माना जा सकता है।

बीटा 1 क्रमशः 2 और 3, या विचरण और तिरछापन से संबंधित है। Excel में, ये VAR और SKEW हैं। आपका डेटा सरणी कहां है, सूत्र है:

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2 क्रमशः 2 और 4 के क्षणों से संबंधित है, या विचरण और कुर्तोसिस , क्रमशः। एक्सेल में, ये VAR और KURT हैं। आपका डेटा सरणी कहां है, सूत्र है:

Beta2 = KURT(...)/VAR(...)^2

फिर आप क्रमशः 0 और 3 के मूल्यों के खिलाफ इनकी जांच कर सकते हैं। इसका संभावित रूप से अन्य वितरण (पियर्सन डिस्ट्रीब्यूशन I, I (U), I (J), II, II (U), III, IV, V, VI, VII) को पहचानने का लाभ है। उदाहरण के लिए, समान रूप से उपयोग किए जाने वाले कई वितरण जैसे कि यूनिफ़ॉर्म, नॉर्मल, स्टूडेंट के टी, बीटा, गामा, एक्सपोनेंशियल और लॉग-नॉर्म को इन गुणों से संकेत दिया जा सकता है:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

इनका वर्णन हैन और शापिरो अंजीर में 6-1 से किया गया है।

दी यह एक बहुत ही कठिन परीक्षण है (कुछ मुद्दों के साथ) लेकिन आप इसे और अधिक कठोर विधि में जाने से पहले एक प्रारंभिक जांच के रूप में विचार कर सकते हैं।

बीटा 1 और बीटा 2 की गणना के लिए समायोजन तंत्र भी हैं जहां डेटा सीमित है - लेकिन यह इस पद से परे है।


इस सामग्री का एक बहुत बड़े डेटासेट के लिए अच्छी तरह से काम कर सकता है और मैं आपके प्रारंभिक मूल्यांकन से सहमत हूं कि सामान्य परीक्षण केवल छोटे डेटासेट के साथ सीमित या संदिग्ध हो सकता है। लेकिन तिरछापन और कुर्तोसिस की विशाल परिवर्तनशीलता को देखते हुए , ऐसा लगता है कि इन आँकड़ों के आधार पर अंतर्निहित वितरण के प्रकार की पहचान करने का कोई भी प्रयास अधिक संदिग्ध और कम निश्चित होगा। नतीजतन, प्रारंभिक दृष्टिकोण के रूप में भी यह दृष्टिकोण (सबसे अच्छा) भ्रामक नहीं होगा?
व्हिबर

1
शायद आगे की विधि को योग्य बनाना सबसे अच्छा है: हैन और शापिरो (जैसा कि ऊपर उल्लेख किया गया है) सलाह देते हैं कि सावधानी बरतें, खासकर जब नमूना आकार 200 से कम हो - और यह अनुशंसा करें कि आगे सत्यापन के बाद, जैसे कि आवृत्ति तालिका। यह वास्तविक डेटा के साथ फिट वितरण की तुलना करता है। लेकिन मेरे विचार में यह एक उपयोगी तरीका है जो यह सुझाव दे सकता है कि डेटा संभावनाओं के एक दायरे में कहाँ स्थित हो सकता है। मैंने इसका उपयोग लगभग 3000 से छोटे नहीं डेटा सेट पर किया है और इसे कंप्यूटर सिमुलेशन सॉफ़्टवेयर में बनाया है जहाँ यह उपयोगी साबित हुआ है।
AsymLabs

मैं आपकी विधि को 3000 या अधिक से अधिक डेटासेट के साथ उपयोगी जानकारी दे सकता हूं। हालांकि, तब माध्य की टी-परीक्षण की प्रयोज्यता का आकलन करने के लिए वितरणीय परीक्षण करने की आवश्यकता नहीं है।
whuber

क्या कोई इसे एक उपयोगी तकनीक के रूप में देखता है, जैसा कि मैं करता हूं, या अन्यथा, जैसा कि आपका विचार प्रतीत होता है, यह फिर भी सामान्यता (और छात्र-टी आवेदन) के परीक्षण के लिए एक त्वरित और लंबे समय से स्थापित (पियर्सन द्वारा) विकल्प है। इस धागे का संदर्भ। कृपया मुझे गलत मत समझो, मैं स्वीकार करता हूं और आपकी चिंताओं से सहमत हूं। लेकिन हम दोनों सहमत होंगे, क्या हम बिना पूर्व सूचना के यह स्थापित करने की कोशिश करेंगे कि क्या एक पूरी आबादी को एक गौसियन पर एक बहुत ही छोटे डेटा नमूने से मॉडल किया जा सकता है, अंधेरे में किसी भी विधि से सबसे अच्छा शॉट है, और सबसे खराब है खतरनाक।
AsymLabs 15

1
ये सही है। मैं केवल इतना कह रहा हूं कि यदि यह परीक्षण करने के लिए खतरनाक है कि एक छोटे से नमूने से, यह परीक्षण करने के लिए कि क्या जनसंख्या गौसियन है, तो यह कम से कम उतना ही खतरनाक होना चाहिए जितना कि अंतर्निहित वितरण क्या हो सकता है यह पहचानने के लिए तिरछा और कुर्तो का उपयोग करना! वास्तव में, ऐसा लगता है कि ऐसा प्रयास वास्तव में बदतर होगा क्योंकि यह कर्टोसिस जैसे अस्थिर आंकड़ों पर निर्भर करता है। यद्यपि पीयरसन की प्रणाली लोगों को संभावित वितरण की पहचान करने में मदद करने के लिए एक शक्तिशाली मार्गदर्शक हो सकती है, लेकिन यह हिस्टोग्राम जैसे सीमित ग्राफिकल डिस्प्ले की तुलना में कम अंतर्दृष्टि प्रदान करती है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.