मुझे सामान्यता के लिए क्या जांचना चाहिए: कच्चा डेटा या अवशेष?


27

मैंने सीखा है कि मुझे कच्चे डेटा पर नहीं बल्कि उनके अवशेषों के बारे में सामान्यता के लिए परीक्षण करना चाहिए। क्या मुझे अवशिष्टों की गणना करनी चाहिए और फिर शापिरो-विलकस डब्ल्यू परीक्षण करना चाहिए?

क्या अवशेषों की गणना इस प्रकार की जाती है: ?एक्समैं-मतलब

कृपया मेरे डेटा और डिज़ाइन के लिए यह पिछला प्रश्न देखें ।


क्या आप सॉफ़्टवेयर का उपयोग कर रहे हैं (और यदि ऐसा है तो कौन सा सॉफ़्टवेयर) या आप हाथ से गणना करने की कोशिश कर रहे हैं?
क्रिस सिमोकत

@ क्रिस सिमोकत: मैं आर और स्टेटिस्टिका के साथ ऐसा करने की कोशिश कर रहा हूं ...
स्टेन

3
यह सवाल दिलचस्पी का हो सकता है: क्या-अगर-अवशिष्ट-सामान्य रूप से वितरित-लेकिन-वाई-नहीं है ; यह इस मुद्दे को भी शामिल करता है कि क्या कच्चे डेटा या अवशेषों के लिए सामान्यता की आवश्यकता है।
गंग -

1
क्षमा करें, मैं यह जानने के लिए पर्याप्त नहीं हूं कि विभिन्न स्थितियों में यह स्वचालित रूप से कैसे किया जाए। हालाँकि, जब आप एक प्रतिगमन चलाते हैं, तो आपको आउटपुट डेटासेट में अवशिष्टों को सहेजने में सक्षम होना चाहिए, और फिर एक qq- प्लॉट बनाया जा सकता है।
गंग -

1
करेन ग्रेस-मार्टिन द्वारा अच्छी जानकारी: यह और यह
स्टेन

जवाबों:


37

आपको सामान्यता के लिए परीक्षण क्यों करना चाहिए?

रैखिक प्रतिगमन में मानक धारणा यह है कि सैद्धांतिक अवशिष्ट स्वतंत्र और सामान्य रूप से वितरित होते हैं। अवलोकन किए गए अवशेष सैद्धांतिक अवशेषों का एक अनुमान हैं, लेकिन स्वतंत्र नहीं हैं (अवशेषों पर रूपांतरण हैं जो कुछ निर्भरता को दूर करते हैं, लेकिन अभी भी केवल सही अवशेषों का एक अनुमान देते हैं)। इसलिए देखे गए अवशेषों पर एक परीक्षण इस बात की गारंटी नहीं देता है कि सैद्धांतिक अवशेषों का मिलान होता है।

यदि सैद्धांतिक अवशिष्टों को सामान्य रूप से वितरित नहीं किया जाता है, लेकिन नमूना आकार काफी बड़ा है, तो केंद्रीय सीमा प्रमेय का कहना है कि सामान्य अनुमान (परीक्षण और आत्मविश्वास अंतराल, लेकिन जरूरी नहीं कि भविष्यवाणी अंतराल) सामान्यता की धारणा के आधार पर अभी भी लगभग सही होंगे। ।

यह भी ध्यान दें कि सामान्यता के परीक्षण नियम परीक्षण हैं, वे आपको बता सकते हैं कि डेटा के सामान्य वितरण से आने की संभावना नहीं है। लेकिन यदि परीक्षण महत्वपूर्ण नहीं है, तो इसका मतलब यह नहीं है कि डेटा एक सामान्य वितरण से आया है, इसका मतलब यह भी हो सकता है कि आपके पास अंतर देखने के लिए पर्याप्त शक्ति नहीं है। बड़े नमूना आकार गैर-सामान्यता का पता लगाने के लिए अधिक शक्ति देते हैं, लेकिन बड़े नमूने और सीएलटी का मतलब है कि गैर-सामान्यता कम से कम महत्वपूर्ण है। तो छोटे नमूना आकारों के लिए सामान्यता की धारणा महत्वपूर्ण है लेकिन परीक्षण व्यर्थ हैं, बड़े नमूना आकारों के लिए परीक्षण अधिक सटीक हो सकते हैं, लेकिन सटीक सामान्यता का प्रश्न अर्थहीन हो जाता है।

तो उपरोक्त सभी को मिलाकर, सटीक सामान्यता के परीक्षण से अधिक महत्वपूर्ण बात यह है कि डेटा के पीछे विज्ञान की समझ यह देखने के लिए है कि क्या जनसंख्या सामान्य से काफी करीब है। क्यूप्लॉट्स जैसे रेखांकन अच्छे निदान हो सकते हैं, लेकिन विज्ञान की समझ की भी आवश्यकता है। यदि यह चिंता है कि आउटलेयर के लिए बहुत अधिक तिरछा या क्षमता है, तो गैर-पैरामीट्रिक तरीके उपलब्ध हैं जिन्हें सामान्यता धारणा की आवश्यकता नहीं है।


6
पहली पंक्ति पर सवाल का जवाब देने के लिए: एनोवा में एफ-परीक्षण लागू करने और विभिन्न प्रकार के आस-पास आत्मविश्वास सीमा बनाने के लिए अनुमानित सामान्यता महत्वपूर्ण है। (+1) अच्छे विचारों के लिए।
whuber

4
@ वाउचर, हाँ अनुमानित सामान्यता महत्वपूर्ण है, लेकिन परीक्षण सटीक सामान्यता का परीक्षण करते हैं, अनुमानित नहीं। और बड़े नमूना आकारों के लिए जो अनुमानित नहीं है, बहुत करीब नहीं है (जहां परीक्षण अस्वीकार करने की संभावना है)। विज्ञान का एक अच्छा कथानक और ज्ञान, जो डेटा का उत्पादन करता है, सामान्यता के औपचारिक परीक्षण की तुलना में बहुत अधिक उपयोगी होता है यदि आप एफ-परीक्षण (या अन्य सामान्य आधारित इंजेक्शन) का उपयोग कर रहे हैं।
ग्रेग स्नो

ग्रेग, ओके मैं डिस्ट्रीब्यूशन फिटिंग का काम करता हूं और देखता हूं कि मेरा डेटा कहां से है, मुझे बीटा या गामा डिस्ट्रीब्यूशन और उसके बाद क्या करना चाहिए? एनोवा जो गौसियन कानून मानती है?
स्टेन

2
(+1) अंत में यह अच्छी तरह से चला गया। आपको सामान्य धारणा के आधार पर (ए) प्रतिगमन के बीच चयन करने की आवश्यकता नहीं है और (बी) गैर-पैरामीटर प्रक्रियाएं। प्रतिगमन और / या सामान्यीकृत रैखिक मॉडल से पहले रूपांतरण सिर्फ दो प्रमुख विकल्प हैं। मैं मानता हूं कि आप यहां सांख्यिकीय मॉडलिंग के बारे में संक्षेप में बताने की कोशिश नहीं कर रहे हैं, लेकिन अंतिम भाग को थोड़ा बढ़ाया जा सकता है।
निक कॉक्स

तो अंत में, रैखिक प्रतिगमन में, हमें कच्चे डेटा की सामान्यता या अवशिष्ट की सामान्यता के लिए परीक्षण करना चाहिए?
vasili111 21

7

गाऊसी असमानियाँ मॉडल से प्राप्त अवशेषों को संदर्भित करती हैं। मूल डेटा के बारे में कोई धारणा आवश्यक नहीं है। एक मामले के रूप में दैनिक बीयर की बिक्री का वितरण यहाँ छवि विवरण दर्ज करें। एक उचित मॉडल के बाद सप्ताह के दिन, छुट्टी / घटनाओं के प्रभाव, स्तर पारियों / समय के रुझान पर कब्जा कर लिया।यहाँ छवि विवरण दर्ज करें


आपके जवाब के लिए धन्यवाद। आप यह कहना चाहते हैं कि हम अपने डेटा को गौसियन वितरण में बदल सकते हैं ...?
stan

3
स्टेन, मॉडलिंग की भूमिका बिल्कुल वैसी ही है, जिससे अनुमान लगाया जा सके और परिकल्पना का परीक्षण किया जा सके।
आयरिशस्टैट

6

सबसे पहले आप "नेत्रगोलक इसे" एक का उपयोग कर सकते हैं QQ-भूखंड एक सामान्य समझ प्राप्त करने के लिए यहाँ है कैसे आर में एक उत्पन्न करने के लिए

आर मैनुअल के अनुसार आप अपने डेटा वेक्टर को सीधे शापिरो.टेस्ट () फ़ंक्शन में फीड कर सकते हैं।

यदि आप अवशिष्टों की गणना स्वयं करना चाहते हैं, तो प्रत्येक अवशिष्ट की गणना आपके अवलोकनों के सेट पर की जाती है। आप इसके बारे में अधिक यहाँ देख सकते हैं ।


इसलिए, जहाँ तक मुझे समझ में आया कि सामान्यता के तरीके वास्तव में हमारे कच्चे डेटा के अवशेषों की सामान्यता की जाँच करते हैं। वे स्वचालित रूप से करते हैं और हमें अवशिष्टों की गणना नहीं करनी चाहिए और उन्हें परीक्षण के अधीन करना चाहिए। और हर रोज़ के भाषण में हम आमतौर पर "मेरे डेटा को सामान्य रूप से वितरित करते हैं" मान लेते हैं कि मेरे डेटा के अवशेष "सामान्य" हैं। कृप्या मुझे सही करें।
स्टेन

6
मैं आपके अंतिम बिंदु से असहमत हूं। जो लोग कहते हैं कि मेरा डेटा सामान्य रूप से वितरित किया जाता है, वे आमतौर पर अवशेषों का जिक्र नहीं करते हैं। मुझे लगता है कि लोग कहते हैं कि क्योंकि उन्हें लगता है कि प्रत्येक सांख्यिकीय प्रक्रिया के लिए सभी डेटा सामान्य होना चाहिए।
ग्लेन

@ गेलन स्पष्ट रूप से मैं (झूठा) बोल रहा हूं, अब तक एक ही सोचें ... मैं समझ नहीं सकता (यह मेरी परेशानी है) अगर मेरे पास गामा या बीटा है या जो कुछ भी वितरित डेटा है, मुझे उनके लिए आंकड़े वैसे ही करना चाहिए जैसे वे सामान्य रूप से होते हैं उनके सही / प्राकृतिक वितरण के बावजूद वितरित? और वितरण का तथ्य केवल संकेत के लिए है? मैं इस साइट से पहले केवल गाऊसी वितरण को जानता हूं ...
स्टेन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.