यदि मेरा डेटा असतत या निरंतर है तो परीक्षण कैसे करें?


11

यह मुझे लगता है कि सही सांख्यिकीय उपकरण चुनने के लिए, मुझे सबसे पहले यह पहचानना होगा कि मेरे डेटासेट असतत हैं या निरंतर।

क्या आप मुझे यह सिखाने के लिए मन बना सकते हैं कि मैं कैसे परीक्षण कर सकता हूं कि डेटा असतत है या आर के साथ निरंतर है?


क्या आपका मतलब है कि एक प्रतिगमन प्रकार के मॉडल में कुछ चरों को निरंतर या श्रेणीबद्ध (असतत) भविष्यवाणियों के रूप में जोड़ा जाना चाहिए?
निक सबबे

कैसे डेटा एकत्र किया गया था और कैसे चर रिकॉर्ड किए गए थे, संभवतः आपको इसके बारे में कुछ सुराग देगा; इसके अलावा, यह इस बात पर निर्भर करने की संभावना है कि क्या आप अपने डेटा को निरंतर या असतत लोगों के रूप में मॉडल करना चाहते हैं (उदाहरण के लिए, लिकर्ट आइटम से संबंधित प्रश्न और असतत तराजू विश्लेषण)। असंबंधित बिंदु: यह अच्छा होगा यदि आप अपने खाते को एक बार सभी के लिए पंजीकृत कर सकते हैं, और शायद जवाब स्वीकार करने या अपने पहले के प्रश्नों को संशोधित करने पर विचार करें।
CHL

एक qqnorm करते हैं और यदि अंक विकर्ण के साथ सभी डेटा निरंतर हैं (यदि यह भयावह लाइनों में है तो यह असतत है)
user222362

जवाबों:


14

एकमात्र कारण जिसे मैं तुरंत इस निर्णय की आवश्यकता के बारे में सोच सकता हूं, वह यह है कि एक प्रतिगमन में निरंतर या श्रेणीबद्ध के रूप में एक चर के समावेश पर निर्णय लिया जाए।

सबसे पहले, कभी-कभी आपके पास कोई विकल्प नहीं होता है: चरित्र चर, या कारक (जहां कोई व्यक्ति डेटा प्रदान करता है। आपके लिए निर्णय लिया है) स्पष्ट रूप से श्रेणीबद्ध हैं।

जो हमें संख्यात्मक चर के साथ छोड़ देता है। आपको बस यह जांचने के लिए लुभाया जा सकता है कि क्या चर पूर्णांक हैं, लेकिन यह एक अच्छा मानदंड नहीं है: नीचे दिए गए कोड की पहली पंक्ति को देखें ( x1): ये केवल दो मानों और 1000 अवलोकन हैं : भले ही ये हैं पूर्णांक नहीं, यह एक स्पष्ट श्रेणीगत चर लगता है। आप कुछ के लिए क्या कर सकते हैं यह जांचें कि आपके डेटा में कितने अलग-अलग मूल्य हैं, हालांकि इसके लिए आप जिस भी सीमा का उपयोग कर सकते हैं वह व्यक्तिपरक होगा, मुझे लगता है:2.51.52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

मैं यह कहना चाहूंगा कि एक चर जिसमें केवल 5% अद्वितीय मूल्य हैं उन्हें सुरक्षित रूप से असतत कहा जा सकता है (लेकिन, जैसा कि उल्लेख किया गया है: यह व्यक्तिपरक है)। हालाँकि: यह इसे आपके मॉडल में एक श्रेणीगत चर के रूप में शामिल करने के लिए एक अच्छा उम्मीदवार नहीं बनाता है: यदि आपके पास 1000000 अवलोकन हैं, और 5% अद्वितीय मूल्य हैं, जो अभी भी 50000 'श्रेणियां' छोड़ता है: यदि आप इसे श्रेणीबद्ध के रूप में शामिल करते हैं, तो आप ' स्वतंत्रता की बहुत सारी डिग्री का एक नरक खर्च करने जा रहे हैं।

मुझे लगता है कि यह कॉल और भी अधिक व्यक्तिपरक है, और नमूना आकार और पसंद की विधि पर बहुत निर्भर करता है। अधिक संदर्भ के बिना, यहां दिशानिर्देश देना कठिन है।

तो अब आपके पास शायद कुछ चर हैं जिन्हें आप अपने मॉडल में श्रेणीबद्ध के रूप में जोड़ सकते हैं। लेकिन आपको करना चाहिए ? इस प्रश्न का उत्तर दिया जा सकता है (हालांकि यह वास्तव में, फिर से, आपके लक्ष्य पर निर्भर करता है) एक संभावना अनुपात परीक्षण के साथ: जिस मॉडल में वैरिएबल श्रेणीबद्ध होता है वह एक निरंतर कोवरिएट के रूप में चर के साथ मॉडल का एक सुपर मॉडल है। इसे देखने के लिए, एक वैरिएबल पर एक रेखीय प्रतिगमन की कल्पना करें xजो तीन मान रखता है 0, 1और 2। मॉडल फिट करना: जहां एक डमी वैरिएबल इंडिकेटर है (यह 1 के बराबर है अगर ) सिर्फ एक अधिक लचीला है एक मॉडल को फिट करने का तरीका एक्स मैं एक्स = = मैं [ y ] = β 0 + β 1 एक्स [ y ] = β 0 + β 1 एक्स 1 + 2 β 1 एक्स 2

E[y]=β0+β11x1+β12x2
xix==i
E[y]=β0+β1x
चूँकि अंतिम एक
E[y]=β0+β1x1+2β1x2

सुपर / सबमॉडल संरचना के साथ, आप यह पता लगा सकते हैं कि क्या डेटा में सबूत है कि अधिक जटिल संरचना आवश्यक है, संभावना अनुपात परीक्षण करके : -2 बार लॉग अधिकतम संभावना में अंतर (आमतौर पर आर में विचलन के रूप में संकेत दिया गया है) df के साथ वितरण का पालन करें = मापदंडों की संख्या में अंतर (ऊपर के उदाहरण में: 4 पैरामीटर - 3 पैरामीटर)।χ2


3
+1 अच्छा उदाहरण है कि कैसे महान उत्तर के साथ विषम प्रश्न को सुधारें।

1
खैर वास्तव में किसी भी निरंतर को विवेकाधीन किया जा सकता है, हिस्टोग्राम बनाने से यह पता चलता है कि यह व्यवहार में कैसे किया जाता है। संभवतः मैंने श्रेणीबद्ध के साथ गणना डेटा (पूर्णांक मूल्य डेटा) को मिलाया ... हालांकि मेरा पहला अनुमान असतत और निरंतर वितरण के बारे में था, न कि केवल डेटा बिंदु (और पागल शोधकर्ता जो श्रेणियों को वास्तविक मान प्रदान करते हैं), इसलिए ... वैसे भी मेरा नष्ट कर दिया गया , क्योंकि यह नहीं लगता है कि यह समस्या को हल करता है (+1)
होप सेलोव

1
ऐसा लगता है कि @Dmitrij ने अपना उत्तर हटा दिया है, क्या आप कृपया अपने उत्तर को पुनः दर्शाने के लिए कहेंगे? यह एक महान उत्तर (+1) है, इसलिए गैर-मौजूदा सामग्री के संदर्भ में थोड़ा सा चिपक जाता है।
mpiktas
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.