यह मुझे लगता है कि सही सांख्यिकीय उपकरण चुनने के लिए, मुझे सबसे पहले यह पहचानना होगा कि मेरे डेटासेट असतत हैं या निरंतर।
क्या आप मुझे यह सिखाने के लिए मन बना सकते हैं कि मैं कैसे परीक्षण कर सकता हूं कि डेटा असतत है या आर के साथ निरंतर है?
यह मुझे लगता है कि सही सांख्यिकीय उपकरण चुनने के लिए, मुझे सबसे पहले यह पहचानना होगा कि मेरे डेटासेट असतत हैं या निरंतर।
क्या आप मुझे यह सिखाने के लिए मन बना सकते हैं कि मैं कैसे परीक्षण कर सकता हूं कि डेटा असतत है या आर के साथ निरंतर है?
जवाबों:
एकमात्र कारण जिसे मैं तुरंत इस निर्णय की आवश्यकता के बारे में सोच सकता हूं, वह यह है कि एक प्रतिगमन में निरंतर या श्रेणीबद्ध के रूप में एक चर के समावेश पर निर्णय लिया जाए।
सबसे पहले, कभी-कभी आपके पास कोई विकल्प नहीं होता है: चरित्र चर, या कारक (जहां कोई व्यक्ति डेटा प्रदान करता है। आपके लिए निर्णय लिया है) स्पष्ट रूप से श्रेणीबद्ध हैं।
जो हमें संख्यात्मक चर के साथ छोड़ देता है। आपको बस यह जांचने के लिए लुभाया जा सकता है कि क्या चर पूर्णांक हैं, लेकिन यह एक अच्छा मानदंड नहीं है: नीचे दिए गए कोड की पहली पंक्ति को देखें ( x1
): ये केवल दो मानों और 1000 अवलोकन हैं : भले ही ये हैं पूर्णांक नहीं, यह एक स्पष्ट श्रेणीगत चर लगता है। आप कुछ के लिए क्या कर सकते हैं यह जांचें कि आपके डेटा में कितने अलग-अलग मूल्य हैं, हालांकि इसके लिए आप जिस भी सीमा का उपयोग कर सकते हैं वह व्यक्तिपरक होगा, मुझे लगता है:2.5x
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
मैं यह कहना चाहूंगा कि एक चर जिसमें केवल 5% अद्वितीय मूल्य हैं उन्हें सुरक्षित रूप से असतत कहा जा सकता है (लेकिन, जैसा कि उल्लेख किया गया है: यह व्यक्तिपरक है)। हालाँकि: यह इसे आपके मॉडल में एक श्रेणीगत चर के रूप में शामिल करने के लिए एक अच्छा उम्मीदवार नहीं बनाता है: यदि आपके पास 1000000 अवलोकन हैं, और 5% अद्वितीय मूल्य हैं, जो अभी भी 50000 'श्रेणियां' छोड़ता है: यदि आप इसे श्रेणीबद्ध के रूप में शामिल करते हैं, तो आप ' स्वतंत्रता की बहुत सारी डिग्री का एक नरक खर्च करने जा रहे हैं।
मुझे लगता है कि यह कॉल और भी अधिक व्यक्तिपरक है, और नमूना आकार और पसंद की विधि पर बहुत निर्भर करता है। अधिक संदर्भ के बिना, यहां दिशानिर्देश देना कठिन है।
तो अब आपके पास शायद कुछ चर हैं जिन्हें आप अपने मॉडल में श्रेणीबद्ध के रूप में जोड़ सकते हैं। लेकिन आपको करना चाहिए ? इस प्रश्न का उत्तर दिया जा सकता है (हालांकि यह वास्तव में, फिर से, आपके लक्ष्य पर निर्भर करता है) एक संभावना अनुपात परीक्षण के साथ: जिस मॉडल में वैरिएबल श्रेणीबद्ध होता है वह एक निरंतर कोवरिएट के रूप में चर के साथ मॉडल का एक सुपर मॉडल है। इसे देखने के लिए, एक वैरिएबल पर एक रेखीय प्रतिगमन की कल्पना करें x
जो तीन मान रखता है 0
, 1
और 2
। मॉडल फिट करना:
जहां एक डमी वैरिएबल इंडिकेटर है (यह 1 के बराबर है अगर ) सिर्फ एक अधिक लचीला है एक मॉडल को फिट करने का तरीका
एक्स मैं एक्स = = मैं ई [ y ] = β 0 + β 1 एक्स ई [ y ] = β 0 + β 1 एक्स 1 + 2 β 1 एक्स 2
सुपर / सबमॉडल संरचना के साथ, आप यह पता लगा सकते हैं कि क्या डेटा में सबूत है कि अधिक जटिल संरचना आवश्यक है, संभावना अनुपात परीक्षण करके : -2 बार लॉग अधिकतम संभावना में अंतर (आमतौर पर आर में विचलन के रूप में संकेत दिया गया है) df के साथ वितरण का पालन करें = मापदंडों की संख्या में अंतर (ऊपर के उदाहरण में: 4 पैरामीटर - 3 पैरामीटर)।