मैं गैर-सामान्य डेटा पर एक प्रतिगमन कैसे करता हूं जो रूपांतरित होने पर गैर-सामान्य रहता है?


15

मुझे कुछ डेटा (158 मामले) मिले हैं, जो 21 प्रश्नावली मदों के लिए एक संभावित पैमाने के उत्तर से प्राप्त हुआ था। मुझे वास्तव में एक प्रतिगमन विश्लेषण करने की आवश्यकता है / यह देखने के लिए कि प्रश्नावली पर कौन से आइटम समग्र आइटम (संतुष्टि) की प्रतिक्रिया की भविष्यवाणी करते हैं। प्रतिक्रियाओं को आम तौर पर वितरित नहीं किया जाता है (केएस परीक्षणों के अनुसार) और मैंने इसे हर तरह से बदल दिया है, जिसके बारे में मैं सोच सकता हूं (उलटा, लॉग, लॉग 10, स्क्वैर, चुकता) और यह सामान्य रूप से वितरित होने से इनकार करता है। अवशिष्ट कथानक सभी जगह दिखता है इसलिए मेरा मानना ​​है कि यह वास्तव में एक रैखिक प्रतिगमन करने के लिए वैध नहीं है और यह दिखावा करता है कि यह सामान्य रूप से व्यवहार कर रहा है (यह भी एक पॉइसन वितरण नहीं है)। मुझे लगता है कि इसका कारण यह है कि उत्तर बहुत बारीकी से दिए गए हैं (मतलब 3.91, 95% सीआई 3.88 से 3.95)।

इसलिए, मैं सोच रहा हूं कि मुझे या तो अपने डेटा को बदलने के एक नए तरीके की आवश्यकता है या किसी प्रकार के गैर-पैरामीट्रिक रिग्रेशन की आवश्यकता है, लेकिन मुझे किसी भी प्रकार की जानकारी नहीं है जो मैं एसपीएसएस में कर सकता हूं।


1
एक बॉक्स-कॉक्स परिवर्तन ( en.wikipedia.org/wiki/… ) पर विचार करें । अपने प्रश्न में अवशिष्ट प्लॉट जोड़ना सहायक हो सकता है।
एम। बर्क

3
हाँ, कृपया हमें अपने अवशिष्ट प्लॉट दिखाएं। शायद एक qq साजिश भी।
डेविड मार्क्स

5
यदि आपके मूल्य असतत हैं, खासकर यदि वे एक छोर को काट रहे हैं, तो कोई परिवर्तन नहीं हो सकता है जो परिणाम को लगभग सामान्य बना देगा। लेकिन सामान्यता की औपचारिक परिकल्पना परीक्षण सही प्रश्न का उत्तर नहीं देते हैं, और आपकी अन्य प्रक्रियाओं का कारण बनते हैं जो इस बात पर सशर्त किए जाते हैं कि क्या आप सामान्यता को अस्वीकार करते हैं कि उनके नाममात्र गुण नहीं हैं।
Glen_b -Reinstate Monica

1
आनुपातिक बाधाओं लॉजिस्टिक प्रतिगमन शायद इस प्रश्न के लिए एक समझदार दृष्टिकोण होगा, लेकिन मुझे नहीं पता कि यह एसपीएसएस में उपलब्ध है।
बेन बोलकर

3
मुझे विश्वास नहीं है कि प्रतिगमन सही दृष्टिकोण है, और सामान्य चिंताओं के कारण नहीं। आपके प्रश्नावली के उत्तर भी कार्डिनल नहीं हो सकते हैं। उदाहरण के लिए, यदि आप किसी व्यक्ति से पूछते हैं कि 'क्या आप खुश हैं? "और उत्तर 3 प्राप्त करें, जबकि पिछले महीने यह 4 था, इसका मतलब यह है कि वह 25% कम खुश है? सबसे अधिक संभावना नहीं है। इसलिए, सामान्यता के बारे में सोचना शुरू करने से पहले। आपको यह पता लगाने की आवश्यकता है कि क्या आप कार्डिनल नंबरों के साथ काम कर रहे हैं और न केवल ऑर्डिनल। सर्वेक्षण जैसे विचार से निपटने के विशेष तरीके हैं, और प्रतिगमन डिफ़ॉल्ट विकल्प नहीं है। आपको यह दिखाना होगा कि यह पहले उपयुक्त है।
अक्षल

जवाबों:


32

प्रतिगमन करने के लिए आपको सामान्य वितरण मानने की आवश्यकता नहीं है। वितरण की परवाह किए बिना कम से कम वर्गों का प्रतिगमन BLUE आकलनकर्ता (सर्वश्रेष्ठ रैखिक, निष्पक्ष अनुमानक) है। गॉस-मार्कोव प्रमेय (जैसे विकिपीडिया) देखें एक सामान्य वितरण केवल यह दिखाने के लिए उपयोग किया जाता है कि अनुमानक अधिकतम संभावना अनुमानक भी है। यह एक आम गलतफहमी है कि ओएलएस किसी तरह सामान्य रूप से वितरित डेटा को मानता है। ऐसा नहीं होता। यह कहीं अधिक सामान्य है।


2
ये बिल्कुल सही है। बहुत से लोग अक्सर इस FACT को अनदेखा कर देते हैं।
रेपमत जू

@Repmat से सहमत हैं। मुझे यकीन नहीं है कि मैंने कभी एक सामान्यता परीक्षा पास की है ... लेकिन मेरे मॉडल काम करते हैं।
HEITZ

5

अवशिष्टों की सामान्यता के लिए परीक्षण पर भरोसा करने के बजाय, तर्कसंगत निर्णय के साथ सामान्यता का आकलन करने का प्रयास करें। सामान्यता परीक्षण आपको यह नहीं बताते हैं कि आपका डेटा सामान्य है, केवल यह नहीं है। लेकिन यह देखते हुए कि डेटा एक नमूना है आप काफी कुछ हो सकता है वे वास्तव में एक परीक्षण के बिना सामान्य नहीं हैं। आवश्यकता लगभग सामान्य है। परीक्षण आपको यह नहीं बता सकता है। टेस्ट बड़े एन या अधिक गंभीरता से बहुत संवेदनशील हो जाते हैं, एन के साथ संवेदनशीलता में भिन्नता होती है। आपका एन उस सीमा में होता है, जहां संवेदनशीलता अधिक होने लगती है। यदि आप R में कई बार निम्नलिखित सिमुलेशन चलाते हैं और भूखंडों को देखते हैं तो आप देखेंगे कि सामान्यता परीक्षण सामान्य वितरण की अच्छी संख्या पर "सामान्य नहीं" कह रहा है।

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

उम्मीद है, सिमुलेशन के माध्यम से जाने के बाद आप देख सकते हैं कि एक सामान्यता परीक्षण आसानी से सुंदर दिखने वाले डेटा को अस्वीकार कर सकता है और सामान्य वितरण से डेटा सामान्य से काफी दूर लग सकता है। यदि आप उस कोशिश का एक चरम मूल्य देखना चाहते हैंn <- 1000 । वितरण सभी सामान्य दिखेंगे, लेकिन फिर भी निम्न एन मान के समान दर पर परीक्षण में विफल रहेंगे। और इसके विपरीत, कम एन वितरण के साथ जो परीक्षा पास करते हैं, सामान्य से बहुत दूर दिख सकते हैं।

एसपीएसएस में मानक अवशिष्ट भूखंड सामान्यता का आकलन करने के लिए बहुत उपयोगी नहीं है। आप आउटलेर, रेंज, फिट की अच्छाई, और शायद उत्तोलन भी देख सकते हैं। लेकिन सामान्यता इससे प्राप्त करना मुश्किल है। हिस्टोग्राम, क्वांटाइल-क्वांटाइल सामान्य भूखंडों और अवशिष्ट भूखंडों की तुलना करते हुए निम्नलिखित अनुकरण का प्रयास करें।

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

अंतिम कथानक से सामान्यता, या किसी भी चीज़ के बारे में बताना असाधारण रूप से कठिन है, इसलिए सामान्य रूप से बहुत निदान नहीं है।

सारांश में, यह आम तौर पर सामान्यता परीक्षणों पर निर्भर नहीं करने की सिफारिश की जाती है, बल्कि अवशिष्ट के नैदानिक ​​भूखंडों पर। उन भूखंडों या आपके प्रश्न में वास्तविक मूल्यों के बिना, किसी को भी आपके लिए विश्लेषण या परिवर्तन के संदर्भ में आपके डेटा की ठोस सलाह देना बहुत कठिन है। सबसे अच्छी मदद पाने के लिए, कच्चा डेटा प्रदान करें।


सुझाव के लिए सभी को धन्यवाद। मैंने अपने अवशिष्टों को देखने का सुझाव दिया और अपने सिरों के साथ उपर्युक्त सिंटैक्स का उपयोग किया। मेरा डेटा उतना ग़ैर-सामान्य नहीं था जितना मैंने सोचा था इसलिए मैंने अपने पैरामीट्रिक रैखिक प्रतिगमन को बहुत अधिक आत्मविश्वास और स्पष्ट विवेक के साथ उपयोग किया है! एक बार फिर धन्यवाद।
एस

4

सबसे पहले, ओएलएस प्रतिगमन डेटा के बारे में कोई धारणा नहीं बनाता है, यह त्रुटियों के बारे में धारणा बनाता है, जैसा कि अवशिष्ट द्वारा अनुमान लगाया गया है।

दूसरा, मॉडल को फिट करने के लिए डेटा को बदलना, मेरी राय में, गलत दृष्टिकोण है। आप चाहते हैं कि आपका मॉडल आपकी समस्या के अनुकूल हो, न कि दूसरे तरीके से। पुराने दिनों में, ओएलएस प्रतिगमन धीमे कंप्यूटरों के कारण "शहर का एकमात्र खेल" था, लेकिन यह अब सच नहीं है।

तीसरा, मैं एसपीएसएस का उपयोग नहीं करता हूं इसलिए मैं वहां मदद नहीं कर सकता, लेकिन मैं अचंभित रहूंगा यदि यह कुछ प्रकार के गैर-प्रतिगमन प्रतिगमन की पेशकश नहीं करता है। कुछ संभावनाएँ परिमाण प्रतिगमन, प्रतिगमन पेड़ और मजबूत प्रतिगमन हैं।

चौथा, मैं आपके कथन से थोड़ा चिंतित हूँ:

मुझे वास्तव में एक प्रतिगमन विश्लेषण करने की आवश्यकता है, यह देखने के लिए कि प्रश्नावली पर कौन से आइटम समग्र आइटम (संतुष्टि) की प्रतिक्रिया की भविष्यवाणी करते हैं

अगर समग्र पैमाने पर बनाने के लिए आइटमों को समन किया गया या किसी तरह संयोजित किया गया, तो प्रतिगमन सही दृष्टिकोण नहीं है। आप शायद कारक विश्लेषण चाहते हैं।


आपने सुझाव दिया कि वह कारक विश्लेषण चाहते हैं, लेकिन क्या कारक विश्लेषण भी प्रभावित नहीं होता है यदि डेटा सामान्य रूप से वितरित नहीं किया जाता है?
सुव्यवस्थित

आप डेटा पर कारक विश्लेषण कर सकते हैं जो निरंतर भी नहीं है। लेकिन यह एक अलग चर्चा है - और इसकी चर्चा यहाँ की गई है।
पीटर Flom - को पुनः स्थापित मोनिका

1
हाय पीटर, मैं आपकी विशेषज्ञता की सराहना करता हूं और आपकी सलाह को बहुत महत्व देता हूं। जवाब देने में व़क्त लेने के लिए शुक्रिया। बस स्पष्ट करने के लिए, मुझे पता है कि कोई गैर-सामान्य रूप से वितरित वस्तुओं (साथ ही अवशिष्टों की सामान्यता के बारे में चर्चा) पर एफए कर सकता है। अगर ओपी उसी दुविधा में नहीं पड़ते, तो मैं (आपकी विशेषज्ञता वाले किसी व्यक्ति से) जानने के लिए उत्सुक था। लेकिन, मुझे लगता है कि आप पहले से ही जवाब दिया :)
सुव्यवस्थित

1

मोटे तौर पर, आपकी समस्या के लिए दो संभावित दृष्टिकोण हैं: एक जो सैद्धांतिक दृष्टिकोण से अच्छी तरह से उचित है, लेकिन व्यवहार में लागू करने के लिए संभावित रूप से असंभव है, जबकि दूसरा अधिक हेयुरिस्टिक है।

सैद्धांतिक रूप से इष्टतम दृष्टिकोण (जो आप वास्तव में उपयोग करने में सक्षम नहीं होंगे, दुर्भाग्य से) अधिकतम संभावना के तथाकथित विधि के प्रत्यक्ष आवेदन पर वापस लौटकर एक प्रतिगमन की गणना करना है। अधिकतम संभावना अनुमान के बीच संबंध (जो वास्तव में पुरातन और अधिक मौलिक गणितीय अवधारणा है) और साधारण न्यूनतम वर्ग (OLS) प्रतिगमन (सामान्य दृष्टिकोण, विशिष्ट लेकिन अत्यंत सामान्य मामले के लिए मान्य जहां अवलोकन चर सभी स्वतंत्र रूप से यादृच्छिक और सामान्य रूप से वितरित होते हैं) ) आँकड़ों पर कई पाठ्य पुस्तकों में वर्णित है; एक चर्चा जो मुझे विशेष रूप से पसंद है वह ग्लेन कोवान द्वारा "सांख्यिकीय डेटा विश्लेषण" की धारा 7.1 है। उन मामलों में जहां आपके अवलोकन चर सामान्य रूप से वितरित नहीं होते हैं,

इस मामले में, चूंकि आप वास्तव में अंतर्निहित वितरण को नहीं जानते हैं जो आपके अवलोकन चर को नियंत्रित करता है (यानी, केवल एक चीज जो निश्चित रूप से ज्ञात है कि यह निश्चित रूप से गाऊसी नहीं है, लेकिन वास्तव में ऐसा नहीं है), उपरोक्त दृष्टिकोण जीता ' आप के लिए काम करते हैं। आमतौर पर, जब ओएलएस विफल रहता है या एक पागल परिणाम देता है, तो यह बहुत अधिक आउटलाइन बिंदुओं के कारण होता है। बाहरी बिंदु, जो कि वास्तव में सामान्य रूप से वितरित अवलोकन चर की धारणा को तोड़ते हैं, फिट होने के लिए बहुत अधिक वजन का योगदान करते हैं, क्योंकि ओएलएस में अंक प्रतिगमन वक्र से उनके विचलन के वर्गों द्वारा भारित होते हैं, और बाह्य उपकरणों के लिए, उस विचलन बड़ा है। इस मामले में सामान्य हेयुरिस्टिक दृष्टिकोण ओएलएस के लिए कुछ ट्वीक या संशोधन विकसित करना है, जिसके परिणामस्वरूप आधारभूत बिंदुओं के योगदान के परिणामस्वरूप डी-जोर दिया गया है या डी-वेटेड, बेसलाइन ओएलएस विधि के सापेक्ष है। सामूहिक रूप से, इन्हें आमतौर पर कहा जाता हैमजबूत प्रतिगमन । विशिष्ट मजबूत अनुमान तकनीकों के कुछ उदाहरणों वाली एक सूची, जिसे आप आज़माना चाहते हैं, यहाँ मिल सकती है ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.