कई प्रतिगमन करते समय सांख्यिकीय सॉफ़्टवेयर द्वारा आउटलेर के रूप में चिह्नित किए गए मामलों को हटाना है या नहीं?


23

मैं कई प्रतिगमन विश्लेषण कर रहा हूं और मुझे यकीन नहीं है कि मेरे डेटा में आउटलेयर को हटा दिया जाना चाहिए या नहीं। मैं जिस डेटा के बारे में चिंतित हूं वह SPSS बॉक्सप्लेट पर "मंडलियों" के रूप में दिखाई देता है, हालांकि कोई तारांकन नहीं हैं (जो मुझे लगता है कि वे 'उस बुरे' नहीं हैं)। जिन मामलों से मैं चिंतित हूं, वे आउटपुट में "कैसवाइज डायग्नोस्टिक्स" तालिका के तहत दिखाई देते हैं - इसलिए मुझे इन मामलों को हटा देना चाहिए?


बहुत बहुत धन्यवाद चार्ली और एपीग्रेड। क्या आप कृपया सुझाव दे सकते हैं कि एसपीएसएस में कौन सा ग्राफ है जिसका मैं मूल्यांकन कर सकता हूं कि क्या अवशेषों में आउटलेयर हैं? बिखराव काफी गन्दा लगता है! मुझे ऐसा नहीं है कि डेटा के साथ कोई समस्या है (जैसे कि वे गलत तरीके से दर्ज नहीं किए गए हैं) मुझे लगता है कि मेरे कुछ प्रतिभागियों में मेरे कुछ पैमानों पर बहुत अधिक अंक थे, क्योंकि वे बहुत अधिक सामाजिक रूप से चिंतित थे बाकी का नमूना।
दोपहर

3
आपको x अक्ष और y अक्ष पर अवशिष्टों के अनुसार y (अनुमानित मॉडल के अनुसार जो आप अनुमान लगाते हैं) के अनुसार दिया जाना चाहिए। Y के अनुमानित मूल्य के बजाय, आप अपने एक भविष्यवक्ता / स्वतंत्र चर को एक्स अक्ष पर रख सकते हैं। आप कई प्लॉट बना सकते हैं, जिनमें से प्रत्येक एक्स अक्ष पर एक अलग भविष्यवक्ता के साथ यह देखने के लिए कि एक्स मान बाह्य व्यवहार के लिए अग्रणी है। फिर से, मैं बाहरी निष्कासन के खिलाफ चेतावनी दूंगा; इसके बजाय, विश्लेषण करें कि आउटलाइन क्यों हो रही है।
चार्ली

1
चार्ली के कथन को प्रतिध्वनित करते हुए, इसके "क्यों" के बजाय "यदि" मायने रखता है, और मैं भी उनके निष्कासन के खिलाफ चेतावनी दूंगा। मैं SPSS से परिचित नहीं हूँ, लेकिन प्रतिगमन को चलाने के लिए आपने जो भी सुविधाएँ इस्तेमाल की हैं, वे आपको अवशिष्टों का एक भूखंड भी दे सकती हैं, या कम से कम उनके मूल्य जो आप प्लॉट बनाने के लिए उपयोग कर सकते हैं, चार्ली का सुझाव है।
फोमाइट

@ मैंने आपके दो खातों को मर्ज कर दिया है। कृपया पंजीकरण करें ताकि आप अपना प्रश्न अपडेट और / या टिप्पणी कर सकें।
CHL

3
@ user603 नहीं, आपने मुझे सही से नहीं पढ़ा। "बाहरी" का कोई मतलब नहीं है - खासकर जब सांख्यिकीय सॉफ्टवेयर में एक स्वचालित प्रक्रिया द्वारा चिह्नित किया गया हो। एक अध्ययन के महत्वपूर्ण निष्कर्षों के कई उदाहरण हैं "आउटलेर"। जब भी आपके पास डेटा है जिसे आप हटा रहे हैं, यह एक कारण से होना चाहिए। "वे असुविधाजनक हैं" एक कारण नहीं है।
फोमाइट

जवाबों:


25

फ्लैगिंग आउटलेर्स एक निर्णय कॉल नहीं है (या किसी भी मामले में एक होने की आवश्यकता नहीं है)। एक सांख्यिकीय मॉडल को देखते हुए, आउटलेयर की एक सटीक, उद्देश्य परिभाषा है: वे अवलोकन हैं जो डेटा के बहुमत के पैटर्न का पालन नहीं करते हैं । इस तरह के अवलोकनों को किसी भी विश्लेषण की शुरुआत में अलग करने की आवश्यकता है क्योंकि डेटा के थोक से उनकी दूरी यह सुनिश्चित करती है कि वे अधिकतम संभावना (या वास्तव में किसी भी उत्तल हानि फ़ंक्शन) द्वारा फिट किए गए किसी भी बहुउपयोगी मॉडल पर एक विषम अनुपात को बढ़ाएंगे।

यह इंगित करना महत्वपूर्ण है कि मल्टीवार्इबल आउटलेयर एस को केवल एक न्यूनतम वर्ग फिट (या एमएल द्वारा अनुमानित किसी अन्य मॉडल, या किसी अन्य उत्तल हानि फ़ंक्शन) से अवशिष्ट का उपयोग करके विश्वसनीय रूप से पता नहीं लगाया जा सकता है। सीधे शब्दों में कहें तो, बहुउपयोगी आउटलेयर को केवल उनके अवशेषों का उपयोग करके पता लगाया जा सकता है कि उनके द्वारा उपयोग किए जाने के लिए अतिसंवेदनशील नहीं एक अनुमान प्रक्रिया का उपयोग करके फिट किए गए मॉडल से उनके अवशेषों का उपयोग किया जाता है।

विश्वास है कि आउटलेर्स आवश्यक रूप से एक शास्त्रीय फिट रैंकों के अवशेषों में कहीं बाहर खड़े होंगे, जहां अन्य कठिन से कठिन सांख्यिकीय संख्या में कोई भी नहीं है जैसे कि साक्ष्य की माप के रूप में पी-मूल्यों की व्याख्या करना या पक्षपाती नमूने से आबादी पर आक्षेप करना। सिवाय इसके कि यह अच्छी तरह से अधिक पुराना हो सकता है: गॉस ने खुद को शोर टिप्पणियों से सामान्य वितरण के मापदंडों का अनुमान लगाने के लिए औसत दर्जे का और पागल (शास्त्रीय अर्थ और मानक विचलन के बजाय) जैसे मजबूत अनुमानक के उपयोग की सिफारिश की। अब तक पागल (1) की स्थिरता कारक प्राप्त करने के रूप में।

वास्तविक डेटा के आधार पर एक सरल दृश्य उदाहरण देने के लिए, कुख्यात CYG स्टार डेटा पर विचार करें । यहां लाल रेखा कम से कम वर्ग फिट को दर्शाती है, नीली रेखा एक मजबूत रैखिक प्रतिगमन फिट का उपयोग करके प्राप्त की गई फिट है। यहां पर मजबूत फिट अर्थात् फास्टएलटीएस (2) फिट है, एलएस फिट का एक विकल्प जिसका उपयोग आउटलेर्स का पता लगाने के लिए किया जा सकता है (क्योंकि यह एक अनुमान प्रक्रिया का उपयोग करता है जो यह सुनिश्चित करता है कि अनुमानित गुणांक पर किसी भी अवलोकन का प्रभाव बाध्य है)। इसे पुन: उत्पन्न करने के लिए आर कोड है:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

स्टारसीजीजी डेटा

दिलचस्प बात यह है कि बाईं ओर 4 अवलोकनीय टिप्पणियों में भी एलएस फिट के संबंध में सबसे बड़े अवशिष्ट नहीं हैं और एलएस फिट के अवशिष्ट के क्यूक्यू प्लॉट (या उनसे प्राप्त किसी भी नैदानिक ​​उपकरण जैसे कुक की दूरी या dfbeta) उनमें से किसी को भी समस्याग्रस्त दिखाने में विफल है। यह वास्तव में आदर्श है: एलएस अनुमानों को इस तरह से खींचने के लिए दो से अधिक आउटलेयर (नमूना आकार की परवाह किए बिना) की आवश्यकता नहीं होती है ताकि आउटलेयर एक अवशिष्ट प्लॉट में बाहर खड़े न हों। इसे मास्किंग प्रभाव कहा जाता हैऔर यह अच्छी तरह से प्रलेखित है। शायद CYGstars डेटासेट के बारे में उल्लेखनीय एकमात्र बात यह है कि यह द्विभाजित है (इसलिए हम मजबूत निरीक्षण के परिणाम की पुष्टि करने के लिए दृश्य निरीक्षण का उपयोग कर सकते हैं) और यह कि वास्तव में एक अच्छी व्याख्या है कि बाईं ओर के ये चार अवलोकन इतने असामान्य क्यों हैं।

यह है, btw, नियम से अधिक अपवाद: छोटे नमूने और कुछ चरों को शामिल करने वाले छोटे पायलट अध्ययनों को छोड़कर और जहां सांख्यिकीय विश्लेषण करने वाला व्यक्ति भी डेटा संग्रह प्रक्रिया में शामिल था, मैंने कभी भी ऐसे मामले का अनुभव नहीं किया है जहां पूर्व मान्यताओं के बारे में आउटलेर्स की पहचान वास्तव में सही थी। यह सत्यापित करने के लिए आसान तरीका है। भले ही आउटलेर्स की पहचान एक बाहरी पहचान एल्गोरिथ्म का उपयोग करके की गई हो या शोधकर्ता की आंत की भावना, आउटलेर परिभाषा टिप्पणियों से होते हैं जो एक एलएस फिट से प्राप्त गुणांक पर एक असामान्य उत्तोलन (या 'पुल') होता है। दूसरे शब्दों में, आउटलेर ऐसे अवलोकन हैं जिनके नमूने को हटाने से एलएस फिट को गंभीर रूप से प्रभावित किया जाना चाहिए।

हालाँकि, मैंने व्यक्तिगत रूप से कभी भी इसका अनुभव नहीं किया है, लेकिन साहित्य में कुछ अच्छी तरह से प्रलेखित मामले हैं जहां एक आउटलाइंग डिटेक्शन एल्गोरिथ्म द्वारा आउटलेर के रूप में चिह्नित टिप्पणियों को बाद में सकल त्रुटियों या एक अलग प्रक्रिया द्वारा उत्पन्न पाया गया था। किसी भी मामले में, यह न तो वैज्ञानिक रूप से वारंट है और न ही केवल बाहरी लोगों को हटाने के लिए बुद्धिमान है अगर उन्हें किसी तरह समझा या समझाया जा सकता है। यदि टिप्पणियों का एक छोटा सा आवरण डेटा के मुख्य शरीर से इतनी दूर हो जाता है कि यह अकेले ही एक सांख्यिकीय प्रक्रिया के परिणामों को खींच सकता है, तो यह बुद्धिमान है (और मैं प्राकृतिक जोड़ सकता हूं) इसके अलावा इसका इलाज करना चाहे या नहीं। ऐसा नहीं है कि ये डेटा पॉइंट अन्य आधारों पर भी संदिग्ध हैं।

(1): स्टीफन एम। स्टिगलर, सांख्यिकी का इतिहास: 1900 से पहले अनिश्चितता का मापन देखें।

(२): लार्ज डेटा सेट्स के लिए एलटीएस रिग्रेशन (२००६) पीजे रूससी, के। वैन ड्रिसेन।

(३): हाई-ब्रेकडाउन रोबो मल्टीवेरिएट मेथड्स (2008)। ह्यूबर्ट एम।, रूससी पीजे और वैन एलेस्ट एस। स्रोत: स्टेटिस्ट। विज्ञान। खंड 23, 92-119।


6
यह अच्छी चीज (+1) है। हालांकि, मुझे लगता है कि आपने पारंपरिक शब्दावली का दुरुपयोग किया है और "प्रभावशाली अवलोकन" का उल्लेख करने के लिए "बाह्य" का सह-विकल्प किया है। अवधारणाएं दोनों मूल्यवान हैं, और आप बाद में यहां अच्छा व्यवहार करते हैं, लेकिन वे विनिमेय नहीं हैं जैसा कि आप इंगित करते हैं। उदाहरण के लिए, एक प्रभावशाली अवलोकन है कि है डेटा के बहुमत के साथ संगत के अपने लक्षण वर्णन "टिप्पणियों एक असामान्य लाभ उठाने की है कि (या 'पुल') एक लोकसभा से प्राप्त गुणांकों फिट से अधिक" फिट होगा, लेकिन सबसे लेखकों द्वारा विचार नहीं किया जाएगा प्रति से
whuber

2
@ शुभकर्ता: अच्छी बात है। वास्तव में मैं विचार करता हूं, जैसा कि हाल ही में मजबूत आंकड़ों पर पाठ्यपुस्तकें करते हैं (उदाहरण के लिए, रोबस्ट स्टैटिस्टिक्स: थ्योरी एंड मेथड्स। विली) ऐसे अवलोकन (तथाकथित 'अच्छे उत्तोलन बिंदु') के रूप में हानिकारक हैं। औचित्य यह है कि वे अनुमानित गुणांक की मानक त्रुटि का कारण बनते हैं, जिससे उपयोगकर्ता को मनाया गया संबंध की ताकत में अनुचित विश्वास होता है। बाहरी कारकों के रूप में अच्छा लाभ उठाने अंक को ध्यान में रखते भी औपचारिक दृष्टिकोण और अधिक सुसंगत बनाता है: सब अच्छा लाभ उठाने बिंदु के बाद से है जिस पर एक outsized प्रभाव है कर रहे हैं रास / एमएल फिट का एक घटक।
user603

3
+1 बहुत अच्छा उदाहरण। वास्तविक डेटा जो दो फिट दिखाता है जो लगभग ऑर्थोगोनल हैं, और जिसमें ओएलएस फिट होने के बाद ऊपरी-बाएँ में अत्यधिक प्रभावशाली चार सबसे बड़े अवशिष्ट नहीं होंगे।
वेन

19

सामान्य तौर पर, मैं "आउटलेर्स" को हटाने से सावधान हूं। प्रतिगमन विश्लेषण को गैर-सामान्य रूप से वितरित त्रुटियों की उपस्थिति में सही ढंग से लागू किया जा सकता है, जो कि विषमलैंगिकता, या भविष्यवाणियों / स्वतंत्र चर के मूल्यों को प्रदर्शित करते हैं जो बाकी से "दूर" हैं। बाहरी लोगों के साथ सच्ची समस्या यह है कि वे उस रेखीय मॉडल का पालन नहीं करते हैं जो हर दूसरे डेटा बिंदु का अनुसरण करता है। आप कैसे जानते हैं कि क्या यह मामला है? तुम नहीं।

यदि कुछ भी हो, तो आप अपने वैरिएबल के मूल्यों की तलाश नहीं करना चाहते हैं जो आउटलेर हैं; इसके बजाय, आप अपने अवशिष्टों के मूल्यों की तलाश करना चाहते हैं जो आउटलेयर हैं। इन डेटा बिंदुओं को देखें। क्या उनके चर सही दर्ज किए गए हैं? क्या कोई कारण है कि वे आपके डेटा के बाकी हिस्सों के समान मॉडल का पालन नहीं करेंगे?

बेशक, यही कारण है कि ये अवलोकन बाहरी लोगों (अवशिष्ट नैदानिक ​​के अनुसार) के रूप में प्रकट हो सकते हैं क्योंकि आपका मॉडल गलत है। मेरे पास एक प्रोफेसर है जो यह कहना पसंद करता है कि, अगर हमने बाहरी लोगों को फेंक दिया, तो हम अभी भी विश्वास करेंगे कि ग्रह सूर्य के चारों ओर घूमते हैं। केपलर मंगल ग्रह को फेंक सकता था और गोलाकार कक्षा की कहानी बहुत अच्छी लगती थी। मंगल ग्रह ने महत्वपूर्ण अंतर्दृष्टि प्रदान की कि यह मॉडल गलत था और अगर वह उस ग्रह को नजरअंदाज करता है तो उसे यह परिणाम याद होगा।

आपने उल्लेख किया कि बाहरी लोगों को हटाने से आपके परिणाम बहुत अधिक नहीं बदलते हैं। या तो यह इसलिए है क्योंकि आपके पास केवल बहुत कम संख्या में अवलोकन हैं जिन्हें आपने अपने नमूने के सापेक्ष हटा दिया है या वे आपके मॉडल के साथ यथोचित हैं। यह सुझाव दे सकता है कि, जबकि चर खुद बाकियों से अलग दिख सकते हैं, कि उनके अवशेष उस बकाया नहीं हैं। मैं उन्हें छोड़ देता और अपने आलोचकों को कुछ बिंदुओं को हटाने के अपने फैसले को सही ठहराने की कोशिश नहीं करता।


6
+1 डेटा को बाहर न फेंकें क्योंकि यह एक बाहरी है। पता करें कि कुछ डेटा क्यों निकल रहे हैं।
फोमाइट

2
यह भयानक सलाह है। आउटलेर्स के लिए डेटा के बाकी हिस्सों से इतनी दूर होना बहुत आम है क्योंकि रिग्रेशन लाइन को इस तरह से उनकी ओर खींचते हैं कि वे एक अवशिष्ट भूखंड पर खड़े नहीं होंगे (या सबसे खराब: वास्तविक के लिए बड़े अवशेषों का उत्पादन करते हैं। डेटा अंक)। वास्तव में, यह दिखाया जा सकता है कि जैसे ही आपके पास एक से अधिक बाहरी हैं, इसे शास्त्रीय प्रतिगमन से एक अवशिष्ट भूखंड का उपयोग करके मज़बूती से पता नहीं लगाया जा सकता है। इसे मास्किंग प्रभाव कहा जाता है और मैंने कई वास्तविक डेटा उदाहरणों में अच्छी तरह से प्रलेखित किया है।
user603

वैसे, यह इसलिए भी है क्योंकि मैं मंगल उदाहरण का उपयोग करने से बचना चाहता हूं: यह एक ऐसी प्रक्रिया को दिखाता है जो केवल तभी काम करती है जब आप एकतरफा काम कर रहे हों। अधिकांश एप्लिकेशन में ऐसी कोई गारंटी नहीं होती है। यह आम तौर पर त्रुटिपूर्ण कार्यप्रणाली में विश्वास का एक गलत अर्थ देता है (जो कि सांख्यिकीविद् के रूप में वास्तव में है जिसे हमें रोकने के लिए पनपना चाहिए)।
user603

15

+1 से @Charlie और @PeterFlom; आपको वहां अच्छी जानकारी मिल रही है। शायद मैं प्रश्न के आधार को चुनौती देकर यहां एक छोटा सा योगदान कर सकता हूं। आमतौर पर एक बॉक्सप्लॉट (सॉफ्टवेयर अलग-अलग हो सकता है, और मुझे यकीन नहीं है कि एसपीएसएस क्या कर रहा है) इंटर-क्वार्टराइल रेंज के ऊपर (नीचे) तीसरी (पहली) चतुर्थक के रूप में 'आउटलेर्स' के 1.5 गुना से अधिक अंक बताता है। हालाँकि, हम पूछ सकते हैं कि हमें कितनी बार कम से कम एक ऐसे बिंदु को खोजने की उम्मीद करनी चाहिए जब हम एक तथ्य के लिए जानते हैं कि सभी बिंदु समान वितरण से आते हैं? एक साधारण सिमुलेशन हमें इस प्रश्न का उत्तर देने में मदद कर सकता है:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

यह प्रदर्शित करता है कि इस तरह के बिंदुओं को आमतौर पर (> 50% समय) आकार 100 के नमूनों के साथ होने की उम्मीद की जा सकती है, तब भी जब कुछ भी नहीं हो। जैसा कि अंतिम वाक्य संकेत करता है, बॉक्सप्लेट रणनीति के माध्यम से एक अशुद्ध 'बाहरी' खोजने की संभावना नमूना आकार पर निर्भर करेगी:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

आउटलेर की स्वचालित रूप से पहचान करने के लिए अन्य रणनीतियाँ हैं, लेकिन ऐसी कोई भी विधि कभी-कभी मान्य बिंदुओं को 'आउटलेर्स' के रूप में दर्शाती है, और कभी-कभी सच्चे आउटलेर्स को 'मान्य बिंदुओं' के रूप में गलत पहचान देती है। (आप इन्हें टाइप I के रूप में सोच सकते हैं और II त्रुटियाँ टाइप कर सकते हैं ।) इस मुद्दे पर मेरी सोच (जो इसके लायक है) प्रश्न में बिंदुओं को शामिल / बाहर करने के प्रभावों पर ध्यान केंद्रित करना है । अपने लक्ष्य भविष्यवाणी है, तो आप उपयोग कर सकते हैं पार सत्यापन निर्धारित करने के लिए / कितना प्रश्न में अंक सहित वृद्धि भविष्यवाणी की जड़ मतलब वर्ग त्रुटि । यदि आपका लक्ष्य स्पष्टीकरण है, तो आप dfBeta को देख सकते हैं(यानी, इस बात पर निर्भर करें कि आपके मॉडल के बीटा अनुमान में कितना अंतर है, यह इस बात पर निर्भर करता है कि इसमें प्रश्न शामिल हैं या नहीं)। एक और परिप्रेक्ष्य (यकीनन सबसे अच्छा) यह चुनने से बचने के लिए है कि क्या असामान्य बिंदुओं को बाहर फेंक दिया जाना चाहिए, और इसके बजाय केवल मजबूत विश्लेषण का उपयोग करें।


आप जो प्रक्रिया सुझाते हैं, वह केवल मज़बूती से काम करें, अगर वहाँ एक ही आउटलाइन (आपके डेटासेट के आकार की परवाह किए बिना) हो, जो एक अवास्तविक धारणा है। यदि एक गाऊसी वितरण से डेटा खींचा जाता है, तो टकी ने व्हिस्कर नियम को प्रत्येक छोर पर लगभग 1% टिप्पणियों को बाहर करने के लिए कैलिब्रेट किया। आपका अनुकरण इस बात की पुष्टि करता है। Tukey की राय थी कि डेटा के ऐसे छोटे हिस्से की अवहेलना करने से होने वाले नुकसान उन मामलों में होते हैं जहां टिप्पणियों का व्यवहार किया जाता है, यह सभी व्यावहारिक चिंताओं के कारण है। विशेष रूप से मामलों में लाभ के संबंध में जब डेटा नहीं है।
user603

2
आपकी टिप्पणी के लिए धन्यवाद, @ user603; यह एक सोचा-समझा स्थिति है। कौन सी प्रक्रियाएं जो मैं सुझाता हूं, आप उन पर आपत्ति जता रहे हैं: संभव आउटलेर्स का पता लगाने के लिए उपयोग करना, उदाहरण के लिए, dfbeta , या मजबूत विश्लेषण का उपयोग करना (वैकल्पिक रूप से Tukey का बिस्करे को वैकल्पिक नुकसान फ़ंक्शन के रूप में) उनके प्रभाव के खिलाफ सुरक्षा के रूप में चुनने के बजाय इन बिंदुओं को फेंकने के लिए?
गंग - मोनिका

मेरी टिप्पणी में स्पष्टता की कमी को इंगित करने के लिए धन्यवाद (मैं लंबाई सीमा से विवश था)। बेशक, मैं विशेष रूप से पहले लोगों का मतलब है: dfbeta और क्रॉस सत्यापन (उत्तरार्द्ध केवल समस्याग्रस्त है अगर क्रॉस-सत्यापन करने के लिए उपयोग की जाने वाली टिप्पणियों को मूल नमूने से बेतरतीब ढंग से खींचा जाता है। उदाहरण का एक उदाहरण जहां क्रॉस-सत्यापन का उपयोग किया जा सकता है। तथाकथित गुणवत्ता नियंत्रण सेटिंग में हो जहां परीक्षण के लिए उपयोग की जाने वाली टिप्पणियों को अस्थायी रूप से विच्छेदित नमूने से तैयार किया गया है)।
user603

स्पष्ट करने के लिए धन्यवाद, @ user603 मुझे उन्हें अधिक अच्छी तरह से समझने के लिए w / इन विचारों को खेलना होगा। मेरा अंतर्ज्ञान यह है कि आपके परिणामों को विकृत करने वाले बाहरी लोगों को नोटिस नहीं करना बहुत मुश्किल होगा ; ऐसा लगता है कि आपको आउटलेयर को अपने परिणामों को दोनों पक्षों पर समान रूप से विकृत करने की आवश्यकता होगी, जिस स्थिति में आपका दांव लगभग निष्पक्ष हो जाएगा और आपके परिणाम बस कम 'महत्वपूर्ण' होंगे।
गूँग - मोनिका

1
मेरा अंतर्ज्ञान यह है कि आपके परिणामों को विकृत करने वाले बाहरी लोगों को नोटिस करना बहुत मुश्किल होगा , लेकिन दुर्भाग्य से, तथ्य यह है कि ऐसा नहीं है। अपने उत्तर में मेरे द्वारा दिए गए उदाहरण को भी देखें।
user603

12

आपको पहले अवशिष्टों के भूखंडों को देखना चाहिए: क्या वे सामान्य वितरण का अनुसरण करते हैं? क्या वे विषमलैंगिकता के लक्षण दिखाते हैं? अन्य भूखंडों को भी देखें (मैं एसपीएसएस का उपयोग नहीं करता हूं, इसलिए उस कार्यक्रम में ऐसा करने के लिए बिल्कुल नहीं कह सकते हैं, और न ही आप किस बॉक्सप्लेट को देख रहे हैं; हालांकि, यह कल्पना करना मुश्किल है कि तारांकन का मतलब "बुरा नहीं है" वे शायद हैं। यह कुछ मानदंडों द्वारा अत्यधिक असामान्य बिंदु हैं)।

फिर, यदि आपके पास आउटलेयर हैं, तो उन्हें देखें और यह पता लगाने की कोशिश करें कि क्यों।

फिर आप आउटलेर के साथ और उसके बिना प्रतिगमन की कोशिश कर सकते हैं। यदि परिणाम समान हैं, तो जीवन अच्छा है। एक फुटनोट के साथ पूर्ण परिणामों की रिपोर्ट करें। यदि समान नहीं है, तो आपको दोनों प्रतिगमन की व्याख्या करनी चाहिए।


1
बहुत बहुत धन्यवाद पीटर। मैंने QQ भूखंडों का निरीक्षण किया है और डेटा को सामान्य रूप से गैर-सामान्य प्रतीत नहीं होता है। जब मैं आउटलेर्स को हटाता हूं, तो वे परिणामों पर बहुत अधिक फर्क नहीं करते हैं। तो, इसलिए, क्या मुझे उन्हें छोड़ देना चाहिए? मैं अभी भी एसपीएसएस में कैसवाइज़ डायग्नोस्टिक्स टेबल पर दूसरों के विचारों को सुनने के लिए इच्छुक हूं। बहुत धन्यवाद।
आयन

1
हाँ, मैं तो जैसे एक फुटनोट कुछ के साथ में उन्हें छोड़ना होगा "कई बाहरी कारकों के साथ विश्लेषण बहुत इसी तरह के परिणाम से पता चला हटाया गया"
पीटर Flom - को पुनः स्थापित मोनिका

2
यहां तक ​​कि यह मानते हुए कि कोई भी इस तरह की प्रक्रिया का उपयोग करके विश्वसनीय खोजकर्ता को खोज सकता है (और अधिकांश समय, कोई ऐसा नहीं कर सकता है ) जो अभी भी अजीब तरह से परेशान छोड़ देता है कि क्या करना है जब आप "फिगर आउट" नहीं कर सकते हैं। मैं SPSS से स्पष्ट रहने की सलाह देता हूं। -
1860 में user603
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.