एक बाहरी की कठोर परिभाषा?


44

लोग अक्सर आंकड़ों में आउटलेर से निपटने के बारे में बात करते हैं। इसके बारे में मुझे जो बात परेशान करती है, वह यह है कि जहां तक ​​मैं बता सकता हूं, एक अलग की परिभाषा पूरी तरह से व्यक्तिपरक है। उदाहरण के लिए, यदि कुछ रैंडम वैरिएबल का सही वितरण बहुत भारी-पूंछ वाला या बिमोडल है, तो आउटलेर्स का पता लगाने के लिए कोई भी मानक दृश्य या सारांश आँकड़ा गलत तरीके से उस वितरण के कुछ हिस्सों को हटा देगा जिनसे आप नमूना लेना चाहते हैं। यदि एक अस्तित्व में है, तो इसकी कठोर परिभाषा क्या है, और एक विश्लेषण में अनुचित मात्रा में विषय-वस्तु की शुरुआत किए बिना आउटलेर्स से कैसे निपटा जा सकता है?


यदि आप एक विशिष्ट वितरण के लिए जानना चाहते हैं तो अपने उदाहरण के बारे में पूछें। यह अलग-अलग स्थितियों के लिए अलग-अलग होगा।
जॉन

8
खैर, मैं उम्मीद करूंगा कि आपके पास वस्तुनिष्ठ तरीके rigorous definition of an outlierसे परिभाषित करने में सक्षम होगा unreasonable amounts of subjectivity;-), धन्यवाद
खाएं

1
लेकिन परिभाषा अंतर्निहित वितरण और स्थिति से भिन्न हो सकती है। मैं कह सकता हूं R 1.5 IQR, या 3 SD, या कुछ ऐसे। अगर मैं दो तरह के उपाय करूं, तो प्रतिक्रिया समय और सटीकता कह सकता हूं। मैं कह सकता हूं कि आरटी की स्थिति सटीकता के स्तर पर है। वे सभी अच्छे और गणितीय रूप से कठोर हो सकते हैं और उनके पास विभिन्न अनुप्रयोग और अर्थ हैं।
जॉन

2
वहाँ बाहरी की कठोर परिभाषाएँ हैं। लेकिन उन लोगों के बीच चुनाव मनमाना लग सकता है। लेकिन मुझे लगता है कि यह गलत धारणा का हिस्सा है कि आँकड़े एक ऐसा विषय है जिसमें प्रत्येक समस्या का एक सही उत्तर होता है।
पीटर Flom - को पुनः स्थापित मोनिका

जवाबों:


23

जब तक आपका डेटा ज्ञात गुणों के साथ एक ज्ञात वितरण से आता है, तब तक आप एक घटना के रूप में एक बाहरी रूप से सख्ती से परिभाषित कर सकते हैं जो कि अवलोकन की गई प्रक्रिया से उत्पन्न होने की संभावना नहीं है (यदि आप "बहुत कम संभावना" को गैर-कठोर मानते हैं, तो सभी परिकल्पना परीक्षण है)।

हालांकि, यह दृष्टिकोण दो स्तरों पर समस्याग्रस्त है: यह मानता है कि डेटा ज्ञात गुणों के साथ एक ज्ञात वितरण से आता है, और यह जोखिम लाता है कि आउटलेर्स को डेटा बिंदुओं के रूप में देखा जाता है जो कुछ जादुई faeries द्वारा आपके डेटा सेट में तस्करी किए गए थे।

जादुई डेटा faeries के अभाव में, सारा डेटा आपके प्रयोग से आता है, और इस प्रकार वास्तव में आउटलेयर होना संभव नहीं है, बस अजीब परिणाम हैं। ये रिकॉर्डिंग त्रुटियों से आ सकते हैं (जैसे 4 डॉलर के लिए 400000 बेडरूम का घर), व्यवस्थित माप के मुद्दे (छवि विश्लेषण एल्गोरिदम विशाल क्षेत्रों की रिपोर्ट करता है यदि वस्तु सीमा के बहुत करीब है) प्रायोगिक समस्याएं (कभी-कभी, क्रिस्टल समाधान से बाहर निकलती हैं,) जो बहुत उच्च संकेत देते हैं), या आपके सिस्टम की विशेषताएं (एक सेल कभी-कभी दो के बजाय तीन में विभाजित कर सकती है), लेकिन वे एक ऐसे तंत्र का परिणाम भी हो सकते हैं जिसे किसी ने कभी नहीं माना क्योंकि यह दुर्लभ है और आप अनुसंधान कर रहे हैं, जिसका अर्थ है कि आपके द्वारा किया गया कुछ सामान अभी तक ज्ञात नहीं है।

आदर्श रूप से, आप समय निकालकर प्रत्येक आउटलुक की जांच करते हैं, और केवल यह समझने के लिए कि यह आपके मॉडल में फिट क्यों नहीं है, केवल इसे अपने डेटा सेट से हटा दें। यह समय लेने वाली और व्यक्तिपरक है कि कारण प्रयोग पर अत्यधिक निर्भर हैं, लेकिन विकल्प बदतर है: यदि आपको समझ में नहीं आता है कि आउटलेयर कहां से आया है, तो आपके पास अपने परिणामों को "गड़बड़" करने का विकल्प है। या अपनी समझ की कमी को छिपाने के लिए कुछ "गणितीय रूप से कठोर" दृष्टिकोण को परिभाषित करना। दूसरे शब्दों में, "गणितीय कठोरता" का पालन करके आप एक महत्वपूर्ण प्रभाव नहीं पाने और स्वर्ग में नहीं होने के बीच चुनते हैं।

संपादित करें

यदि आपके पास सभी संख्याओं की एक सूची है, बिना यह जाने कि वे कहाँ से आते हैं, तो आपके पास यह बताने का कोई तरीका नहीं है कि कुछ डेटा बिंदु एक आउटलाइयर है, क्योंकि आप हमेशा एक वितरण मान सकते हैं जहां सभी डेटा इनरॉल हैं।


3
हालाँकि सभी एक्सपेलर एक प्रयोग से उत्पन्न नहीं होते हैं। मैंने एक बड़े डेटासेट के साथ काम किया, जिसमें एक क्षेत्र में अचल संपत्ति की जानकारी का संग्रह शामिल था (बिक्री मूल्य, बेडरूम की संख्या, वर्ग फुटेज, आदि), और हर अब और फिर, डेटा प्रविष्टि गलतियां होंगी और मेरे पास एक होगा 400,000 बेडरूम का घर 4 डॉलर, या इस तरह के कुछ निरर्थक है। मुझे लगता है कि एक बाहरी लक्ष्य निर्धारित करने का लक्ष्य यह देखना है कि क्या डेटा से उत्पन्न होना संभव है, या यदि यह केवल एक प्रवेश त्रुटि थी।
क्रिस्टोफर एडेन

2
@ क्रिस्टोफर एडेन: मैं प्रायोगिक प्रक्रिया के उस हिस्से पर विचार करूंगा। मूल रूप से, आउटलेर्स को हटाने में सक्षम होने के लिए, आपको यह समझना होगा कि डेटा कैसे उत्पन्न किया गया था, यानी बिना किसी अच्छे कारण के आउटलेर्स को हटाए नहीं। अन्यथा आप केवल अपने डेटा को स्टाइल कर रहे हैं। मैंने इसे बेहतर ढंग से दर्शाने के लिए अपना उत्तर संपादित किया है।
जोनास

यह पूरी तरह से उचित है, लेकिन मानता है कि सही वितरण क्या है, इसके बारे में आपको पहले से ही अच्छी जानकारी है। मैं उन परिदृश्यों के बारे में अधिक सोच रहा था, जहां आप नहीं करते हैं और यह बहुत भारी पूंछ या बिमोडल हो सकता है।
dsimcha

@dsimcha: मुझे नहीं लगता कि आप उस मामले में बाहरी लोगों की पहचान कर सकते हैं (मेरे संपादन को भी देखें)।
जोनास

2
@dsimcha - आपको हमेशा पूर्व ज्ञान है! आपके लिए डेटा कैसे दिए गए? आप हमेशा इतना ही जानते हैं। डेटा जादुई रूप से सिर्फ दिखाई नहीं देता है। और आप हमेशा अस्थायी धारणा बना सकते हैं। इन मान्यताओं के आधार पर "आउटलेयर" मूल रूप से आपको एक संकेत देता है कि आपकी मान्यताओं में कुछ गलत है। "बाहरी" (जो हमेशा रिश्तेदार है) का अध्ययन करके आप अपने मॉडल में सुधार कर सकते हैं।
प्रोबेबिलिसलॉजिक

13

आप सही हैं कि आउटलेर्स को हटाना एक व्यक्तिपरक अभ्यास की तरह लग सकता है लेकिन इसका मतलब यह नहीं है कि यह गलत है। हमेशा अपने डेटा विश्लेषण के बारे में हर निर्णय के लिए एक कठोर गणितीय कारण के लिए मजबूर करने की आवश्यकता होती है, जो कि वैसे भी एक व्यक्तिपरक अभ्यास बन जाता है, इस पर कृत्रिम कठोरता का एक पतला घूंघट है। यह विशेष रूप से सच है यदि आप उसी गणितीय औचित्य को लागू करना चाहते हैं जो आपके पास हर स्थिति में आता है। (यदि हर चीज के लिए बुलेटप्रूफ स्पष्ट गणितीय नियम थे तो आपको सांख्यिकीविद् की आवश्यकता नहीं होगी।)

उदाहरण के लिए, आपकी लंबी पूंछ वितरण स्थिति में, संख्याओं के बारे में निर्णय लेने के लिए कोई गारंटीकृत तरीका नहीं है, चाहे आपको आउटलेर के साथ ब्याज का एक अंतर्निहित वितरण मिला हो या आउटलेर के साथ ब्याज के दो अंतर्निहित वितरण उनमें से केवल एक का हिस्सा हो। या, स्वर्ग मना, सिर्फ डेटा का वास्तविक वितरण।

जितना अधिक डेटा आप एकत्र करते हैं, उतना ही आप वितरण की कम संभावना वाले क्षेत्रों में जाते हैं। यदि आप 20 नमूने एकत्र करते हैं, तो इसकी बहुत संभावना नहीं है कि आपको 3.5 के जेड-स्कोर के साथ एक मूल्य मिले। यदि आप 10,000 नमूने एकत्र करते हैं, तो यह बहुत संभव है कि आपको एक मिल जाएगा और यह वितरण का एक स्वाभाविक हिस्सा है। उपरोक्त को देखते हुए, आप यह कैसे तय करते हैं कि कोई चीज इसे बाहर करने के लिए चरम है?

विश्लेषण के लिए सामान्य रूप से सर्वोत्तम विधियों का चयन अक्सर व्यक्तिपरक होता है। क्या यह अनुचित रूप से व्यक्तिपरक है निर्णय के लिए स्पष्टीकरण पर और बाहरी पर निर्भर करता है।


+1 बार्नेट और लुईस, जिन्होंने आउटलेर्स पर किताब लिखी , "डेटा के एक सेट में एक आउटलाइयर [] एक अवलोकन (या टिप्पणियों का सबसेट) है जो डेटा के उस सेट के शेष के साथ असंगत प्रतीत होता है " [p पर । 7]। वे जारी रखते हैं, "यह पर्यवेक्षक की ओर से व्यक्तिपरक निर्णय का मामला है कि क्या कुछ अवलोकन किया गया है या नहीं ... जांच के लिए चुना गया है। ... जो 'बाहरी' चरित्र बताता है वह पर्यवेक्षक पर इसका प्रभाव है ...। "
whuber

"पुस्तक" यहाँ थोड़ी अस्पष्ट है। मैं बार्नेट और लुईस को प्रमुख मोनोग्राफ मानूंगा, लेकिन यह आउटलेर्स पर एकमात्र पुस्तक नहीं है। amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955 हाल ही में है। डीएम हॉकिन्स की एक पुरानी किताब भी है।
निक कॉक्स

9

मुझे नहीं लगता कि डेटा को जन्म देने वाली अंतर्निहित प्रक्रिया के एक मॉडल को संभालने के बिना एक रूपरेखा को परिभाषित करना संभव है। इस तरह के एक मॉडल के बिना हमारे पास यह तय करने के लिए संदर्भ का कोई ढांचा नहीं है कि डेटा विसंगतिपूर्ण है या "गलत"। एक आउटलेयर की परिभाषा जो मुझे उपयोगी लगी है वह यह है कि एक आउटलाइर एक अवलोकन (या अवलोकन) है जो एक मॉडल से सामंजस्य स्थापित नहीं कर सकता है जो अन्यथा अच्छा प्रदर्शन करता है।


2
हम्म ... अपने EDA पाठ में, जॉन Tukey ने विशेष रूप से किसी भी मॉडल का उपयोग किए बिना आउटलेर को परिभाषित किया।
whuber

7
आप एक मॉडल के बिना आउटलेयर को परिभाषित कर सकते हैं, लेकिन मुझे ऐसी परिभाषाएं मिल गई हैं जो अनहेल्दी हैं। बीटीडब्लू, मॉडल से, मेरा मतलब यह नहीं है कि एक सांख्यिकीय मॉडल जो डेटा के लिए स्पष्ट रूप से फिट है। बाहरी रूप से किसी भी परिभाषा के लिए आपको कुछ अनुमान लगाने की आवश्यकता होती है कि आप किस प्रकार के मूल्यों को देखने की अपेक्षा करते हैं, और आप किस प्रकार के मूल्यों को देखने की अपेक्षा नहीं करते हैं। मुझे लगता है कि इन धारणाओं (यानी मॉडल) को स्पष्ट कर दिया जाए तो बेहतर है। यह भी बिंदु है कि ईडीए में, आप डेटा की खोज कर रहे हैं, एक अंतिम मॉडल की फिटिंग के लिए ईएडीए के लिए एक अलग की आपकी परिभाषा बहुत अलग हो सकती है।
डिक्रान मार्सुपियल

6

यहां कई बेहतरीन जवाब हैं। हालाँकि, मैं यह बताना चाहता हूं कि दो प्रश्न भ्रमित हो रहे हैं। पहला है, 'क्या एक बहरूपिया है?', और अधिक विशेष रूप से इस तरह के "कठोर परिभाषा" देने के लिए। यह सरल है:

एक आउटलाइयर एक डेटा बिंदु है जो एक अलग आबादी / वितरण / डेटा उत्पन्न करने की प्रक्रिया से आता है, जिसका अध्ययन या आपके बाकी डेटा का इरादा है।

दूसरा सवाल 'मुझे कैसे पता / पता चलेगा कि डेटा बिंदु एक आउटलाइयर है?' दुर्भाग्य से, यह बहुत मुश्किल है। हालाँकि, यहाँ दिए गए उत्तर (जो वास्तव में बहुत अच्छे हैं, और जिन पर मैं सुधार नहीं कर सकता) उस कार्य के साथ काफी सहायक होंगे।


1
यह एक सोचा-समझा जवाब है। तो, मान लीजिए कि मैं एक सामान्य वितरण से आईआईडी मान उत्पन्न करता हूं - वे लगभग से तक की सीमा की अवधि की संभावना रखते हैं - और एक सामान्य वितरण से एक और मूल्य उत्पन्न करते हैं और यह बराबर होता है (जिसके लिए लगभग में मौका होता है)। यह अत्यधिक संभावना नहीं है कि अतिरिक्त एक बाहरी होने के लिए निर्धारित किया जाएगा। क्या आप दावा करते हैं कि यह वास्तव में है? आपका उद्धरण मुझे ऐसा लगता है, लेकिन मैं यह नहीं देखता कि इसे व्यावहारिक रूप से कैसे बनाया जा सकता है। ( 0 , 1 ) - 2.5 2.5 ( 4 , 1 ) 2 1 40 299(0,1)2.52.5(4,1)21402
व्हिबर

1
@ शुभंकर, हाँ। मैं कहता हूं कि यह है एक बाहरी है, हालांकि आप इसे नोटिस कभी नहीं होगा (जो, मुझे लगता है, तो आप व्यावहारिक रूप से परिचालन से क्या मतलब है)।
गंग -

1
मैं आपके द्वारा किए जा रहे भेद की सराहना करता हूं। मैं सिर्फ आपकी परिभाषा और इस धागे में आउटलेर की अन्य परिभाषाओं या विवरणों के बीच के तीव्र विपरीत को इंगित करना चाहता था। आपका ऐसा नहीं लगता है कि यह संतोषजनक व्यावहारिक प्रक्रियाओं को जन्म दे सकता है: आपको हमेशा यह स्वीकार करना होगा कि आपके डेटासेट का एक बड़ा हिस्सा "आउटिंग" हो सकता है, लेकिन इसका पता लगाने या हल करने के लिए कोई रास्ता नहीं है।
whuber

@ जब भी, मैं तहे दिल से सहमत हूँ। मैं इसे परिकल्पना परीक्षण के शिथिल अनुरूप के रूप में देखता हूं, जहां (जैसे) 2 समूह एक बहुत छोटी, अवांछनीय राशि से भिन्न हो सकते हैं, या एक मध्यम राशि से भिन्न हो सकते हैं, लेकिन आपके द्वारा समाप्त किए गए नमूने अकेले संयोग से बहुत समान थे; बहरहाल, एक सैद्धांतिक दृष्टिकोण से यह अंतर समझने और बनाए रखने के लायक है।
गूँग - मोनिका

1
@ शुभंकर, आप सही कह रहे हैं। कुछ इसे भेद बनाते हैं, लेकिन कई इन विचारों के बारे में स्पष्ट नहीं हैं। मेरी स्थिति यह है कि दूषित के अलावा "बाहरी" की कोई सार्थक वास्तविकता नहीं है । फिर भी, लोगों को इस मुद्दे के बारे में भी सोचना चाहिए कि बिंदु (ओं) के बारे में चिंतित होने के नाते यदि आपके परिणाम अकेले उनके द्वारा संचालित होते हैं (चाहे वे 'वास्तविक' हों या नहीं), और इस प्रकार आपके परिणाम बहुत नाजुक हैं। संक्षेप में, बिंदु के बारे में चिंतित होने का कोई कारण नहीं है जो आपकी आबादी से हैं और आपके परिणामों को विशिष्ट रूप से नहीं चला रहे हैं; एक बार जब आप w / उन 2 मुद्दों को निपटा लेंगे, तो "आउटलाइयर" के लिए कुछ भी नहीं बचा है।
गूँग - मोनिका

6

परिभाषा 1: जैसा कि पहले ही उल्लेख किया गया है, डेटा के एक समूह में एक ही प्रक्रिया (ए प्रक्रिया कहते हैं) को दर्शाते हुए एक अवलोकन एक अवलोकन (या टिप्पणियों का एक सेट) है जो प्रक्रिया ए का परिणाम होने की संभावना नहीं है।

इस परिभाषा में निश्चित रूप से प्रक्रिया ए (इसलिए एक मॉडल) की संभावना फ़ंक्शन का एक अनुमान शामिल है और यह निर्धारित करने का क्या मतलब नहीं है (यानी जहां रोकना है ...)। यह परिभाषा मेरे द्वारा दिए गए उत्तर की जड़ में है । यह अधिक महत्व या फिट की अच्छाई की परिकल्पना परीक्षण के विचारों से संबंधित है

परिभाषा 2 एक स्पष्ट रूप से अवलोकन समूह में एक अवलोकन है जैसे कि किसी दिए गए मॉडल के साथ अवलोकन का समूह मॉडलिंग करते समय सटीकता अधिक होती है यदि हटा दिया जाता है और अलग से इलाज किया जाता है (एक मिश्रण के साथ, जो मैं यहां उल्लेख करता हूं की भावना में )।जी एक्सxGx

इस परिभाषा में "दिया गया मॉडल" और सटीकता का माप शामिल है। मुझे लगता है कि यह परिभाषा व्यावहारिक पक्ष से अधिक है और आउटलेर के मूल में अधिक है। उत्पत्ति के समय, बाहरी पहचान मजबूत आंकड़ों के लिए एक उपकरण था ।

जाहिर है कि इन परिभाषाओं को बहुत समान बनाया जा सकता है यदि आप समझते हैं कि पहली परिभाषा में संभावना की गणना में मॉडलिंग और एक स्कोर की गणना शामिल है :)


2

एक आउटलाइयर एक डेटा बिंदु है जो मेरे लिए असुविधाजनक है, इस डेटा को उत्पन्न करने वाली प्रक्रिया की मेरी वर्तमान समझ को देखते हुए।

मेरा मानना ​​है कि यह परिभाषा उतनी ही कठोर है जितनी इसे बनाया जा सकता है।


जॉन टुकी की परिभाषा के विपरीत (उन्होंने "बाहर" शब्द का इस्तेमाल किया): "जब हम मूल्यों के कुछ बैचों को देखते हैं, तो हम कुछ मूल्यों को स्पष्ट रूप से देखते हैं, जो स्पष्ट रूप से दूसरों से परे भटकाते हैं। ... यह एक नियम है सुविधाजनक है। अंगूठा जो कुछ मूल्यों को "बाहर" के रूप में चुनता है ... "बाद में वह इसे इस रूप में संक्षेप में बताता है" ... व्यक्तिगत मूल्यों की पहचान जो असामान्य हो सकती है। " [EDA, अध्याय 2]। वह पूरी किताब पर जोर देता है कि हम "एक प्रक्रिया को समझने" का बहाना करने के बजाय डेटा का वर्णन कर रहे हैं , और यह कि कई वैध विवरण हमेशा संभव होते हैं।
whuber

इसी तरह, "आउटलेयर ऐसे नमूना मूल्य हैं जो नमूना के बहुमत के संबंध में आश्चर्य का कारण बनते हैं" (डब्ल्यूएन वेनबल्स और बीडी रिप्ले। 2002। एस। न्यूयॉर्क के साथ आधुनिक लागू आंकड़े : स्प्रिंगर, पी। 19)। हालांकि, आश्चर्य देखने वाले के मन में है और डेटा के कुछ मौन या स्पष्ट मॉडल पर निर्भर है। एक और मॉडल हो सकता है जिसके तहत आउटलाइन बिल्कुल भी आश्चर्यजनक नहीं है, कहते हैं, डेटा वास्तव में सामान्य के बजाय तार्किक या गामा हैं।
निक कॉक्स

@ निक बार्ट और लुईस के साथ संगत है, जिसे मैं जॉन के जवाब के लिए एक टिप्पणी में उद्धृत करता हूं ।
whuber

@whuber: आप कहते हैं "इसके विपरीत", जो मुझे लगता है कि आप असहमत हैं, लेकिन मुझे यकीन नहीं है। मेरा तर्क है कि मॉडल-गठन - अंतर्निहित और भोला, शायद - इसलिए हम डेटा में पैटर्न देखते हैं, या चंद्रमा में आदमी, या आउटलेयर। मॉडल में कोई भौतिकी / रसायन विज्ञान / आर्थिक आधार नहीं हो सकता है, लेकिन हमने एक मॉडल की परिकल्पना की है। अन्यथा, कोई आश्चर्य नहीं है, कोई "बाहर" नहीं है।
वेन

Tukey आग्रह कर रहे हैं कि डेटा का वर्णन करने में हम जरूरी नहीं कि उन्हें मॉडलिंग कर रहे हैं। डेटा विवरण शामिल करने के लिए "मॉडल" की अपनी परिभाषा का विस्तार करना उचित है, लेकिन फिर यह शब्द उपयोगी होने के लिए लगभग सामान्य हो जाता है। टुके के दृष्टिकोण से (जैसा कि मैं इसकी व्याख्या करता हूं, निश्चित रूप से), चेहरे के नुकसान के बारे में कोई चिंता नहीं है और न ही सुविधा का कोई सवाल है या नहीं। इस प्रकार, हालांकि मैं आपकी प्रेरणा का सम्मान करता हूं, मुझे लगता है कि आपका दृष्टिकोण (जैसा कि "चेहरे की बचत" और "असुविधाजनक" में परिलक्षित होता है) इस प्रश्न के अन्य दृष्टिकोणों की तुलना में कम रचनात्मक है।
whuber

0

तत्वों के उस न्यूनतम सेट के एक सदस्य के रूप में एक बाहरी रूप से परिभाषित करें, जो कि सभी में (2 ^ n -1) के अद्वितीय उपसमुच्चय पर 95% विश्वास स्तर पर आयोजित RUM परीक्षणों के साथ 100% अनुपालन सुनिश्चित करने के लिए किसी डेटासेट आकार n से हटाया जाना चाहिए। डेटा। RUM टेस्ट की परिभाषा के लिए R (Sept 2010) का उपयोग करके pdfs को फिटिंग डेटा पर Karian और Dudewicz टेक्स्ट देखें।


-2

आउटलेयर केवल अतिवादी दायरे में महत्वपूर्ण हैं। यदि एक एकल डाटापॉइंट आपके मॉडल में पूर्वाग्रह जोड़ता है जो कि आपके सिद्धांत द्वारा अंतर्निहित अंतर्निहित वितरण द्वारा परिभाषित किया गया है, तो यह उस मॉडल के लिए एक बाहरी है। विषयवस्तु इस तथ्य में निहित है कि यदि आपका सिद्धांत एक अलग मॉडल प्रस्तुत करता है, तो आपके पास आउटलेर के रूप में एक अलग सेट हो सकता है।


1
क्या आप दावा कर रहे हैं कि बायसेशियन डेटा विश्लेषण में आउटलेयर महत्वहीन हैं?
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.