अनोमली और आउटलाइर के बीच अंतर


13

मशीन सीखने के संदर्भ में बाहरी और विसंगति के बीच क्या अंतर है। मेरी समझ यह है कि दोनों एक ही चीज को संदर्भित करते हैं।


3
जिज्ञासा से बाहर, साहित्य में ऐसा भेद कहाँ बनता है? मैं इस धारणा के तहत था कि "आउटलेयर" की कोई उच्च परिभाषा और उच्च प्रभाव टिप्पणियों के बाहर कोई औपचारिक परिभाषा नहीं है। प्रभाव और लाभ उठाने कर गणितीय परिभाषाएं हैं, लेकिन कुछ "उच्च" पर विचार मनमाना है। ऐसा लगता है जैसे मनमाने शब्दों की अदला-बदली की जा रही है।
एडमों

जो लोग "इनबिल्ट" शब्द का उपयोग करते हैं, वे "अनोमली" और "आउटलाइयर" के बीच किसी प्रकार का अंतर करते हैं, क्योंकि एक इनऑलिव एक तरह का विसंगति है। चूंकि न तो "बाह्य" और न ही "विसंगति" की निश्चितता है, आमतौर पर तकनीकी परिभाषाओं को समझा जाता है, इसलिए हमें इस प्रश्न की अपेक्षा करनी चाहिए कि एक से अधिक (कम से कम थोड़ा) अलग-अलग उत्तर हों।
whuber

जवाबों:


9

दो शब्द पर्यायवाची हैं:

अग्रवाल, चारु सी। बाह्य विश्लेषण। स्प्रिंगर न्यू यॉर्क, 2017, डोई: http://dx.doi.org/10.1007/978-3-319-47578-3-3

पृष्ठ 1 से उद्धरण:

आउटकैलर्स को डेटा माइनिंग और स्टैटिस्टिक्स साहित्य में असामान्यता, डिसॉर्डर, डेविंट्स या विसंगतियों के रूप में भी जाना जाता है ।

बोल्ड टेक्स्ट मूल टेक्स्ट का हिस्सा नहीं है।

लेखक से उपलब्ध पुस्तक का पीडीऍफ़ डाउनलोड करने का मुफ्त में यहाँ है।


तथ्य यह है कि "आउटलेर्स" को "विसंगतियों" के रूप में संदर्भित किया जाता है , इसका मतलब यह नहीं है कि वे पर्यायवाची हैं। "कुत्तों" को कभी-कभी "जानवरों" के रूप में संदर्भित किया जाता है, इस मामले के लिए। मैंने इस उत्तर में इसे और अधिक विस्तार से संबोधित करने का प्रयास किया (मैं इसे यहां पोस्ट नहीं कर सका, क्योंकि प्रश्न संरक्षित है)।
मार्को

9

एक जीभ में गाल का जवाब:

बाहरी: एक मूल्य जो आप अपने डेटा में अनुमानित रूप से पाते हैं जो इंगित करता है कि आपका मॉडल ठीक से काम नहीं करता है

विसंगति: एक मूल्य जो आपके डेटा में पाए जाने वाले सभी बाधाओं के विरुद्ध है जो आपके मॉडल को ठीक से काम करने का संकेत देता है

अधिक गंभीर, कम गूढ़ उत्तर:

आउटलेर्स की अवधारणा एक मॉडल बनाने के मुद्दे से शुरू होती है जो डेटा के बारे में धारणा बनाती है। आउटलेर अक्सर संकेतक होते हैं कि मॉडल डेटा का ठीक से वर्णन नहीं करता है और इस प्रकार हमें अपने मॉडल या हमारे डेटा की गुणवत्ता के परिणामों पर सवाल उठाना चाहिए।

विसंगतियों की अवधारणा सैद्धांतिक दुनिया के बाहर और लागू दुनिया के अंदर शुरू होती है: हम अपने डेटा में असामान्य व्यवहार की तलाश करना चाहते हैं, कभी-कभी इस तथ्य से प्रेरित होते हैं कि हम व्यवहार को खोजने में रुचि रखते हैं जिसे कोई छिपाने की कोशिश कर रहा है (जैसे वायरस में वायरस ईमेल)। समस्या यह है कि चूंकि लोग जो कर रहे हैं उसे छिपाने की कोशिश कर रहे हैं, हम वास्तव में नहीं जानते कि क्या देखना है। इसलिए हम "अच्छे" डेटा का एक सेट लेते हैं, और यह तय करते हैं कि जो भी हम अपने नए डेटासेट में पाते हैं जो "अच्छा" नहीं दिखता है वह एक विसंगति है और हमारे समय को और अधिक विस्तार से जांचने के लायक है। अक्सर, विसंगतियों की तलाश का मतलब है कि आपके नए डेटा सेट में आउटलेर की तलाश करना। लेकिन ध्यान दें कि आपके पुराने डेटासेट में दुर्लभ होने के बावजूद ये मूल्य आपके नए डेटासेट में बहुत सामान्य हो सकते हैं !

सारांश में, दो अवधारणाएं उनके पीछे के आंकड़ों (यानी आपके फिट किए गए मॉडल को असामान्य मान) के संदर्भ में बहुत समान हैं, लेकिन विभिन्न कोणों से विचार पर आते हैं। इसके अलावा, जब हम आउटलेयर के बारे में बात करते हैं, तो हम आम तौर पर हमारे मॉडल को फिट करने के लिए उपयोग किए जाने वाले डेटा में एक असामान्य डेटा बिंदु का मतलब करते हैं , जहां एक विसंगति का मतलब आमतौर पर हमारे मॉडल को फिट करने के लिए उपयोग किए जाने वाले डेटा के बाहर एक डेटासेट में एक असामान्य डेटा बिंदु के रूप में होता है

नोट: यह उत्तर इस बात पर आधारित है कि मैंने औपचारिक परिभाषाओं के बजाय दो शब्दों को अक्सर किस तरह देखा है। उपयोगकर्ता के अनुभव अलग हो सकते हैं।


6

एक विसंगति एक परिणाम है जिसे समझाया नहीं जा सकता है आधार वितरण (यदि हमारी धारणा सही है तो एक असंभवता)। एक आउटलाइयर एक अप्रत्याशित घटना है जिसे आधार वितरण (एक असंभवता) दिया गया है।


7
परिभाषाओं और उदाहरण के लिए कोटेशन स्रोत से उत्तर बेहतर होगा।
टिम

4
जहां तक ​​मुझे पता है कि वे पर्यायवाची हैं। तो ज। इकबाल को वास्तव में स्रोत को उद्धृत करना चाहिए और सभी पाठकों को तब स्रोत स्रोत के
अधिनायकत्व

2
असंभवता P (X = ANOMALY) = 0 (यानी ठीक 0) का अर्थ करती है। विसंगति का पता लगाने में मेरी समझ यह है कि शोधकर्ता उन घटनाओं में दिलचस्पी ले सकता है जिनमें सकारात्मक संभावना हो सकती है।
क्लिफ एबी

4

शब्द काफी हद तक एक विनिमेय तरीके से उपयोग किए जाते हैं। "बाहरी" आदर्श के बाहर कुछ झूठ बोलता है - इसलिए यह "विसंगतिपूर्ण" है। लेकिन मेरे पास एक अशुद्धि है कि "आउटलाइयर" का उपयोग आमतौर पर बहुत ही दुर्लभ टिप्पणियों के लिए किया जाता है । आंकड़ों में, एक सामान्य वितरण पर, आप तीन सिग्मा को आउटलेर मानते हैं। आपकी वस्तुओं का 99.7% "सामान्य" होने की उम्मीद है। "विसंगति" का उपयोग अधिक उदारतापूर्वक किया जाता है। यदि आपकी वेबसाइट पर आपके अचानक लाखों विज़िटर हैं, तो ये दुर्लभ विज़िटर नहीं हैं। हालांकि आगंतुकों में अचानक वृद्धि अभी भी "विसंगतिपूर्ण" है, जबकि प्रत्येक व्यक्तिगत आगंतुक एक "बाहरी" नहीं है।

यह इस लेख में हो सकता है जहाँ मैंने इन मतभेदों पर चर्चा करते हुए देखा, लेकिन दुर्भाग्य से, मैं अभी इसका उपयोग नहीं कर सकता।

सांख्यिकीय विश्लेषण और डेटा खनन, खंड 5, अंक 5, अक्टूबर 2012, पृष्ठ 363–387 उच्च-आयामी संख्यात्मक डेटा में अनपेक्षित बाह्य विकृति पर एक सर्वेक्षण


1
मुझे लगता है कि आपने बाहरी रूप से और विसंगतियों के बीच अंतर पर संकेत दिया है; आउटलेयर का उपयोग उन डेटा का वर्णन करने के लिए किया जाता है जो सामान्य प्रवृत्ति में फिट नहीं होते हैं, विसंगतियाँ एक सर्वर पर असामान्य ट्रैफ़िक का वर्णन करती हैं। 50% jk।
क्लिफ एबी

2

जलवायु विज्ञान की विसंगति में, आगे पानी को मैला करने के लिए, बस मूल्य और माध्य या विचलन के बीच अंतर का अर्थ है:

शब्द तापमान विसंगति का अर्थ है संदर्भ मूल्य या लंबी अवधि के औसत से प्रस्थान। एक सकारात्मक विसंगति इंगित करती है कि मनाया तापमान संदर्भ मूल्य से अधिक गर्म था, जबकि एक नकारात्मक विसंगति इंगित करती है कि मनाया तापमान संदर्भ मूल्य से अधिक ठंडा था।

उदाहरण देखें

यह अच्छी तरह से बाहर की मशीन सीखने के रूप में माना जा सकता है, लेकिन सवाल में रुचि रखने वाले लोगों को इसमें रुचि हो सकती है।


1

एक आउटलाइयर एक डेटा बिंदु है जो एक मॉडल को फिट करना मुश्किल बनाता है। जब आप अपने डेटासेट पर किसी मॉडल को फिट करने का प्रयास कर रहे हों, तो आप अक्सर अनिच्छा से सामना करते हैं। बाहरी लोगों को हटाने से बेहतर (यानी अधिक सामान्य) मॉडल बनाने में सक्षम होता है। एक बिंदु मॉडल लिए एक अधिकरण होगा । आप इस तथ्य के प्रकाश में इसे अनदेखा करते हैं कि आपके सभी अन्य अंक , , अधिक बारीकी से फिट ।y = x ( 1 , 1 ) ( 5 , 5 ) ( 3 , 3.1 ) y = x(1,5)y=x(1,1)(5,5)(3,3.1)y=x

एक विसंगति एक डेटा बिंदु हो सकती है, या एक मॉडल के पहले से निर्मित या डेटा-जनरेट करने की प्रक्रिया की समझ के बाद डेटा में देखी गई एक सामान्य प्रवृत्ति या व्यवहार भी हो सकती है। आप विसंगतियों का सामना करते हैं क्योंकि सिस्टम अलग तरह से व्यवहार करना शुरू कर देता है, या आप ऐसे डेटा बिंदुओं की तलाश करते हैं, क्योंकि आप चाहते हैं कि जब कोई घटना घटित हो, जिसके दौरान आपका मॉडल मान्य न हो तो आपको सूचित किया जाए। आप समुद्र की लहरों के आयामों में किसी भी विषम व्यवहार को देखने के बारे में परवाह कर सकते हैं, न कि इसलिए कि आप उन डेटा बिंदुओं को दूर करना चाहते हैं और एक बेहतर मॉडल का निर्माण करना चाहते हैं, लेकिन क्योंकि आप चाहते हैं कि जब सुनामी हो रही हो तो आप जागरूक हों।


2
मैं इस सबसे असहमत हूं। पहले, पहला वाक्य आपकी पसंद की परिभाषा हो सकती है यदि आप चाहें, लेकिन यह कई अन्य परिभाषाओं या उपयोगों के साथ सामंजस्य स्थापित करने के लिए कठिन है। यदि डेटा (1, 1), (2, 2), (3, 3), (बहुत बड़ा, बहुत बड़ा) है, तो बहुत बड़े बिंदु को अक्सर आउटलाइटर के रूप में वर्णित किया जाएगा, लेकिन मॉडल को फिट करने में कोई समस्या नहीं है। आप सोच सकते हैं (और चाहिए) कि डेटा इस तरह क्यों आता है, लेकिन किसी मॉडल को फिट करना आसान है। अधिक आम तौर पर, सिद्धांत यह है कि एक बाहरी डेटा के मुख्य शरीर से अलग किया जा सकता है लेकिन अभी भी एक प्रशंसनीय मॉडल के अनुरूप है।
निक कॉक्स

दूसरा, यदि निहितार्थ को छोड़ने वाले निहितार्थ सिर्फ वही है जो आपको करना चाहिए, तो (ए) यह अक्सर यह कहने के लिए भी समस्याग्रस्त है कि आउटलेयर (बी) कई अन्य समाधान हैं। थ्रेड आँकड़े.स्टैकएक्सचेंज . com/questions/78063/… कई उल्लेख करने के लिए इसके शीर्षक से अधिक व्यापक है।
निक कॉक्स

1
यदि आप मेरे लिंक का अनुसरण करते हैं, तो आप देखेंगे कि मैंने पहले से ही आउटलेर्स पर कुछ लंबाई में पोस्ट किया है। मुझे आपके जवाब को फिर से पढ़ने पर कोई मतलब नहीं है कि आप रेट्रोस्पेक्टिव तरीके से सोच रहे हैं जैसा कि आप फिटिंग करते समय आउटलेर्स को हटाने के बारे में बात कर रहे हैं। फिर से पढ़ने पर, मैं यह भी नोट करता हूं कि आपके दूसरे पैराग्राफ के पहले वाक्य में यह विचार शामिल है कि एक विसंगति 'एक सामान्य प्रवृत्ति या व्यवहार' हो सकती है, जिसका अर्थ यह होने की संभावना नहीं है - या यदि यह है, तो मैं डॉन हूं ' t इसे समझें।
निक कॉक्स

1

अच्छा प्रश्न। हालांकि, Google खोज "आउटलेयर और विसंगतियों साइट के बीच अंतर: .edu" से पता चलता है कि इन दो शब्दों के बीच कोई सैद्धांतिक अंतर नहीं है। साहित्य में उनका परस्पर उपयोग किया जा रहा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.