मशीन सीखने के संदर्भ में बाहरी और विसंगति के बीच क्या अंतर है। मेरी समझ यह है कि दोनों एक ही चीज को संदर्भित करते हैं।
मशीन सीखने के संदर्भ में बाहरी और विसंगति के बीच क्या अंतर है। मेरी समझ यह है कि दोनों एक ही चीज को संदर्भित करते हैं।
जवाबों:
दो शब्द पर्यायवाची हैं:
अग्रवाल, चारु सी। बाह्य विश्लेषण। स्प्रिंगर न्यू यॉर्क, 2017, डोई: http://dx.doi.org/10.1007/978-3-319-47578-3-3
पृष्ठ 1 से उद्धरण:
आउटकैलर्स को डेटा माइनिंग और स्टैटिस्टिक्स साहित्य में असामान्यता, डिसॉर्डर, डेविंट्स या विसंगतियों के रूप में भी जाना जाता है ।
बोल्ड टेक्स्ट मूल टेक्स्ट का हिस्सा नहीं है।
लेखक से उपलब्ध पुस्तक का पीडीऍफ़ डाउनलोड करने का मुफ्त में यहाँ है।
एक जीभ में गाल का जवाब:
बाहरी: एक मूल्य जो आप अपने डेटा में अनुमानित रूप से पाते हैं जो इंगित करता है कि आपका मॉडल ठीक से काम नहीं करता है
विसंगति: एक मूल्य जो आपके डेटा में पाए जाने वाले सभी बाधाओं के विरुद्ध है जो आपके मॉडल को ठीक से काम करने का संकेत देता है
अधिक गंभीर, कम गूढ़ उत्तर:
आउटलेर्स की अवधारणा एक मॉडल बनाने के मुद्दे से शुरू होती है जो डेटा के बारे में धारणा बनाती है। आउटलेर अक्सर संकेतक होते हैं कि मॉडल डेटा का ठीक से वर्णन नहीं करता है और इस प्रकार हमें अपने मॉडल या हमारे डेटा की गुणवत्ता के परिणामों पर सवाल उठाना चाहिए।
विसंगतियों की अवधारणा सैद्धांतिक दुनिया के बाहर और लागू दुनिया के अंदर शुरू होती है: हम अपने डेटा में असामान्य व्यवहार की तलाश करना चाहते हैं, कभी-कभी इस तथ्य से प्रेरित होते हैं कि हम व्यवहार को खोजने में रुचि रखते हैं जिसे कोई छिपाने की कोशिश कर रहा है (जैसे वायरस में वायरस ईमेल)। समस्या यह है कि चूंकि लोग जो कर रहे हैं उसे छिपाने की कोशिश कर रहे हैं, हम वास्तव में नहीं जानते कि क्या देखना है। इसलिए हम "अच्छे" डेटा का एक सेट लेते हैं, और यह तय करते हैं कि जो भी हम अपने नए डेटासेट में पाते हैं जो "अच्छा" नहीं दिखता है वह एक विसंगति है और हमारे समय को और अधिक विस्तार से जांचने के लायक है। अक्सर, विसंगतियों की तलाश का मतलब है कि आपके नए डेटा सेट में आउटलेर की तलाश करना। लेकिन ध्यान दें कि आपके पुराने डेटासेट में दुर्लभ होने के बावजूद ये मूल्य आपके नए डेटासेट में बहुत सामान्य हो सकते हैं !
सारांश में, दो अवधारणाएं उनके पीछे के आंकड़ों (यानी आपके फिट किए गए मॉडल को असामान्य मान) के संदर्भ में बहुत समान हैं, लेकिन विभिन्न कोणों से विचार पर आते हैं। इसके अलावा, जब हम आउटलेयर के बारे में बात करते हैं, तो हम आम तौर पर हमारे मॉडल को फिट करने के लिए उपयोग किए जाने वाले डेटा में एक असामान्य डेटा बिंदु का मतलब करते हैं , जहां एक विसंगति का मतलब आमतौर पर हमारे मॉडल को फिट करने के लिए उपयोग किए जाने वाले डेटा के बाहर एक डेटासेट में एक असामान्य डेटा बिंदु के रूप में होता है ।
नोट: यह उत्तर इस बात पर आधारित है कि मैंने औपचारिक परिभाषाओं के बजाय दो शब्दों को अक्सर किस तरह देखा है। उपयोगकर्ता के अनुभव अलग हो सकते हैं।
एक विसंगति एक परिणाम है जिसे समझाया नहीं जा सकता है आधार वितरण (यदि हमारी धारणा सही है तो एक असंभवता)। एक आउटलाइयर एक अप्रत्याशित घटना है जिसे आधार वितरण (एक असंभवता) दिया गया है।
शब्द काफी हद तक एक विनिमेय तरीके से उपयोग किए जाते हैं। "बाहरी" आदर्श के बाहर कुछ झूठ बोलता है - इसलिए यह "विसंगतिपूर्ण" है। लेकिन मेरे पास एक अशुद्धि है कि "आउटलाइयर" का उपयोग आमतौर पर बहुत ही दुर्लभ टिप्पणियों के लिए किया जाता है । आंकड़ों में, एक सामान्य वितरण पर, आप तीन सिग्मा को आउटलेर मानते हैं। आपकी वस्तुओं का 99.7% "सामान्य" होने की उम्मीद है। "विसंगति" का उपयोग अधिक उदारतापूर्वक किया जाता है। यदि आपकी वेबसाइट पर आपके अचानक लाखों विज़िटर हैं, तो ये दुर्लभ विज़िटर नहीं हैं। हालांकि आगंतुकों में अचानक वृद्धि अभी भी "विसंगतिपूर्ण" है, जबकि प्रत्येक व्यक्तिगत आगंतुक एक "बाहरी" नहीं है।
यह इस लेख में हो सकता है जहाँ मैंने इन मतभेदों पर चर्चा करते हुए देखा, लेकिन दुर्भाग्य से, मैं अभी इसका उपयोग नहीं कर सकता।
सांख्यिकीय विश्लेषण और डेटा खनन, खंड 5, अंक 5, अक्टूबर 2012, पृष्ठ 363–387 उच्च-आयामी संख्यात्मक डेटा में अनपेक्षित बाह्य विकृति पर एक सर्वेक्षण
जलवायु विज्ञान की विसंगति में, आगे पानी को मैला करने के लिए, बस मूल्य और माध्य या विचलन के बीच अंतर का अर्थ है:
शब्द तापमान विसंगति का अर्थ है संदर्भ मूल्य या लंबी अवधि के औसत से प्रस्थान। एक सकारात्मक विसंगति इंगित करती है कि मनाया तापमान संदर्भ मूल्य से अधिक गर्म था, जबकि एक नकारात्मक विसंगति इंगित करती है कि मनाया तापमान संदर्भ मूल्य से अधिक ठंडा था।
यह अच्छी तरह से बाहर की मशीन सीखने के रूप में माना जा सकता है, लेकिन सवाल में रुचि रखने वाले लोगों को इसमें रुचि हो सकती है।
एक आउटलाइयर एक डेटा बिंदु है जो एक मॉडल को फिट करना मुश्किल बनाता है। जब आप अपने डेटासेट पर किसी मॉडल को फिट करने का प्रयास कर रहे हों, तो आप अक्सर अनिच्छा से सामना करते हैं। बाहरी लोगों को हटाने से बेहतर (यानी अधिक सामान्य) मॉडल बनाने में सक्षम होता है। एक बिंदु मॉडल लिए एक अधिकरण होगा । आप इस तथ्य के प्रकाश में इसे अनदेखा करते हैं कि आपके सभी अन्य अंक , , अधिक बारीकी से फिट ।y = x ( 1 , 1 ) ( 5 , 5 ) ( 3 , 3.1 ) y = x
एक विसंगति एक डेटा बिंदु हो सकती है, या एक मॉडल के पहले से निर्मित या डेटा-जनरेट करने की प्रक्रिया की समझ के बाद डेटा में देखी गई एक सामान्य प्रवृत्ति या व्यवहार भी हो सकती है। आप विसंगतियों का सामना करते हैं क्योंकि सिस्टम अलग तरह से व्यवहार करना शुरू कर देता है, या आप ऐसे डेटा बिंदुओं की तलाश करते हैं, क्योंकि आप चाहते हैं कि जब कोई घटना घटित हो, जिसके दौरान आपका मॉडल मान्य न हो तो आपको सूचित किया जाए। आप समुद्र की लहरों के आयामों में किसी भी विषम व्यवहार को देखने के बारे में परवाह कर सकते हैं, न कि इसलिए कि आप उन डेटा बिंदुओं को दूर करना चाहते हैं और एक बेहतर मॉडल का निर्माण करना चाहते हैं, लेकिन क्योंकि आप चाहते हैं कि जब सुनामी हो रही हो तो आप जागरूक हों।