विसंगति का पता लगाने: क्या एल्गोरिथ्म का उपयोग करने के लिए?


10

संदर्भ: मैं एक ऐसी प्रणाली विकसित कर रहा हूं, जो कि टाइप करने योग्य डेटा को छानने के लिए नैदानिक ​​डेटा का विश्लेषण करती है जो कि टाइपोस हो सकती है।

मैंने अब तक क्या किया:

पठनीयता की मात्रा निर्धारित करने के लिए, मेरा अब तक का प्रयास डेटा को सामान्य करने का था और फिर सेट डी (= प्रशिक्षण सेट) में ज्ञात डेटा बिंदुओं की दूरी के आधार पर बिंदु p के लिए एक संभाव्यता मान की गणना करें:

plausibility(p)=qDGauss(distance(p,q))

उस परिमाण के साथ, मैं तब एक दहलीज का चयन कर सकता हूं जो प्रशंसनीय डेटा को अनुमानित डेटा से अलग करता है। मैं अजगर / सुन्न का उपयोग कर रहा हूँ।

मेरी समस्याएं:

  1. यह एल्गोरिथ्म स्वतंत्र आयामों का पता नहीं लगा सकता है। आदर्श रूप में, मैं एल्गोरिथ्म में रिकॉर्ड के बारे में जो कुछ भी जानता हूं उसे डाल सकता हूं और यह खुद ही पता लगा सकता हूं कि आयाम एक्स रिकॉर्ड की बहुलता को प्रभावित नहीं करता है।
  2. एल्गोरिथ्म वास्तव में असतत मूल्यों जैसे बुलियन या चुनिंदा इनपुट के लिए काम नहीं करता है। उन्हें निरंतर मूल्यों पर मैप किया जा सकता है, लेकिन यह काउंटर-सहज ज्ञान युक्त है कि Select 1, Select 3 की तुलना में Select 2 के करीब है।

सवाल:

इस कार्य के लिए मुझे किस प्रकार के एल्गोरिदम को देखना चाहिए? निकटतम पड़ोसी आधारित, क्लस्टरिंग आधारित और सांख्यिकीय दृष्टिकोण सहित विकल्पों में से एक टन प्रतीत होता है। इसके अलावा, मुझे ऐसे कागजात खोजने में परेशानी होती है जो इस जटिलता के विसंगति का पता लगाते हैं।

किसी भी सलाह बहुत सराहना की है।

[संपादित करें] उदाहरण:

मान लीजिए कि डेटा में एक व्यक्ति की ऊंचाई, एक व्यक्ति का वजन और टाइमस्टैम्प शामिल है - तो यह 3 डी-डेटा है। वजन और ऊंचाई सहसंबद्ध हैं, लेकिन टाइमस्टैम्प पूरी तरह से स्वतंत्र है। अगर मैं सिर्फ यूक्लिडियन दूरियों पर विचार करता हूं, तो मुझे अपने अधिकांश क्रॉस सत्यापन डेटा को फिट करने के लिए एक छोटी सी सीमा चुननी होगी। आदर्श रूप से, एल्गोरिथ्म सिर्फ टाइमस्टैम्प आयाम को अनदेखा करेगा, क्योंकि यह निर्धारित करना अप्रासंगिक है कि कोई रिकॉर्ड प्रशंसनीय है, क्योंकि टाइमस्टैम्प किसी भी तरह से अन्य आयामों के साथ संबंध नहीं रखता है। किसी भी टाइमस्टैम्प प्रशंसनीय है।

दूसरी ओर, कोई भी ऐसे उदाहरण बना सकता है जहां टाइमस्टैम्प मायने रखता है। उदाहरण के लिए यह हो सकता है कि सुविधा X के लिए मान Y एक निश्चित तिथि से पहले मापा जाता है, लेकिन एक निश्चित तिथि के बाद नहीं।


कृपया मेरे प्रतिसाद को देखें। क्योंकि यह इस घबराहट को (कुछ!) प्रश्न के रूप में आंकता है ।stackexchange.com/questions/97946/changepoint-in-r
आयरिशस्टैट

क्या आँकड़े .stackexchange.com/questions/213 आप जिस चीज़ की तलाश कर रहे हैं, वह होगी?
whuber

मुझे संदेह है कि आप बूलियंस के लिए यह काम कर सकते हैं।
अक्कल

@ जब भी मुझे यकीन नहीं हो रहा है, यह नहीं लगता है कि कैसे अप्रासंगिक आयामों को अनदेखा किया जा सकता है।
जॉर्ज

1
वैसे, मैं भी वर्णित दृष्टिकोण के लिए एक औपचारिकता खोजने के लिए संघर्ष कर रहा हूं। अगर मुझे औपचारिक शब्द पता होता, तो इससे मुझे अपने शोध में भी मदद मिलती। हो सकता है कि इस एल्गोरिथ्म में भिन्नता हो जो कम से कम स्वतंत्र / अप्रासंगिक आयाम मुद्दे को संबोधित करता हो।
जॉर्ज

जवाबों:


7

एनोमली डिटेक्शन का एक विशिष्ट सूत्र गैर-विसंगत डेटा की प्रत्येक विशेषताओं के लिए माध्य और विचरण करना है और यदि उन विशेषताओं का एक वेक्टर है जिसमें घटक तो सुविधाओं के संयोजन के प्रायिकता को परिभाषित करें।mxxip(x)

p(x)=i=1mp(xi;μi,σi2)

जहाँ प्रत्येक को गॉसियन वितरित किया जाता है:xixiN(μi,σi2)

जब भी विसंगति होता हैp(x)<ϵ

प्रत्येक का वितरण वास्तव में सामान्य होने की आवश्यकता नहीं है, लेकिन यह कम से कम सामान्य-समान है तो बेहतर है। लेकिन आपके द्वारा उपयोग की जाने वाली सुविधाएँ मनमानी हैं; वे अगर आपको लगता है कि एक विशेषता तो उदाहरण के लिए कच्चे डेटा से सीधे लिया जा सकता है या अभिकलन, बेहतर का उपयोग कर मॉडलिंग की है तो सुविधा के लिए सेट के बजाय ।xixiloglog(xi)xi

यह बहुत कुछ वैसा ही प्रतीत होता है जैसा आप पहले से कर रहे हैं यदि आप लेते हैं ।q=μ

निर्धारण करनाϵ

एल्गोरिथ्म नकारात्मक उदाहरणों (गैर-विसंगतियों) के लिए फिट है। लेकिन क्रॉस-सत्यापन सेट से निर्धारित किया जाता है, और आमतौर पर उस मूल्य के रूप में चुना जाता है जो सबसे अच्छा स्कोर प्रदान करता हैएफ ϵF1

F1=2PrecisionRecallPrecision+Recall

लेकिन एफ 1 की गणना करने के लिए आपको यह जानना होगा कि क्या विसंगति है और क्या नहीं है; यह सच है कि जब सिस्टम विसंगति की भविष्यवाणी करता है तो यह वास्तविक सकारात्मकता है और यह वास्तव में एक विसंगति है, झूठी सकारात्मकता वाली विसंगतियों की भविष्यवाणी की जाती है जो वास्तव में नहीं हैं और इसी तरह। इसलिए जब तक आपके पास ऐसा नहीं है, तब तक आपको अनुमान लगाने के लिए वापस आना पड़ सकता है।

सहसंबद्ध सुविधाओं की समस्या

यदि सुविधाओं को सहसंबद्ध किया जाता है तो उपरोक्त में एक खामी है। यदि वे हैं तो उपर्युक्त गणना वास्तव में है कि विसंगति के रूप में कुछ झंडा करने में विफल हो सकती है। इसके लिए एक फिक्स फीचर्स के लिए मल्टीवेरेट गॉसियन का उपयोग कर रहा है जहां सहसंयोजक मैट्रिक्स है।ΣmΣ

p(x)=1(2π)m2(detΣ)1/2e12(xμ)TΣ1(xμ)

समान चीज को खोजने के लिए जाती है और इस दृष्टिकोण में एक खामी भी है, जिसे आपको के व्युत्क्रम की गणना करनी चाहिए । तो कम से कम सुविधाओं के रूप में कई नमूने होने चाहिए और यदि सुविधाओं की संख्या बड़ी है तो प्रक्रिया कम्प्यूटेशनल रूप से गहन होगी, और आपको फिर से रैखिक रूप से निर्भर सुविधाओं की रक्षा करनी चाहिए। उन कैविटीज़ को ध्यान में रखें, लेकिन यह आपके लिए समस्या नहीं है।ϵΣ


मैंने पहले से ही इस दृष्टिकोण की कोशिश की है, जिसमें बहुभिन्नरूपी गौसियन वितरण शामिल है। वास्तव में, असंबंधित विशेषताएं इस दृष्टिकोण के साथ बहुत समस्या नहीं हैं। मैंने पाया कि यह दृष्टिकोण जटिल मॉडल के लिए उपयुक्त नहीं है। उदाहरण के लिए, अगर मेरे पास एफ 2, एफ 2 के साथ एक 2 डी डेटासेट था, तो ऐसा होता है जहां ऐसा होता है कि लगभग एफ 2 = एफ 1 ^ 3, मल्टीवेरेट गौसियन वितरण केवल डेटा के चारों ओर एक दीर्घवृत्त खींचेगा और डेटा को लगभग मोटे तौर पर मॉडल करेगा। इसलिए मैं प्रश्न में वर्णित दृष्टिकोण के लिए गया था (जहां एक क्यू नहीं बल्कि कई क्यू हैं)।
जॉर्ज

तो, क्या मल्टीवेरिएट गॉसियन दृष्टिकोण लेने और इसे लागू करने का एक तरीका है जो अधिक जटिल डेटा मॉडल पर कब्जा कर सकता है? उदाहरण के लिए, क्या मिश्रण मॉडल इस मामले में मेरी मदद कर सकते हैं? मैंने अपने शोध में उन लोगों के बारे में थोड़ा पढ़ा है, लेकिन उन्हें पूरी तरह से समझ नहीं आया कि उन्हें कैसे लागू किया जाए।
जॉर्ज

@Georg हम्म मुझे आश्चर्य है कि अगर आपकी समस्या जटिल मॉडल की समस्या नहीं है, लेकिन जटिल डेटा और बहुत सरल मॉडल। या दूसरे शब्दों में अंडर-फिटिंग। उपरोक्त मामले में, यदि आप का उपयोग करने के बजाय का उपयोग करते हैं तो क्या होता है ? सुविधाएँ या तो डेटा से ली जा सकती हैं या गणना की जा सकती हैं। (F1,F2)(F1,F21/3)
वेटीम

हां, अंडरफिटिंग का मेरा मतलब है। और हाँ, यह काम करेगा, लेकिन मैं एल्गोरिथ्म का पता लगाना चाहता हूं जो स्वचालित रूप से है। मैं मैन्युअल रूप से सुविधाओं को संशोधित नहीं कर सकता, यह किसी भी मामले के लिए काम करना चाहिए।
जॉर्ज

यहां एक उदाहरण है: दो भूखंडों की ऊंचाई (एक्स अक्ष) और वजन (y अक्ष) (जर्मन कैप्शन के लिए क्षमा करें);) के लिए डेटा प्रदर्शित करते हैं। पहला कथानक बहुभिन्नरूपी गॉसियन दृष्टिकोण का परिणाम दिखाता है, दूसरा प्रश्न में वर्णित दृष्टिकोण का। दोनों मामलों में, थ्रेशोल्ड को इस तरह से चुना गया था कि सीवी डेटा का 97% प्रशंसनीय माना जाता है। दूसरा दृष्टिकोण डेटा की जटिलता को बेहतर ढंग से पकड़ने में सक्षम है। 1: dl.dropboxusercontent.com/u/26034024/anomaly/gauss.png 2: dl.dropboxusercontent.com/u/26034024/anomaly/distance .png
जॉर्ज

3

मैंने इन समस्याओं को हल करने के लिए आवश्यक परियोजना को लगभग समाप्त कर दिया है और यदि कोई समस्या है, तो मैं अपना समाधान साझा करना चाहूंगा।

सबसे पहले, मैंने जिस दृष्टिकोण का वर्णन किया है, वह कर्नेल घनत्व अनुमान के समान है । इसलिए, यह शोध के लिए अच्छा था ...

स्वतंत्र सुविधाएँ

इसके सहसंबंध गुणांक को मापकर स्वतंत्र सुविधाओं को फ़िल्टर किया जा सकता है । मैंने जोड़ी द्वारा सभी विशेषताओं की तुलना की और सहसंबंध को मापा। फिर, मैंने स्केलिंग फैक्टर के रूप में प्रत्येक फीचर का अधिकतम पूर्ण सहसंबंध गुणांक लिया। इस तरह, ऐसे फीचर्स जो किसी अन्य के साथ सहसंबंध नहीं रखते हैं, 0 के करीब के मान से गुणा किए जाते हैं और इस प्रकार यूक्लिडियन दूरी पर उनका प्रभाव होता है(उर्फ ) नगण्य है।||x1x2||distance(x1,x2)

सावधान रहें: सहसंबंध गुणांक केवल रैखिक सहसंबंधों को माप सकता है। विवरण के लिए लिंक किए गए विकी पृष्ठ देखें। यदि डेटा में सहसंबंध को रैखिक रूप से अनुमानित किया जा सकता है, तो यह ठीक काम करता है। यदि नहीं, तो आपको इस पेपर के अंतिम पृष्ठ पर एक नज़र डालनी चाहिए और देखना चाहिए कि क्या आप स्केलिंग कारक के साथ आने के लिए उनके सहसंबंध के माप का उपयोग कर सकते हैं।

असतत मान

मैंने वर्णित एल्गोरिथम का उपयोग केवल सातत्य मूल्यों के लिए किया। प्रशिक्षण सेट को फ़िल्टर करने के लिए असतत मानों का उपयोग किया गया था। इसलिए यदि मेरे पास किसी व्यक्ति की ऊंचाई और वजन है और मुझे पता है कि वह महिला है, तो मैं केवल अन्य महिलाओं के नमूने देखूंगा ताकि विसंगति की जांच हो सके।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.