प्रश्न के निर्माण से, मैं मानता हूं कि विसंगतियों (अर्थात लेबल) का कोई "उदाहरण" नहीं है। उस धारणा के साथ, एक व्यवहार्य दृष्टिकोण ऑटोएन्कोडर्स का उपयोग करना होगा : तंत्रिका नेटवर्क जो आपके डेटा को इनपुट के रूप में प्राप्त करते हैं और उन्हें उसी डेटा को आउटपुट करने के लिए प्रशिक्षित किया जाता है। विचार यह है कि प्रशिक्षण ने नेट को अव्यक्त चरों के रूप में इनपुट डेटा वितरण के अभ्यावेदन सीखने की अनुमति दी है।
वहाँ बुलाया autoencoder का एक प्रकार है denoising autoencoder , जिसके साथ प्रशिक्षित किया जाता है भ्रष्ट संस्करणों इनपुट के रूप में और साथ मूल डेटा का uncorrupted आउटपुट के रूप में मूल डेटा। यह एक नेटवर्क वितरित करता है जो इनपुट से शोर (यानी डेटा भ्रष्टाचार) को हटा सकता है।
आप दैनिक डेटा के साथ एक ख़राब ऑटोकेनडर को प्रशिक्षित कर सकते हैं। फिर इसे नए दैनिक डेटा पर उपयोग करें; इस तरह आपके पास मूल दैनिक डेटा और उन्हीं डेटा का एक अनियंत्रित संस्करण है। फिर आप महत्वपूर्ण अंतरों का पता लगाने के लिए दोनों की तुलना कर सकते हैं ।
यहां कुंजी महत्वपूर्ण अंतर की परिभाषा है जिसे आप चुनते हैं। आप यूक्लिडियन दूरी की गणना कर सकते हैं और यह मान सकते हैं कि अगर यह कुछ मनमानी सीमा से आगे निकल जाता है, तो आपके पास एक विसंगति है। एक अन्य महत्वपूर्ण कारक आपके द्वारा पेश किए जाने वाले भ्रष्टाचारों का प्रकार है ; उन्हें उचित असामान्यताओं के जितना संभव हो उतना करीब होना चाहिए।
एक अन्य विकल्प जनरेटिव एडवरसियर नेटवर्क का उपयोग करना होगा । प्रशिक्षण का उपोत्पाद एक भेदभावपूर्ण नेटवर्क है जो असामान्य डेटा से सामान्य दैनिक डेटा को बताता है ।