मान लें कि आपको दो बहुभिन्नरूपी डेटा सेट दिए गए हैं, एक पुराना और एक नया कहें, और माना जाता है कि वे एक ही प्रक्रिया द्वारा उत्पन्न किए गए हैं (जो आपके लिए कोई मॉडल नहीं है), लेकिन शायद, कहीं इकट्ठा करने / बनाने की रेखा के साथ डेटा, कुछ गड़बड़ हो गया। आप नए डेटा का उपयोग करना नहीं चाहेंगे, जैसे कि पुराने डेटा के लिए एक सत्यापन सेट या पुराने डेटा को जोड़ने के लिए।
आप 1-डी आँकड़ों (प्रति चर) का एक गुच्छा कर सकते हैं, उदाहरण के लिए विलकॉक्सन रैंक राशि, और कुछ कई परीक्षण सुधार का प्रयास करें, लेकिन मुझे यकीन नहीं है कि यह इष्टतम है (बहुभिन्नरूपी डेटा की पेचीदगियों को पकड़ने के लिए अकेले बहु-परीक्षण के मुद्दे हैं)। एक तरीका एक क्लासिफायर का उपयोग करना है और यह देखना है कि क्या आप दो डेटासेट के बीच भेदभाव कर सकते हैं (एक इष्टतम क्लासिफायरियर जो कि इष्टतम है)। यह काम करने लगता है, लेकिन अभी भी एक) perppas वहाँ एक बेहतर तरीका है ख) यह वास्तव में आपको यह बताने के लिए डिज़ाइन नहीं किया गया है कि यह अलग क्यों है (यदि और कुछ नहीं तो यह सबसे अच्छा भविष्यवक्ताओं का उपयोग करेगा और संभवतः अन्य अच्छे भविष्यवक्ताओं को याद करेंगे जो बेहतर लोगों द्वारा अभिभूत थे)