कैसे परीक्षण करें कि क्या दो बहुभिन्नरूपी वितरण एक ही अंतर्निहित जनसंख्या से नमूने लिए गए हैं?


13

मान लें कि आपको दो बहुभिन्नरूपी डेटा सेट दिए गए हैं, एक पुराना और एक नया कहें, और माना जाता है कि वे एक ही प्रक्रिया द्वारा उत्पन्न किए गए हैं (जो आपके लिए कोई मॉडल नहीं है), लेकिन शायद, कहीं इकट्ठा करने / बनाने की रेखा के साथ डेटा, कुछ गड़बड़ हो गया। आप नए डेटा का उपयोग करना नहीं चाहेंगे, जैसे कि पुराने डेटा के लिए एक सत्यापन सेट या पुराने डेटा को जोड़ने के लिए।

आप 1-डी आँकड़ों (प्रति चर) का एक गुच्छा कर सकते हैं, उदाहरण के लिए विलकॉक्सन रैंक राशि, और कुछ कई परीक्षण सुधार का प्रयास करें, लेकिन मुझे यकीन नहीं है कि यह इष्टतम है (बहुभिन्नरूपी डेटा की पेचीदगियों को पकड़ने के लिए अकेले बहु-परीक्षण के मुद्दे हैं)। एक तरीका एक क्लासिफायर का उपयोग करना है और यह देखना है कि क्या आप दो डेटासेट के बीच भेदभाव कर सकते हैं (एक इष्टतम क्लासिफायरियर जो कि इष्टतम है)। यह काम करने लगता है, लेकिन अभी भी एक) perppas वहाँ एक बेहतर तरीका है ख) यह वास्तव में आपको यह बताने के लिए डिज़ाइन नहीं किया गया है कि यह अलग क्यों है (यदि और कुछ नहीं तो यह सबसे अच्छा भविष्यवक्ताओं का उपयोग करेगा और संभवतः अन्य अच्छे भविष्यवक्ताओं को याद करेंगे जो बेहतर लोगों द्वारा अभिभूत थे)

जवाबों:


3
http://131.95.113.139/courses/multivariate/mantel.pdf

करने के दो संभावित तरीकों पर चर्चा करता है कि यदि आपके डेटासेट समान आकार के हैं। मूल दृष्टिकोण आपके दो देखे गए मैट्रिक्स के बीच एक दूरी मीट्रिक की गणना करना है। फिर यह निर्धारित करने के लिए कि क्या दूरी महत्वपूर्ण है, आप क्रमपरिवर्तन परीक्षण का उपयोग करते हैं

यदि आपके डेटासेट समान आकार के नहीं हैं, तो आप क्रॉस-मैच टेस्ट का उपयोग कर सकते हैं, हालांकि यह बहुत लोकप्रिय प्रतीत नहीं होता है। क्रॉस-मैच टेस्ट के बजाय आप अपने डेटा को सैंपल अप या डाउन करने की कोशिश कर सकते हैं ताकि वे समान आकार के हों, फिर पहले पेपर में बताए गए तरीकों में से एक का उपयोग कर।


आप उल्लेख करते हैं कि हमारे पास असमान आकार के डेटासेट हैं, क्रॉस-मैच टेस्ट का उपयोग करें। हालाँकि आपके द्वारा उल्लिखित कागज के बाद, वे समान डेटासेट का उपयोग करते हैं और दूरियों के आधार पर जोड़ी बनाते हैं। क्या आपको इसका कोई सबूत मिला है? क्रॉस-मैच के लिए रिलीज़ नोट्स में भी, उदाहरण समान डेटासेट का उपयोग करता है
lukeg

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.