यदि बहुआयामी वितरण समान हैं तो परीक्षण करें


15

आइए बताते हैं कि मेरे पास एन-आयामी निरंतर-मूल्यवान वैक्टर के दो या अधिक नमूना आबादी हैं। अगर ये नमूने समान वितरण से हैं, तो क्या इसका परीक्षण करने का एक गैर-तरीका है? यदि हां, तो क्या इसके लिए आर या अजगर में एक फ़ंक्शन है?


2
कोल्मोगोरोव-स्मिरनोव परीक्षण दो गैर-समान वितरण परीक्षण के लिए एक विशिष्ट गैर-पैरामीट्रिक उपकरण है। मैं इससे परिचित नहीं हूं, लेकिन विकिपीडिया जस्टेल, ए।, पेना, डी। और ज़मार, आर। (1997) को संदर्भित करता है , फिट, सांख्यिकी और प्रोबेट लेटर्स, 35 (3) की अच्छाई की एक बहुभिन्नरूपी कोलमोगोरोव-स्मिरनोव परीक्षा। 251-259 । इस परीक्षण के एक बहुभिन्नरूपी विस्तार के लिए।
मैक्रो

1
इसे दो आयामों में संबोधित करने वाला एक CV प्रश्न है: आँकड़ा.स्टैकएक्सचेंज . com / questions / 25946/… । यहां तक ​​कि दो आयामों में, इसे करने के लिए कोई मानक तरीका नहीं है।
फ्लाउंडर

जवाबों:


8

जब मैंने महसूस किया कि कोलमोगोरोव-स्मिर्नोव परीक्षण मल्टीवेरिएट नहीं था तब मैंने मल्टीवेरेट दो नमूना परीक्षणों पर बहुत शोध किया। इसलिए मैंने ची परीक्षण, हॉटेलिंग के टी ^ 2, एंडरसन-डार्लिंग, क्रैमर-वॉन मिज़ कसौटी, शापिरो-विल्क, आदि पर ध्यान दिया, आपको सावधान रहना होगा क्योंकि इनमें से कुछ परीक्षण उसी की तुलना में वैक्टर पर निर्भर करते हैं। लंबाई। दूसरों को केवल सामान्यता की धारणा को अस्वीकार करने के लिए उपयोग किया जाता है, न कि दो नमूना वितरणों की तुलना करने के लिए।

अग्रणी समाधान दो नमूनों के संचयी वितरण कार्यों की तुलना सभी संभावित आदेशों के साथ करता है, जो कि आपको संदेह हो सकता है, कुछ कम्प्यूटरीकृत रूप से गहन है, कुछ हजार रिकॉर्ड वाले नमूने के एक ही रन के लिए मिनट के क्रम पर:

https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf

जैसा कि जिओ के प्रलेखन में कहा गया है, फसानो और फ्रांसेचिनी परीक्षण मयूर परीक्षण का एक प्रकार है:

http://adsabs.harvard.edu/abs/1987MNRAS.225..155F

फसानो और फ्रांसेचिनी परीक्षण का उद्देश्य विशेष रूप से कम कम्प्यूटेशनल रूप से गहन होना था, लेकिन मैंने आर में उनके काम का कार्यान्वयन नहीं पाया है।

आप में से जो लोग मोर बनाम फसानो और फ्रांसेचिनी परीक्षण के कम्प्यूटेशनल पहलुओं का पता लगाना चाहते हैं, उनके लिए दो आयामी कोलमोगोरोव-स्मिरनोव परीक्षण के लिए कम्प्यूटेशनल रूप से कुशल एल्गोरिदम देखें।


बहुभिन्नरूपी के लिए संचयी वितरण क्या है?
अक्कल

2
@Akakal के सामान्यीकरण के साथ varates तक और बहुभिन्नरूपी अनुभवजन्य संचयी वितरण फ़ंक्शन का अनुमान है समान रूप से । पी एफ ( एक्स , वाई ) = Σ n मैं = 1 मैं ( एक्स मैं < एक्स , वाई मैं < y ) / nF(x,y)=P(X<x,Y<y)pF(x,y)=i=1nI(Xi<x,Yi<y)/n
आदमियो

2
अच्छा और संक्षिप्त, एडमो। मयूर परीक्षण प्रूनिंग नहीं करने में मूर्खतापूर्ण लगता है, जैसा कि फसानो और फ्रांसेचिनी करते हैं। चलो आशा करते हैं कि कोई व्यक्ति इसे आर के लिए एक दिन कोड करने का फैसला करता है। यह गति के लिए विशेष रूप से उपयोगी है जब आपके पास रिकॉर्ड और भी विघटित हो सकते हैं, शायद एक श्रेणीगत चर द्वारा, और यह देखना चाहते हैं कि क्या आपके डिकम्पोजिशन वास्तव में विभिन्न वितरणों से खींचे गए हैं।
एल फिशमैन

1

पैकेज पैकेज एनपी (गैर-पैरामीट्रिक) में एकीकृत स्क्वैन्स घनत्व का उपयोग करके निरंतर और श्रेणीबद्ध डेटा की घनत्व की समानता के लिए एक परीक्षण है । ली, मासाउमी, और रेसीन (2009)

साथ ही np सशर्त पीडीएफ को अनुभाग 6 में


1

हां, यदि दो बहुभिन्नरूपी नमूने एक ही संयुक्त वितरण से हैं, तो परीक्षण के अप्रस्तुत तरीके हैं। मैं एल फिशमैन द्वारा वर्णित लोगों को छोड़कर विवरण का उल्लेख करूंगा । आपके द्वारा पूछी जा रही मूल समस्या को 'टू-सैंपल-प्रॉब्लम' कहा जा सकता है और वर्तमान में जर्नल ऑफ़ मशीन लर्निंग रिसर्च एंड एनल्स ऑफ़ स्टैटिस्टिक्स और अन्य जैसी पत्रिकाओं में अच्छी मात्रा में शोध चल रहा है। इस समस्या पर अपने थोड़े से ज्ञान के साथ, मैं निम्नानुसार दिशा दे सकता हूं

  • बहुभिन्नरूपी नमूना सेटों के परीक्षण का एक हालिया तरीका है अधिकतम औसत विसंगति (MMD); संबंधित साहित्य: आर्थर ग्रेटन 2012 , भारथ 2010 और अन्य। अन्य संबंधित विधियां इन शोध लेखों में पाई जा सकती हैं। यदि दिलचस्पी है, तो कृपया इन लेखों का हवाला देते हुए, इस समस्या में अत्याधुनिक कला का एक बड़ा चित्र प्राप्त करने के लिए लेखों को देखें और हाँ, इसके लिए आर कार्यान्वयन हैं।

यदि आपकी रुचि संदर्भ बिंदु सेट के साथ विभिन्न बिंदु सेट (नमूना सेट) की तुलना करने के लिए है, तो यह देखने के लिए कि वे संदर्भ बिंदु सेट को कितनी बारीकी से देखते हैं, आप एफ-डाइवर्जेंस का उपयोग कर सकते हैं ।

  • इसका एक लोकप्रिय विशेष मामला कुल्बैक-लीब्लर डाइवर्जेंस है । यह कई मशीन सीखने के शासनों में उपयोग किया जाता है। यह फिर से दो एनपी तरीकों से किया जा सकता है; parzen विंडो (कर्नेल) एप्रोच और K-नियरेस्ट पड़ोसी पीडीएफ अनुमानक के माध्यम से।

दृष्टिकोण के अन्य तरीके भी हो सकते हैं, यह उत्तर किसी भी तरह से आपके प्रश्न का एक व्यापक उपचार नहीं है;)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.