आइए बताते हैं कि मेरे पास एन-आयामी निरंतर-मूल्यवान वैक्टर के दो या अधिक नमूना आबादी हैं। अगर ये नमूने समान वितरण से हैं, तो क्या इसका परीक्षण करने का एक गैर-तरीका है? यदि हां, तो क्या इसके लिए आर या अजगर में एक फ़ंक्शन है?
आइए बताते हैं कि मेरे पास एन-आयामी निरंतर-मूल्यवान वैक्टर के दो या अधिक नमूना आबादी हैं। अगर ये नमूने समान वितरण से हैं, तो क्या इसका परीक्षण करने का एक गैर-तरीका है? यदि हां, तो क्या इसके लिए आर या अजगर में एक फ़ंक्शन है?
जवाबों:
जब मैंने महसूस किया कि कोलमोगोरोव-स्मिर्नोव परीक्षण मल्टीवेरिएट नहीं था तब मैंने मल्टीवेरेट दो नमूना परीक्षणों पर बहुत शोध किया। इसलिए मैंने ची परीक्षण, हॉटेलिंग के टी ^ 2, एंडरसन-डार्लिंग, क्रैमर-वॉन मिज़ कसौटी, शापिरो-विल्क, आदि पर ध्यान दिया, आपको सावधान रहना होगा क्योंकि इनमें से कुछ परीक्षण उसी की तुलना में वैक्टर पर निर्भर करते हैं। लंबाई। दूसरों को केवल सामान्यता की धारणा को अस्वीकार करने के लिए उपयोग किया जाता है, न कि दो नमूना वितरणों की तुलना करने के लिए।
अग्रणी समाधान दो नमूनों के संचयी वितरण कार्यों की तुलना सभी संभावित आदेशों के साथ करता है, जो कि आपको संदेह हो सकता है, कुछ कम्प्यूटरीकृत रूप से गहन है, कुछ हजार रिकॉर्ड वाले नमूने के एक ही रन के लिए मिनट के क्रम पर:
https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf
जैसा कि जिओ के प्रलेखन में कहा गया है, फसानो और फ्रांसेचिनी परीक्षण मयूर परीक्षण का एक प्रकार है:
http://adsabs.harvard.edu/abs/1987MNRAS.225..155F
फसानो और फ्रांसेचिनी परीक्षण का उद्देश्य विशेष रूप से कम कम्प्यूटेशनल रूप से गहन होना था, लेकिन मैंने आर में उनके काम का कार्यान्वयन नहीं पाया है।
आप में से जो लोग मोर बनाम फसानो और फ्रांसेचिनी परीक्षण के कम्प्यूटेशनल पहलुओं का पता लगाना चाहते हैं, उनके लिए दो आयामी कोलमोगोरोव-स्मिरनोव परीक्षण के लिए कम्प्यूटेशनल रूप से कुशल एल्गोरिदम देखें।
पैकेज पैकेज एनपी (गैर-पैरामीट्रिक) में एकीकृत स्क्वैन्स घनत्व का उपयोग करके निरंतर और श्रेणीबद्ध डेटा की घनत्व की समानता के लिए एक परीक्षण है । ली, मासाउमी, और रेसीन (2009)
साथ ही np सशर्त पीडीएफ को अनुभाग 6 में ।
हां, यदि दो बहुभिन्नरूपी नमूने एक ही संयुक्त वितरण से हैं, तो परीक्षण के अप्रस्तुत तरीके हैं। मैं एल फिशमैन द्वारा वर्णित लोगों को छोड़कर विवरण का उल्लेख करूंगा । आपके द्वारा पूछी जा रही मूल समस्या को 'टू-सैंपल-प्रॉब्लम' कहा जा सकता है और वर्तमान में जर्नल ऑफ़ मशीन लर्निंग रिसर्च एंड एनल्स ऑफ़ स्टैटिस्टिक्स और अन्य जैसी पत्रिकाओं में अच्छी मात्रा में शोध चल रहा है। इस समस्या पर अपने थोड़े से ज्ञान के साथ, मैं निम्नानुसार दिशा दे सकता हूं
यदि आपकी रुचि संदर्भ बिंदु सेट के साथ विभिन्न बिंदु सेट (नमूना सेट) की तुलना करने के लिए है, तो यह देखने के लिए कि वे संदर्भ बिंदु सेट को कितनी बारीकी से देखते हैं, आप एफ-डाइवर्जेंस का उपयोग कर सकते हैं ।
दृष्टिकोण के अन्य तरीके भी हो सकते हैं, यह उत्तर किसी भी तरह से आपके प्रश्न का एक व्यापक उपचार नहीं है;)