मैं कुछ अच्छी शब्दावली की तलाश कर रहा हूं जो यह बताने के लिए कि मैं क्या करने की कोशिश कर रहा हूं, संसाधनों की तलाश करना आसान बनाता है।
तो, मान लीजिए कि मेरे पास A और B के दो-दो क्लस्टर हैं, प्रत्येक दो मानों, X और Y से जुड़ा है, और मैं A और B के बीच "दूरी" को मापना चाहता हूं - यानी यह कैसे संभव है कि वे समान वितरण से नमूना किए गए थे (मैं मान सकता हूं कि वितरण सामान्य हैं)। उदाहरण के लिए, यदि X और Y A में नहीं, बल्कि B में सहसंबद्ध हैं, तो वितरण अलग-अलग हैं।
सहज रूप से, मुझे ए का सहसंयोजक मैट्रिक्स मिलेगा, और फिर बी में प्रत्येक बिंदु को वहां फिट होने की संभावना है, और इसके विपरीत (शायद महालनोबिस दूरी की तरह कुछ का उपयोग करके) देखें।
लेकिन यह थोड़ा "एड-हॉक" है, और इसका वर्णन करने का एक अधिक कठोर तरीका है (बेशक, व्यवहार में, मेरे पास दो से अधिक दो चर वाले दो से अधिक डेटासेट हैं - मैं पहचानने की कोशिश कर रहा हूं कि मेरे कौन से डेटासेट हैं आउटलेर हैं)।
धन्यवाद!