दो बहुभिन्नरूपी वितरणों के बीच "दूरी" को मापना


28

मैं कुछ अच्छी शब्दावली की तलाश कर रहा हूं जो यह बताने के लिए कि मैं क्या करने की कोशिश कर रहा हूं, संसाधनों की तलाश करना आसान बनाता है।

तो, मान लीजिए कि मेरे पास A और B के दो-दो क्लस्टर हैं, प्रत्येक दो मानों, X और Y से जुड़ा है, और मैं A और B के बीच "दूरी" को मापना चाहता हूं - यानी यह कैसे संभव है कि वे समान वितरण से नमूना किए गए थे (मैं मान सकता हूं कि वितरण सामान्य हैं)। उदाहरण के लिए, यदि X और Y A में नहीं, बल्कि B में सहसंबद्ध हैं, तो वितरण अलग-अलग हैं।

सहज रूप से, मुझे ए का सहसंयोजक मैट्रिक्स मिलेगा, और फिर बी में प्रत्येक बिंदु को वहां फिट होने की संभावना है, और इसके विपरीत (शायद महालनोबिस दूरी की तरह कुछ का उपयोग करके) देखें।

लेकिन यह थोड़ा "एड-हॉक" है, और इसका वर्णन करने का एक अधिक कठोर तरीका है (बेशक, व्यवहार में, मेरे पास दो से अधिक दो चर वाले दो से अधिक डेटासेट हैं - मैं पहचानने की कोशिश कर रहा हूं कि मेरे कौन से डेटासेट हैं आउटलेर हैं)।

धन्यवाद!


डननो क्यों, लेकिन जब मैंने आपकी पोस्ट पढ़ी तो मेरी आँखों के सामने एक मेंटल टेस्ट चमक गया।
15:33 बजे रोमन लुसट्रिक

जवाबों:


15

वहाँ भी है Kullback-Leibler विचलन है, जो करने के लिए Hellinger दूरी आप ऊपर उल्लेख संबंधित है।


2
अंतर्निहित संभावना घनत्व की एक धारणा बनाने के बिना एक अंक के कुल्बैक-लीब्लर विचलन की गणना कर सकता है जो अंक आए थे?
आंद्रे होल्ज़नर

16

हम्म, भट्टाचार्य दूरी के लिए लगता है कि मैं क्या देख रहा हूँ, हालांकि हेलिंगर दूरी भी काम करती है।


आप भट्टाचार्य और हीलिंग का उल्लेख करते हैं, फिर केएल के बारे में बोलते हुए एक उत्तर स्वीकार करते हैं ... अंत में आपकी पसंद क्या थी और क्यों?
सिमोन

1
मेरा मानना ​​है कि यह केएल विचलन था, लेकिन ... यह 2010 में था और मेरी याददाश्त एकदम सही है।
एमिल

आह, मैंने अनुमान लगाया है कि, लेकिन फिर भी धन्यवाद!
सिमोन सी।

9

अनुमानी

  • मिंकोवस्की फार्म
  • भारित-मीन-वारिएन्स (WMV)

नॉनपरमेट्रिक टेस्ट के आँकड़े

  • 2 (ची स्क्वायर)
  • कोलमोगोरोव-स्मिर्नोव (केएस)
  • क्रैमर / वॉन मिज़ (CvM)

सूचना-सिद्धांत विचलन

  • Kullback-Liebler (KL)
  • जेन्सेन-शैनन विचलन (मीट्रिक)
  • जेफरी-डायवर्जेंस (संख्यात्मक रूप से स्थिर और सममित)

जमीन की दूरी के उपाय

  • हिस्टोग्राम चौराहा
  • द्विघात रूप (QF)
  • अर्थ मूवर्स डिस्टेंस (EMD)


0

"सांख्यिकीय अंतर" के कुछ और उपाय

  • क्रमचय परीक्षण (फिशर द्वारा)
  • केंद्रीय सीमा प्रमेय और स्लटस्की की प्रमेय
  • मान-व्हिटनी-विल्कोक्सिन परीक्षण
  • एंडरसन-डार्लिंग टेस्ट
  • शापिरो-विल्क परीक्षण
  • होसमेर-लेमेशो परीक्षण
  • कुइपर की परीक्षा
  • कर्नेलित स्टीन विसंगति
  • जैकार्ड समानता
  • इसके अलावा, पदानुक्रमित क्लस्टरिंग समूहों के बीच समानता के उपायों से संबंधित है। समूह समानता के सबसे लोकप्रिय उपाय शायद एकल लिंकेज, पूर्ण लिंकेज और औसत लिंकेज हैं।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.