दो आवृत्ति वितरण के बीच सांख्यिकीय "दूरी" को कैसे मापें?

मैं एक डेटा विश्लेषण परियोजना शुरू कर रहा हूं जिसमें वर्ष के दौरान वेबसाइट के उपयोग के समय की जांच करना शामिल है। मैं जो करना चाहता हूं, वह तुलना करता है कि उपयोग पैटर्न "संगत" कैसे हैं, कहते हैं, वे एक पैटर्न के कितने करीब हैं, जिसमें इसे प्रति सप्ताह 1 घंटे के लिए उपयोग करना शामिल है, या एक जिसमें 10 मिनट के लिए इसका उपयोग करना शामिल है, 6 प्रति सप्ताह बार। मुझे कई चीजों की जानकारी है, जिनकी गणना की जा सकती है:

शैनन एन्ट्रापी: यह मापता है कि परिणाम में "निश्चितता" कितनी भिन्न होती है, यानी एक समान वितरण एक संभावना से कितना भिन्न होता है;
कुलबबैक-लाइबलर डाइवर्जेंस: मापता है कि एक संभावना वितरण दूसरे से कितना भिन्न होता है
जेन्सेन-शैनन विचलन: केएल-विचलन के समान, लेकिन यह अधिक उपयोगी है क्योंकि यह परिमित मूल्य देता है
स्मिरनोव-कोलमोगोरोव परीक्षण : यह निर्धारित करने के लिए एक परीक्षण कि क्या सतत यादृच्छिक चर के लिए दो संचयी वितरण कार्य एक ही नमूने से आते हैं।
ची-स्क्वैयर परीक्षण: एक अच्छाता-का-फिट परीक्षण यह तय करने के लिए कि आवृत्ति वितरण कितनी अच्छी तरह से अपेक्षित आवृत्ति वितरण से भिन्न होता है।

मैं जो करना चाहता हूं, उसकी तुलना करें कि वितरण में आदर्श उपयोग समय (नारंगी) से वास्तविक उपयोग अवधि (नीला) कितना भिन्न है। ये वितरण असतत हैं, और संभावना वितरण बनने के लिए नीचे दिए गए संस्करण सामान्यीकृत हैं। क्षैतिज अक्ष उस समय (मिनटों में) का प्रतिनिधित्व करता है जो एक उपयोगकर्ता ने वेबसाइट पर खर्च किया है; यह वर्ष के प्रत्येक दिन के लिए दर्ज किया गया है; यदि उपयोगकर्ता वेबसाइट पर बिल्कुल नहीं गया है तो यह शून्य अवधि के रूप में गिना जाता है लेकिन इन्हें आवृत्ति वितरण से हटा दिया गया है। दाईं ओर संचयी वितरण फ़ंक्शन है।

मेरी एकमात्र समस्या यह है कि भले ही मैं जेएस-डायवर्जेंस को एक परिमित मूल्य वापस करने के लिए प्राप्त कर सकता हूं, जब मैं विभिन्न उपयोगकर्ताओं को देखता हूं और उनके उपयोग के वितरण को आदर्श एक से तुलना करता हूं, मुझे ऐसे मूल्य मिलते हैं जो ज्यादातर समान हैं (जो इसलिए अच्छा नहीं है वे कितने भिन्न होते हैं इसका सूचक)। इसके अलावा, आवृत्ति वितरण के बजाय संभाव्यता वितरणों को सामान्य करते समय काफी जानकारी खो जाती है (कहते हैं कि एक छात्र 50 बार मंच का उपयोग करता है, फिर नीले वितरण को लंबवत रूप से बढ़ाया जाना चाहिए ताकि सलाखों की कुल लंबाई 50 के बराबर हो जाए, और) नारंगी पट्टी की ऊंचाई 1 की बजाय 50) होनी चाहिए। "सुसंगतता" से हमारा जो अर्थ है वह यह है कि वेबसाइट पर कोई उपयोगकर्ता कितनी बार जाता है, उससे कितना प्रभावित होता है; यदि वे जितनी बार वेबसाइट पर जाते हैं, गुम हो जाते हैं, तो प्रायिकता वितरण की तुलना करना थोड़ा संदिग्ध है; भले ही उपयोगकर्ता की अवधि के वितरण की संभावना "आदर्श" उपयोग के करीब हो, लेकिन उपयोगकर्ता ने वर्ष के दौरान केवल 1 सप्ताह के लिए प्लेटफ़ॉर्म का उपयोग किया होगा, जो यकीनन बहुत संगत नहीं है।

क्या दो आवृत्ति वितरणों की तुलना करने और कुछ प्रकार की मीट्रिक की गणना करने के लिए कोई अच्छी तरह से स्थापित तकनीकें हैं जो यह बताती हैं कि वे कितनी समान (या भिन्न) हैं?

— omegaSQU4RED
स्रोत

आप अपने आप से पूछकर शुरू कर सकते हैं कि आपका नुकसान फ़ंक्शन क्या है (यानी, किस तरह से उपयोग पैटर्न आदर्श खराब से अलग है, और कैसे खराबता की मात्रा इस बात पर निर्भर करती है कि किस प्रकार का विचलन होता है), और अपने मीट्रिक को डिजाइन करना। उस के आसपास।

— Acccumulation

जवाबों:

हो सकता है कि आप पृथ्वी के मावरों की दूरी में रुचि रखते हों , जिसे वासेरस्टीन मीट्रिक भी कहा जाता है । यह आर ( emdistपैकेज को देखो ) और पायथन में लागू किया गया है । हमारे पास इस पर कई सूत्र हैं ।

EMD निरंतर और असतत वितरण दोनों के लिए काम करता है। emdistआर के लिए पैकेज असतत वितरण पर काम करता है।

$\chi^2$

— स्टीफ़न कोलासा
स्रोत

वह विशेष दूरी क्यों? यह किसी भी निरंतर वितरण के लिए डिज़ाइन किया गया लगता है। ओपी में एक आवृत्ति वितरण है, इसलिए ची-स्क्वायर जैसे अधिक "असतत" दूरी क्यों नहीं?

— user2974951

@ user2974951: काफी उचित। मेरा संपादन देखें।

— स्टीफन कोलासा

L_{p}

$L_p$

L^{p}

$L^p$

यदि आप प्रत्येक दो वितरणों में से किसी एक का बेतरतीब ढंग से नमूना लेते हैं, तो आप उनके बीच अंतर की गणना कर सकते हैं। यदि आप इसे (प्रतिस्थापन के साथ) कई बार दोहराते हैं, तो आप उन मतभेदों का वितरण उत्पन्न कर सकते हैं जिनमें आपके बाद की सभी जानकारी शामिल है। आप इस वितरण की साजिश कर सकते हैं और इसे किसी भी सारांश आँकड़ों के साथ चिह्नित कर सकते हैं, जिसकी आप इच्छा करते हैं - मतलब, मंझला, आदि।

— mkt - मोनिका को बहाल करें
स्रोत

क्या ऐसी प्रक्रिया का कोई नाम है?

— user2974951

मुझे आश्चर्य है कि आधारभूत तथ्य के लिए कोई कैसे हिसाब दे सकता है कि एक मनमाना वितरण के लिए मतभेदों का वितरण और स्वयं विभिन्न मनमाने वितरणों के लिए अलग-अलग होगा; U (0,1) बनाम U (0,1) की तुलना में स्वयं सोचें। इसलिए, दो भिन्न वितरणों की तुलना करने पर आपको मिलने वाले मतभेदों का वितरण एक अद्वितीय आधार रेखा के अभाव में मूल्यांकन करना कठिन होगा। समस्या गायब हो जाती है अगर टिप्पणियों को जोड़ा जाता है, तो आधारभूत शून्य पर एक इकाई द्रव्यमान होगा।

— रिचर्ड हार्डी

@ user2974951 मुझे यकीन है कि वहाँ बहुत सरल और स्पष्ट रूप से बूटस्ट्रैपिंग से संबंधित है। लेकिन मुझे नहीं पता कि इसे क्या कहा जाए।

— mkt -

@mkt, आपके स्पष्टीकरण के लिए धन्यवाद। केवल इसके लिए बहस करने का इरादा किए बिना, मुझे अभी भी लगता है कि एक अद्वितीय आधार रेखा के बिना हमारे पास एक शासक नहीं है। लेकिन मैं इसे उस पर छोड़ दूंगा। वैसे भी आपके विचार में कुछ अच्छा है।

— रिचर्ड हार्डी

@ रीचर्डहार्डी मैं यहां एक्सचेंज की सराहना करता हूं, और आप अच्छी तरह से सही हो सकते हैं। मुझे इसके बारे में आगे सोचना होगा।

— mkt -

मीट्रिक में से एक दो वितरणों के बीच हेलिंगर दूरी है जो कि साधन और मानक विचलन द्वारा विशेषता है। आवेदन निम्नलिखित लेख में पाया जा सकता है।

https://www.sciencedirect.com/science/article/pii/S1568494615005104

— user9003011
स्रोत

उसके लिए धन्यवाद। मैंने देखा है कि डायवर्जेंस (f-divergences) का एक पूरा परिवार है, जो मैं चाहता हूं, लेकिन साहित्य के माध्यम से एक त्वरित झटका इंगित नहीं करता है कि कौन सबसे अच्छा है ... क्या आप किसी अच्छे साहित्य के बारे में जानते हैं इस?

— omegaSQU4RED