मैं एक डेटा विश्लेषण परियोजना शुरू कर रहा हूं जिसमें वर्ष के दौरान वेबसाइट के उपयोग के समय की जांच करना शामिल है। मैं जो करना चाहता हूं, वह तुलना करता है कि उपयोग पैटर्न "संगत" कैसे हैं, कहते हैं, वे एक पैटर्न के कितने करीब हैं, जिसमें इसे प्रति सप्ताह 1 घंटे के लिए उपयोग करना शामिल है, या एक जिसमें 10 मिनट के लिए इसका उपयोग करना शामिल है, 6 प्रति सप्ताह बार। मुझे कई चीजों की जानकारी है, जिनकी गणना की जा सकती है:
- शैनन एन्ट्रापी: यह मापता है कि परिणाम में "निश्चितता" कितनी भिन्न होती है, यानी एक समान वितरण एक संभावना से कितना भिन्न होता है;
- कुलबबैक-लाइबलर डाइवर्जेंस: मापता है कि एक संभावना वितरण दूसरे से कितना भिन्न होता है
- जेन्सेन-शैनन विचलन: केएल-विचलन के समान, लेकिन यह अधिक उपयोगी है क्योंकि यह परिमित मूल्य देता है
- स्मिरनोव-कोलमोगोरोव परीक्षण : यह निर्धारित करने के लिए एक परीक्षण कि क्या सतत यादृच्छिक चर के लिए दो संचयी वितरण कार्य एक ही नमूने से आते हैं।
- ची-स्क्वैयर परीक्षण: एक अच्छाता-का-फिट परीक्षण यह तय करने के लिए कि आवृत्ति वितरण कितनी अच्छी तरह से अपेक्षित आवृत्ति वितरण से भिन्न होता है।
मैं जो करना चाहता हूं, उसकी तुलना करें कि वितरण में आदर्श उपयोग समय (नारंगी) से वास्तविक उपयोग अवधि (नीला) कितना भिन्न है। ये वितरण असतत हैं, और संभावना वितरण बनने के लिए नीचे दिए गए संस्करण सामान्यीकृत हैं। क्षैतिज अक्ष उस समय (मिनटों में) का प्रतिनिधित्व करता है जो एक उपयोगकर्ता ने वेबसाइट पर खर्च किया है; यह वर्ष के प्रत्येक दिन के लिए दर्ज किया गया है; यदि उपयोगकर्ता वेबसाइट पर बिल्कुल नहीं गया है तो यह शून्य अवधि के रूप में गिना जाता है लेकिन इन्हें आवृत्ति वितरण से हटा दिया गया है। दाईं ओर संचयी वितरण फ़ंक्शन है।
मेरी एकमात्र समस्या यह है कि भले ही मैं जेएस-डायवर्जेंस को एक परिमित मूल्य वापस करने के लिए प्राप्त कर सकता हूं, जब मैं विभिन्न उपयोगकर्ताओं को देखता हूं और उनके उपयोग के वितरण को आदर्श एक से तुलना करता हूं, मुझे ऐसे मूल्य मिलते हैं जो ज्यादातर समान हैं (जो इसलिए अच्छा नहीं है वे कितने भिन्न होते हैं इसका सूचक)। इसके अलावा, आवृत्ति वितरण के बजाय संभाव्यता वितरणों को सामान्य करते समय काफी जानकारी खो जाती है (कहते हैं कि एक छात्र 50 बार मंच का उपयोग करता है, फिर नीले वितरण को लंबवत रूप से बढ़ाया जाना चाहिए ताकि सलाखों की कुल लंबाई 50 के बराबर हो जाए, और) नारंगी पट्टी की ऊंचाई 1 की बजाय 50) होनी चाहिए। "सुसंगतता" से हमारा जो अर्थ है वह यह है कि वेबसाइट पर कोई उपयोगकर्ता कितनी बार जाता है, उससे कितना प्रभावित होता है; यदि वे जितनी बार वेबसाइट पर जाते हैं, गुम हो जाते हैं, तो प्रायिकता वितरण की तुलना करना थोड़ा संदिग्ध है; भले ही उपयोगकर्ता की अवधि के वितरण की संभावना "आदर्श" उपयोग के करीब हो, लेकिन उपयोगकर्ता ने वर्ष के दौरान केवल 1 सप्ताह के लिए प्लेटफ़ॉर्म का उपयोग किया होगा, जो यकीनन बहुत संगत नहीं है।
क्या दो आवृत्ति वितरणों की तुलना करने और कुछ प्रकार की मीट्रिक की गणना करने के लिए कोई अच्छी तरह से स्थापित तकनीकें हैं जो यह बताती हैं कि वे कितनी समान (या भिन्न) हैं?