कार्यदिवसों में वितरण की एकरूपता को मापें


11

मुझे यहाँ पूछे गए प्रश्न के समान समस्या है:

वितरण की गैर-एकरूपता को कैसे मापता है?

मेरे पास सप्ताह के दिनों में संभाव्यता वितरण का एक सेट है। मैं मापना चाहता हूं कि प्रत्येक वितरण कितना करीब है (1 / 7,1 / 7, ..., 1/7)।

फिलहाल मैं उपरोक्त प्रश्न के उत्तर का उपयोग कर रहा हूं; एल 2-नॉर्म, जिसका मूल्य 1 है जब वितरण में एक दिन के लिए द्रव्यमान 1 होता है, और (1 / 7,1 / 7, ..., 1/7) के लिए न्यूनतम होता है। मैं रैखिक रूप से इसे स्केल कर रहा हूं, इसलिए यह 0 और 1 के बीच स्थित है, तो इसे flipping कर रहा है ताकि 0 का अर्थ पूरी तरह से गैर-समान हो और 1 का अर्थ पूरी तरह से समान हो।

यह बहुत अच्छी तरह से काम करता है, लेकिन मेरे पास इसके साथ एक मुद्दा है; यह प्रत्येक कार्यदिवस को समान रूप से 7-मंद स्थान में एक आयाम के रूप में मानता है, इसलिए यह दिनों की समीपता के लिए खाता नहीं है; दूसरे शब्दों में, यह समान स्कोर (1 / 2,1 / 2,0,0,0,0,0) और (1 / 2,0,0,1 / 2,0,0,0) भी देता है हालांकि कुछ अर्थों में उत्तरार्द्ध अधिक "फैल गया" और समान है, और आदर्श रूप से एक उच्च अंक प्राप्त करना चाहिए। स्पष्ट रूप से जोड़ा गया जटिलता है कि दिनों का क्रम परिपत्र है।

मैं दिनों की समीपता के लिए इस अनुमान को कैसे बदल सकता हूँ?


1
आपका उदाहरण (1 / 2,1 / 2,0,0,0,0) और (1 / 2,0,0,1 / 2,0,0,0) एक ही तरह से गैर-समान हैं , इसलिए यह महत्वपूर्ण नहीं होना चाहिए कि क्या आप केवल गैर-एकरूपता के लिए परीक्षण में रुचि रखते हैं। तो शायद आप कुछ और परीक्षण करना चाहते हैं जो आपके प्रश्न में स्पष्ट रूप से नहीं कहा गया था? Btw, एन्ट्रापी एकरूपता का एक उपाय है।
टिम

धन्यवाद टिम, मैंने एंट्रॉपी का उपयोग करने की कोशिश की है, लेकिन मैंने पाया कि उपर्युक्त उल्लिखित मेरे उद्देश्यों के लिए बेहतर काम करता है। मुझे यकीन नहीं है कि सप्ताह के दिनों में एक संभावना वितरण की संपत्ति को कॉल करने के लिए जो मुझे दिलचस्पी है, सिवाय इसके कि यह सप्ताह में संभावनाओं के "फैल आउट-नेस" को एन्क्रिप्ट कर दे।
EBartrum

जवाबों:


15

पृथ्वी प्रस्तावक दूरी , यह भी Wasserstein मीट्रिक उपायों दो हिस्टोग्राम के बीच की दूरी के रूप में जाना। अनिवार्य रूप से, यह एक हिस्टोग्राम को गंदगी के ढेर के रूप में समझता है और फिर यह आकलन करता है कि इस हिस्टोग्राम को दूसरे में बदलने के लिए कितनी गंदगी को स्थानांतरित करने की आवश्यकता है और कितनी दूर () है। आप सप्ताह के दिनों में अपने वितरण और एक समान के बीच की दूरी को मापेंगे।

बेशक यह दिनों की महंगाई का हिसाब है - सोमवार से गुरुवार तक सोमवार से मंगलवार तक "गंदगी" स्थानांतरित करना आसान है, इसलिए (1 / 2,0,0,1 / 2,0,0,0) में एक सोमवार और मंगलवार को केंद्रित एक हिस्टोग्राम की तुलना में एक समान वितरण से पृथ्वी के निचले हिस्से की दूरी।

यह क्या नहीं करता है कि सप्ताह की "परिपत्रता" पर विचार किया जाता है, अर्थात, शनिवार और रविवार रविवार और सोमवार के समान एक साथ होते हैं। उसके लिए, आपको सर्कुलर प्रायिकता द्रव्यमान वितरण पर परिभाषित एक पृथ्वी प्रस्तावक दूरी की तलाश करनी होगी । यह एक उपयुक्त अनुकूलन दृष्टिकोण का उपयोग करने योग्य होना चाहिए।


EDIT: R में, emdपैकेज हिस्टोग्राम के बीच पृथ्वी की दूरी की गणना करता है।

आप "परिपत्रता" मुद्दे को काफी सरल (यद्यपि तदर्थ) तरीके से संबोधित कर सकते हैं।

  • अपने वितरण और रविवार के माध्यम से सोमवार को एक समान बीच एक पृथ्वी प्रस्तावक दूरी गणना करें।d1
  • d2
  • d3
  • ...
  • d1,,d7

यह अतिरिक्त गणना के एक जोड़े की कीमत पर परिपत्रता का ख्याल रखता है।

दूसरा EDIT: यह इस तरह के रूप में परिपत्र पृथ्वी प्रस्तावक दूरी नहीं है। उसके लिए, आपको कुछ ऐसे साहित्य की तलाश करनी होगी जो एक खोज को चालू करेंगे । यदि गंदगी को दिनों के बीच स्थानांतरित करने का सबसे अच्छा तरीका शनिवार से सोमवार तक दो दिन चलना शामिल है, तो यह सात में से पांच में दिखाई देगा , लेकिन शेष दो में नहीं (जहां गंदगी को पांच दिनों में स्थानांतरित करने की आवश्यकता होगी )।di

हालांकि, मैं अभी भी इसे कम से कम किसी तरह से परिपत्रता पर विचार करने के लिए संभावित रूप से उपयोगी तरीका मानूंगा - निश्चित रूप से केवल एक हिस्टोग्राम का उपयोग करने से बेहतर है और रविवार से शनिवार तक या किसी अन्य मनमाने तरीके से सप्ताह को परिभाषित करना। इसके अलावा, जबकि ऊपर दिए गए कुछ लिंक सर्कुलर अर्थ मूवर दूरी के लिए कार्यान्वयन को चालू करते हैं, मुझे आर के लिए एक के बारे में पता नहीं है, जो शायद यहां सबसे ज्यादा इस्तेमाल की जाने वाली भाषा है।


3
सबसे पहले मैंने सोचा था कि बाद का उदाहरण ( ) एक उदाहरण है कि परिपत्र पृथ्वी दूरी की गणना कैसे की जाए और उलझन में था (क्योंकि परिणाम कुछ से बड़ा हो सकता है )। तब मुझे एहसास हुआ कि यह जवाब कहीं भी इसका मतलब नहीं है। मुझे नहीं पता कि दूसरों ने इस उत्तर को पढ़ा है जैसा कि मैंने किया था, लेकिन इसे और अधिक स्पष्ट रूप से बताने के लिए अच्छा हो सकता है कि उदाहरण परिपत्र पृथ्वी की दूरी नहीं है। 1,...,7dमैं
शाम

@ जय: अच्छी बात है, और एक जो मुझे कल कनेक्टिविटी खोने के बाद भी हुई। मैंने अपने जवाब को स्पष्ट करने के लिए जोर दिया कि यह एक हैक है न कि वास्तविक परिपत्र पृथ्वी मावर दूरी।
Stephan Kolassa

1
बहुत धन्यवाद, वास्तव में मैंने अपने स्वयं के दूरी फ़ंक्शन को परिभाषित करके, emd पैकेज और emd2d फ़ंक्शन के साथ R में एक परिपत्र पृथ्वी मावर दूरी को लागू करने का प्रबंधन किया था, इसलिए उस हैक का उपयोग करने की आवश्यकता नहीं थी जिसका आपने उल्लेख किया था। यही वह है जिसकी तलाश में मैं हूं! एक अन्य ट्रिफ़लिंग मामला: मुझे इसे क्या कहना चाहिए? जैसा कि ऊपर टिम ने कहा, मुझे इस एकरूपता को नहीं कहना चाहिए। इस उत्तराधिकार के लिए एक उपयुक्त नाम क्या होगा?
EBartrum

1
एल2
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.