वितरण की गैर-एकरूपता को कैसे मापता है?


28

मैं एक प्रयोग के लिए एक वितरण की गैर-एकरूपता को मापने के लिए एक मीट्रिक के साथ आने की कोशिश कर रहा हूं। मेरे पास एक यादृच्छिक चर है जिसे ज्यादातर मामलों में समान रूप से वितरित किया जाना चाहिए, और मैं उन डेटा सेटों के उदाहरणों की पहचान करना (और संभवतः डिग्री की माप करना) करना चाहूंगा जहां चर को कुछ मार्जिन के भीतर समान रूप से वितरित नहीं किया गया है।

तीन डेटा श्रृंखला का एक उदाहरण 10 माप के साथ प्रत्येक की घटना की आवृत्ति का प्रतिनिधित्व करता है जो मैं माप रहा हूं कुछ इस तरह हो सकता है:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

मैं डिस्ट्रीब्यूटरी डिफरेंशियल को c और b जैसे लोगों से अलग करने में सक्षम होना चाहता हूं और समान डिस्ट्रीब्यूशन से c का डिविएशन मापता हूं। समान रूप से, यदि एक मीट्रिक के लिए समान है कि वितरण कितना समान है (std। विचलन शून्य के करीब?), तो मैं शायद उच्च प्रसरण वाले लोगों को अलग करने के लिए उपयोग कर सकता हूं। हालाँकि, मेरे डेटा में सिर्फ एक या दो आउटलेयर हो सकते हैं, जैसे कि ऊपर उदाहरण, और मुझे यकीन नहीं है कि इस तरह से आसानी से पता लगाया जा सकेगा।

मैं सॉफ्टवेयर में ऐसा करने के लिए कुछ हैक कर सकता हूं, लेकिन मैं औपचारिक रूप से इसे सही ठहराने के लिए सांख्यिकीय तरीकों / तरीकों की तलाश कर रहा हूं। मैंने एक साल पहले क्लास ली थी, लेकिन आंकड़े मेरा क्षेत्र नहीं हैं। यह कुछ ऐसा प्रतीत होता है जिसमें एक प्रसिद्ध दृष्टिकोण होना चाहिए। क्षमा करें, यदि इनमें से कोई भी पूरी तरह से अस्थि-पंजर है। अग्रिम में धन्यवाद!


जवाबों:


18

यदि आपके पास न केवल आवृत्तियों बल्कि वास्तविक मायने रखता है, तो आप प्रत्येक डेटा श्रृंखला के लिए अच्छाई-से-फिट परीक्षण का उपयोग कर सकते हैं । विशेष रूप से, आप असतत समान वितरण के लिए परीक्षण का उपयोग करना चाहते हैं । यह आपको एक अच्छा परीक्षण देता है, जो आपको यह पता लगाने की अनुमति देता है कि कौन सी डेटा श्रृंखला संभवतः एक समान वितरण द्वारा उत्पन्न नहीं हुई है, लेकिन एकरूपता का माप प्रदान नहीं करती है।χ2

अन्य संभावित दृष्टिकोण हैं, जैसे कि प्रत्येक श्रृंखला की एन्ट्रॉपी की गणना करना - समान वितरण एन्ट्रापी को अधिकतम करता है, इसलिए यदि एन्ट्रापी संदिग्ध रूप से कम है तो आप निष्कर्ष निकालेंगे कि आपके पास संभवतः समान वितरण नहीं है। जो कुछ अर्थों में एकरूपता के उपाय के रूप में काम करता है।

एक अन्य सुझाव कुल्लबैक-लिबलर विचलन की तरह एक उपाय का उपयोग करना होगा , जो दो वितरणों की समानता को मापता है।


मेरे पास आपके उत्तर के बारे में कुछ प्रश्न हैं: 1. आप यह क्यों कहते हैं कि ची-स्क्वायर एकरूपता का माप नहीं देता है? एक समान वितरण के साथ एकरूपता की माप के लिए एक फिट परीक्षण नहीं है? 2. हमें यह कैसे पता चल सकता है कि हमें ची-स्क्वायर या एंट्रोपी का उपयोग कब करना चाहिए?
kanzen_master

@kanzen_master: मेरा अनुमान है कि ची-स्क्वैर्ड स्टैटिस्टिक को एकरूपता के उपाय के रूप में देखा जा सकता है, लेकिन इसमें कुछ कमियां हैं, जैसे कि अभिसरण की कमी, मनमाने ढंग से रखे गए डिब्बे पर निर्भरता, कि कोशिकाओं में अपेक्षित संख्याओं की आवश्यकता है। पर्याप्त रूप से बड़ा होना, आदि जो उपयोग करने के लिए माप / परीक्षण स्वाद का मामला है, और एन्ट्रापी या तो इसकी समस्याओं के बिना नहीं है (विशेष रूप से, एक वितरण के एन्ट्रापी के कई अलग-अलग अनुमान हैं)। मेरे लिए, एन्ट्रापी एक कम मनमाना उपाय की तरह लगता है और व्याख्या करना आसान है।
मॉन्सटी

8

@MansT के अच्छे विचारों के अलावा, आप अन्य उपायों के साथ आ सकते हैं, लेकिन यह इस बात पर निर्भर करता है कि "गैर-एकरूपता" से आपका क्या मतलब है। इसे सरल रखने के लिए, आइए 4 स्तरों को देखें। पूर्ण एकरूपता को परिभाषित करना आसान है:

२५ २५ २५ २५

लेकिन निम्नलिखित में से कौन अधिक गैर-समान है?

20 20 30 30 या 20 20 25 35

या वे समान रूप से गैर-समान हैं?

अगर आपको लगता है कि वे समान रूप से गैर-समान हैं, तो आप सामान्य से विचलन के पूर्ण मूल्यों के योग के आधार पर एक उपाय का उपयोग कर सकते हैं, जो अधिकतम संभव है। फिर पहला 5 + 5 + 5 + 5 = 20 और दूसरा 5 + 5 + 0 + 10 = 20 है। लेकिन अगर आपको लगता है कि दूसरा अधिक गैर-समान है, तो आप उस स्थिति में वर्ग विचलन के आधार पर कुछ का उपयोग कर सकते हैं। पहले को 25 + 25 + 25 + 25 = 100 मिलता है और दूसरे को 25 + 25 + 0 + 100 = 150 मिलता है।


1
आप "समान", पीटर के रूप में "समान रूप से वितरित" की व्याख्या करते प्रतीत होते हैं। चाहे वह ओपी का इरादा बढ़ाने के लिए एक वैध बिंदु हो, लेकिन वास्तव में प्रश्न के लिए एक टिप्पणी के रूप में प्रकट होना चाहिए।
whuber

हाय @whuber कि लग रहा था कि वह क्या मतलब था, सवाल से। इसका और क्या मतलब हो सकता है?
पीटर Flom - को पुनः स्थापित मोनिका

2
"समान" का अर्थ है सीडीएफ F(x)=1 for xμ, F(x)=0 for x<μ while "uniform" means F(x)=(xα)/θ for x[α,α+θ]. You define "perfect uniformity" in the first sense whereas the standard statistical sense is the second.
whuber

@whuber, it seems to me the first thing is closer to what the original poster meant by "uniform". Looking at it again, it seems like he/she was using "uniform" to mean "low variance".
Macro

That's just it, Macro: we cannot really say. The question needs clarification before it deserves an answer, IMHO. The accepted answer suggests the OP used "uniform" in the standard statistical sense.
whuber

6

Here is a simple heuristic: if you assume elements in any vector sum to 1 (or simply normalize each element with the sum to achieve this), then uniformity can be represented by L2 norm, which ranges from 1d to 1, with d being the dimension of vectors.

The lower bound 1d corresponds to uniformity and upper bound to the 1-hot vector.

To scale this to a score between 0 and 1, you can use nd1d1, where n is the L2 norm.

An example modified from yours with elements summing to 1 and all vectors with the same dimension for simplicity:

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

The following will yield 0.0028, 0.0051, and 0.4529 for the rows:

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

1
That works nicely. But why (or under what circumstances) should it be preferred to any other Lp norm or to the other solutions offered on this thread?
whuber

@whuber that I don't know and I don't know of any research on this. Basically it's something I've used as a heuristic that might fit what OP is after, and I don't really claim it being a preferred approach.
user495285

@whuber - Could you figure out theoretically why this works so well. I need to cite this.
Ketan

@user495285 - This seems to work directly with values, and not just frequencies. In your experience, is it better to use it only with frequencies or is it okay to use it directly on a vector.
Ketan

@Ketan I would advise against citing this post, because it's heuristic and theoretically unsupported. (Because it does not rely on any consideration of sampling variation, there is no way to tell--without further analysis--whether it's any good.) It just so happens, though, that the L2 norm has a simple algebraic connection to the χ2 statistic used in goodness of fit tests: that's the reason it might be suitable to measure non-uniformity.
whuber

0

Stumbled upon this recently, and to add to the answer from @user495285, as far as I understand it:

When the values are normalized and sum to one, then the uniform distribution is the unit sphere in Rn, and what is being calculated by using an Lp norm is the deviation from the unit sphere using a distance measure of a given p, i.e. deviation from the uniform distribution in Rn with geometric distance measure p.

The L2 norm places higher weight on large deviations from the unit sphere in any given dimension, whereas smaller values of p place less weight on large deviations.

When the underlying distribution is the unit sphere, the numerator equals zero in the following equation:

nd1d1
where n is the L2 norm and d is the vector length.

I believe that the usefulness of geometric measures applies when each position (dimension) of the space described is assumed to be measured on equivalent scales, e.g. all counts of potentially equal distribution. The same assumptions underlying change of bases like PCA/SVD probably are similar here. But then again I'm no mathematician, so I'll leave that open to the more informed.


Sounds helpful. Could you please point me some reference, so that I can understand this better? I actually need to cite this.
Ketan

You could cite any linear algebra text that covers the Lp norm; this is a very common subject in geometry: how to calculate a distance between two points in an N-dimensional space. You may not even have to cite it depending on your field.
lakinsm
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.