मैं एक प्रयोग के लिए एक वितरण की गैर-एकरूपता को मापने के लिए एक मीट्रिक के साथ आने की कोशिश कर रहा हूं। मेरे पास एक यादृच्छिक चर है जिसे ज्यादातर मामलों में समान रूप से वितरित किया जाना चाहिए, और मैं उन डेटा सेटों के उदाहरणों की पहचान करना (और संभवतः डिग्री की माप करना) करना चाहूंगा जहां चर को कुछ मार्जिन के भीतर समान रूप से वितरित नहीं किया गया है।
तीन डेटा श्रृंखला का एक उदाहरण 10 माप के साथ प्रत्येक की घटना की आवृत्ति का प्रतिनिधित्व करता है जो मैं माप रहा हूं कुछ इस तरह हो सकता है:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
मैं डिस्ट्रीब्यूटरी डिफरेंशियल को c और b जैसे लोगों से अलग करने में सक्षम होना चाहता हूं और समान डिस्ट्रीब्यूशन से c का डिविएशन मापता हूं। समान रूप से, यदि एक मीट्रिक के लिए समान है कि वितरण कितना समान है (std। विचलन शून्य के करीब?), तो मैं शायद उच्च प्रसरण वाले लोगों को अलग करने के लिए उपयोग कर सकता हूं। हालाँकि, मेरे डेटा में सिर्फ एक या दो आउटलेयर हो सकते हैं, जैसे कि ऊपर उदाहरण, और मुझे यकीन नहीं है कि इस तरह से आसानी से पता लगाया जा सकेगा।
मैं सॉफ्टवेयर में ऐसा करने के लिए कुछ हैक कर सकता हूं, लेकिन मैं औपचारिक रूप से इसे सही ठहराने के लिए सांख्यिकीय तरीकों / तरीकों की तलाश कर रहा हूं। मैंने एक साल पहले क्लास ली थी, लेकिन आंकड़े मेरा क्षेत्र नहीं हैं। यह कुछ ऐसा प्रतीत होता है जिसमें एक प्रसिद्ध दृष्टिकोण होना चाहिए। क्षमा करें, यदि इनमें से कोई भी पूरी तरह से अस्थि-पंजर है। अग्रिम में धन्यवाद!