एक रैंक सहसंबंध गुणांक के संदर्भ में बंधा हुआ डेटा क्या है?


16

मैं सांख्यिकी क्षेत्र में नहीं हूं।

मैंने रैंक कोरिलेशन गुणांक के बारे में पढ़ते हुए "बंधा हुआ डेटा" शब्द देखा है।

  • बंधा हुआ डेटा क्या है?
  • बंधे हुए डेटा का एक उदाहरण क्या है?

जवाबों:


5

इसका मतलब डेटा है जिसमें समान मूल्य है; उदाहरण के लिए, यदि आपके पास 1,2,3,3,4 डेटासेट के रूप में है तो दो 3 के डेटा बंधे हुए हैं। यदि आपके पास डेटासेट के रूप में 1,2,3,4,5,5,5,6,7,7 हैं, तो 5 और 7 का डेटा बंधा हुआ है।


14

"टाइड डेटा" रैंक-आधारित गैर-पैरामीट्रिक सांख्यिकीय परीक्षणों के संदर्भ में आता है।

गैर पैरामीट्रिक परीक्षण : परीक्षण जो एक विशेष संभाव्यता वितरण को ग्रहण नहीं करता है, जैसे कि यह घंटी के आकार का वक्र नहीं मानता है।

रैंक के आधार पर : संख्याओं को परिवर्तित करके गैर-पैरामीट्रिक परीक्षणों की एक बड़ी कक्षा शुरू होती है (जैसे "3 दिन", "5 दिन", और "4 दिन") रैंक में (उदाहरण के लिए "सबसे कम अवधि (3 जी)", "सबसे लंबी अवधि। (1) "," दूसरी सबसे लंबी अवधि (2 डी) ")। एक पारंपरिक पैरामीट्रिक परीक्षण विधि फिर इन रैंकों पर लागू की जाती है।

टाईड डेटा एक समस्या है क्योंकि संख्याएँ समान हैं जिन्हें अब रैंक में बदलने की आवश्यकता है। कभी-कभी रैंक को यादृच्छिक रूप से असाइन किया जाता है, कभी-कभी औसत रैंक का उपयोग किया जाता है। सबसे महत्वपूर्ण बात, बंधे हुए रैंकों को तोड़ने के लिए एक प्रोटोकॉल को परिणाम की प्रतिलिपि प्रस्तुत करने योग्यता के लिए वर्णित किया जाना चाहिए।


5

यह केवल दो समान डेटा मान हैं, जैसे एक ही डेटा सेट में 7 दो बार अवलोकन करना।

यह सांख्यिकीय विधियों के संदर्भ में आता है जो मानते हैं कि डेटा में एक निरंतर और समान समरूप माप असंभव हैं (या तकनीकी रूप से, संभावना समान मान शून्य है)। जब ये विधियाँ उन डेटा पर लागू होती हैं जो गोल या क्लिप किए जाते हैं ताकि समान माप न केवल संभव हो बल्कि काफी सामान्य भी हो।


1
मैं इस तर्क से असहमत हूं क्योंकि आप यह नहीं कह सकते कि इसकी शून्य संभावना के कारण कि यह घटना कभी नहीं हो सकती। यह एक अच्छा तर्क नहीं है।
हेनरी.एल।

2

प्रश्न मौलिक महत्व का है:

एक बंधे हुए अवलोकन / डेटा / जोड़ी क्या है?

टी+

(इसलिए मुझे नहीं लगता कि @ मिंग-चिह काओ का उत्तर पहले गैर-परीक्षण परीक्षणों को शुरू करने से उचित है। लेकिन चूंकि शीर्षक है 'रैंक सहसंबंध गुणांक के संदर्भ में डेटा क्या है?', मैं इसे खरीदूंगा।)

स्पष्ट करने के लिए, मुझे लगता है कि सबसे अच्छा तरीका Wilcoxon Signed Ranked Test का सरलतम उदाहरण के साथ काम करना है: आइए हमारे पास आकार 10 के युग्मित डेटा का एक नमूना है: अंतर यादृच्छिक चर परिभाषित करें।जेडमैं=एक्समैं-Yमैं

(एक्समैं,Yमैं): (1, -1) (1,2) (1,2) (1, -1) (2,1) (2,1) (2,3) (2,3) (3,2) (3) , 0)

जेडमैं: 2 -1 -1 2 1 1 -1 -1 1 3

इनका पूर्ण मूल्य लें जेडमैंरैंक पाने के लिए।

|जेडमैं|: 2 1 1 2 1 1 1 1 1 3

अब समस्या यह है कि इतने ही 1 और 2 के साथ, हम रैंकिंग कैसे बना सकते हैं? हम उन्हें इस मामले को दिखाने के लिए "बंधे" शब्द देते हैं। और "बंधे हुए समूह" शब्द से (जो एक समतुल्य संबंध है), हम बस उन बंधे हुए अवलोकनों को उनके मूल्यों द्वारा समूहों में समूहित करते हैं। इस उदाहरण में, हमारे पास 3 बंधे हुए समूह हैं (सोचें क्यों):{(1,1)(1,1)},{(1,2)(1,2)(2,1)(2,1)(2,3)(2,3)(3,2)},{(3,0)} Attention that the bracket does not mean a set but just a notation.

Let us try the very easy way of doing this, we rank from left to right and give:

Ri: 8 1 2 9 3 4 5 6 7 10

But here again we should ask why so other ranking is not suitable since there is no difference between those identical |Zi|'s, like:

Ri: 8 7 6 9 5 4 3 2 1 10

Therefore we may just take the mean of those identical |Zi|'s and assign again:

Ri: 8 7 6 9 5 4 3 2 1 10

The bold represents the first tied group consists of those |Zi|=1 observations; the italic represents the second tied group consists of those |Zi|=2 observations.

We assign to each of the observation in the first group the rank1++77=4;we assign to each of the observation in the second group the rank8+92=8.5. Therefore we have:

Ri: 8.5 4 4 8.5 4 4 4 4 4 10

This modified the rankings and make each of the tied observation has the same influence in calculating the ranked statistics, thus in the rank test.

What are the solutions to tied observation/data/pair ?

(1)Assign the average rank. This is just what we did above. By assigning the same rank to the tied data in the same group, we make their influence in the ranked test just the same and therefore eliminate the possible inaccuracy caused by tied observations.

(2)Assign the random rank. Just assign ranks randomly to each of the tied group element. The only restriction is that MaxRankfirstgroup<MinRanksecondgroup since if MaxRankfirstgroup>MinRanksecondgroup, that breaks the ranking law; if MaxRankfirstgroup=MinRanksecondgroup, then we have to merge two tied groups into one.

(3)Perturbation of data. This requires very careful consideration about the nature of the data. This works only if the data is not categorical(discrete). In the above example, we can just make a This will put different weights manually to each of the elements in the tied group. For a continuous distribution, for example, it makes little difference if you perturb it in ϵ manner.

(@John D. Cook 's answer is a bit misleading in this way. A better way of saying this point is that when the distribution is continuous, PX=x=0. However, we shall observe ties since our measurement is of limited accuracy, i.e. any sample space in reality is actually finite.) (@quarkdown27 's answer is simple but correct in each word.)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.