मैं निरंतर चर और श्रेणीगत चर के बीच "सहसंबंध" का अध्ययन कैसे करूं?


19

इस तरह के दो प्रकार के चर के बीच के संबंध का अध्ययन करने के लिए एक सार्थक "सहसंबंध" उपाय क्या है?

आर में, यह कैसे करना है?


1
इससे पहले कि आप "आप कैसे अध्ययन करते हैं" पूछते हैं, आपके पास "बीटी को कैसे परिभाषित करें" का जवाब होना चाहिए :-) बीटीडब्ल्यू, यदि आप पूर्णांक संख्याओं के लिए श्रेणीबद्ध चर को प्रोजेक्ट करते हैं, तो आप पहले से ही सहसंबंध कर सकते हैं।
जिज्ञासु

2
@ टॉमा, यदि आप ऐसा करते हैं, तो रिश्ते की अनुमानित ताकत इस बात पर निर्भर करती है कि आपने अंकों को लेबल करने का फैसला कैसे किया है, जो डरावना है :)
मैक्रों

@ मैक्रो, आप सही हैं - एक अच्छी परिभाषा के लिए एक और ठोस तर्क!
जिज्ञासु

@ मकारो जब तक मैंने आपकी बात को गलत नहीं समझा, तब तक नहीं। सहसंबंध रैखिक परिवर्तनों के प्रति असंवेदनशील है। तो एक और बी के लिए cor (X, Y) = cor (a + bX, Y)। 0/1 को 1/11 के रूप में रीलैबलिंग करने से उस संस्करण या इसके रैखिक परिवर्तन का उपयोग करके सहसंबंधों के लिए कुछ भी नहीं होता है।
एलेक्सिस

@ मेरी मैक्रों के ऊपर मेरी टिप्पणी देखें। और ध्यान दें: (1) X <- sample(c(0,1),replace=TRUE,size=100)(2) Y <- X + rnorm(100,0.5)(3) corr(Y,X)(4) X <- 1 + 10*X(5) corr(X,Y): दोनों सहसंबंधों के लिए समान परिणाम!
एलेक्सिस

जवाबों:


19

एक पल के लिए, आइए निरंतर / असतत मुद्दे को अनदेखा करें। मूल रूप से सहसंबंध चर के बीच रैखिक संबंध की ताकत को मापता है, और आप रिश्ते की ताकत को मापने के लिए एक वैकल्पिक तरीका पूछ रहे हैं। सूचना सिद्धांत के कुछ विचारों को देखने में आपकी रुचि हो सकती है । विशेष रूप से मुझे लगता है कि आप आपसी जानकारी को देखना चाह सकते हैं । पारस्परिक जानकारी अनिवार्य रूप से आपको यह निर्धारित करने का एक तरीका देती है कि एक चर की स्थिति को जानने से आपको दूसरे चर के बारे में कितना पता चलता है। मैं वास्तव में लगता है कि इस परिभाषा के करीब है कि ज्यादातर लोग क्या मतलब है जब वे सहसंबंध के बारे में सोचते हैं।

दो खंडित चर एक्स और वाई के लिए, गणना के रूप में है इस प्रकार है:

I(X;Y)=yYxXp(x,y)log(p(x,y)p(x)p(y))

दो सतत चर के लिए हम योग लेने के बजाय एकीकृत:

I(X;Y)=YXp(x,y)log(p(x,y)p(x)p(y))dxdy

आपका विशेष उपयोग-मामला एक असतत और एक निरंतर के लिए है। एक योग या एक अभिन्न से अधिक का एकीकरण करने के बजाय, मुझे लगता है कि किसी एक चर को दूसरे प्रकार में बदलना आसान होगा। ऐसा करने के लिए एक विशिष्ट तरीका होगा discretize असतत डिब्बे में अपने निरंतर चर।

डेटा को अलग करने के कई तरीके हैं (जैसे बराबर अंतराल), और मेरा मानना ​​है कि यदि आप आर का उपयोग करना चाहते हैं तो एन्ट्रापी पैकेज एमआई गणना के लिए सहायक होना चाहिए।


1
धन्यवाद। लेकिन एक एमआई कितना = 1 के समतुल्य है और एक एमआई कितना कॉस्ट = 0 से मेल खाता है?
लूना

एमआई में न्यूनतम 0 और एमआई = 0 है यदि और केवल यदि चर स्वतंत्र हैं। एमआई में कोई निरंतर ऊपरी-सीमा नहीं है (हालांकि ऊपरी-सीमा चर के एंट्रियों से संबंधित है), इसलिए आप सामान्यीकृत संस्करणों में से एक को देखना चाह सकते हैं यदि यह आपके लिए महत्वपूर्ण है।
माइकल मैकगोवन

6

यदि श्रेणीगत चर सामान्य है और आप निरंतर चर को कुछ आवृत्ति अंतरालों में बिन करते हैं तो आप गामा का उपयोग कर सकते हैं। इसके अलावा क्रमिक रूप में रखे गए डेटा के लिए उपलब्ध केंडल के ताऊ, स्टुअर्ट के ताऊ और सोमरस डी। ये सब प्रेक फ्रीक का उपयोग करते हुए एसएएस में उपलब्ध हैं। मुझे नहीं पता कि आर रूटीन का उपयोग करके उनकी गणना कैसे की जाती है। यहां एक प्रस्तुति का लिंक दिया गया है जो विस्तृत जानकारी देता है: http://facademy.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5 , नामांकन के लिए एसोसिएशन ऑफ नॉमिनल एंड ऑर्डिनल वेरिएबल्स


1

एक श्रेणीगत चर प्रभावी रूप से संकेतक चर का एक सेट है। यह माप सिद्धांत का एक मूल विचार है कि इस तरह का एक वैरिएबल श्रेणियों की रीलेबलिंग के लिए अपरिवर्तनीय है, इसलिए किसी अन्य चर के बीच संबंधों के किसी भी माप में श्रेणियों के संख्यात्मक लेबलिंग का उपयोग करने का कोई मतलब नहीं है (जैसे, 'सहसंबंध) । इस कारण से, और एक निरंतर चर और एक श्रेणीगत चर के बीच संबंध का मापन पूरी तरह से बाद वाले सूचक सूचक चर पर आधारित होना चाहिए।

यह देखते हुए कि आप दो चर के बीच 'सहसंबंध' का एक माप चाहते हैं, यह एक निरंतर यादृच्छिक चर और एक संकेतक यादृच्छिक चर के बीच सहसंबंध को देखने के लिए समझ में आता है जो मैं ता श्रेणीगत चर से प्राप्त किया गया था। दे φ पी ( मैं = 1 ) हमने:XIϕP(I=1)

Cov(I,X)=E(IX)E(I)E(X)=ϕ[E(X|I=1)E(X)],

जो देता है:

Corr(I,X)=ϕ1ϕE(X|I=1)E(X)S(X).

तो एक सतत यादृच्छिक चर और एक संकेतक यादृच्छिक चर I के बीच सहसंबंध सूचक संभावना ized का एक काफी सरल कार्य है और I = 1 पर कंडीशनिंग से एक्स के अपेक्षित मूल्य में मानकीकृत लाभ है । ध्यान दें कि इस सहसंबंध को निरंतर यादृच्छिक चर के किसी भी विवेक की आवश्यकता नहीं है।XIϕXI=1


एक सामान्य स्पष्ट चर के लिए श्रृंखला के साथ 1 , , मी तो आप इस विचार को विस्तार देने वाले वैरिएबल के प्रत्येक परिणाम के लिए सहसंबंध मानों का एक वेक्टर होगा । किसी भी परिणाम के लिए सी = k हम इसी सूचक परिभाषित कर सकते हैं मैं कश्मीरमैं ( सी = कश्मीर ) और हमने:C1,...,mC=kIkI(C=k)

Corr(Ik,X)=ϕk1ϕkE(X|C=k)E(X)S(X).

हम तो परिभाषित कर सकते हैं Corr(C,X)(Corr(I1,X),...,Corr(Im,X)) प्रत्येक श्रेणी के लिए सह-संबंध मूल्यों का वेक्टर के रूप में स्पष्ट यादृच्छिक चर की। यह वास्तव में एकमात्र अर्थ है जिसमें यह एक स्पष्ट यादृच्छिक चर के लिए 'सहसंबंध' के बारे में बात करने के लिए समझ में आता है।

kCov(Ik,X)=0Xm1


(x1,c1),...,(xn,cn)

ϕ^k1ni=1nI(ci=k).

^(एक्स)एक्स¯1nΣमैं=1nएक्समैं

E^(X|C=k)x¯k1ni=1nxiI(ci=k)/ϕ^k.

S^(X)sX1n1i=1n(xix¯)2.

Substitution of these estimates would yield a basic estimate of the correlation vector. If you have parametric information on X then you could estimate the correlation vector directly by maximum likelihood or some other technique.


0

R package mpmi has the ability to calculate mutual information for mixed variable case, namely continuous and discrete. Although there are other statistical options like (point) biserial correlation coefficient to be useful here, it would be beneficial and highly recommended to calculate mutual information since it can detect associations other than linear and monotonic.


0

If X is a continuous random variable and Y is a categorical r.v.. the observed correlation between X and Y can be measured by

  1. the point-biserial correlation coefficient, if Y is dichotomous;
  2. the point-polyserial correlation coefficient, if Y is polychotomous with ordinal categories.

It should be noted, though, that the point-polyserial correlation is just a generalization of the point-biserial.

For a broader view, here's a table from Olsson, Drasgow & Dorans (1982)[1].

correlation coefficients

[1]: Source: Olsson, U., Drasgow, F., & Dorans, N. J. (1982). The polyserial correlation coefficient. Psychometrika, 47(3), 337–347

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.