निरंतर चर और श्रेणीगत चर के बीच सहसंबंध का अनुमान लगाने के लिए आपसी जानकारी का उपयोग करना


13

शीर्षक के रूप में, विचार एक निरंतर चर और एक श्रेणीगत चर के बीच "सहसंबंध" (परिभाषित के रूप में "मुझे पता है कि जब मैं बी के बारे में कितना जानता हूं") के रूप में अनुमान लगाने के लिए, यहां और एमआई के बाद आपसी जानकारी का उपयोग करना है। मैं आपको एक क्षण में मामले पर अपने विचार बताऊंगा, लेकिन इससे पहले कि मैं आपको CrossValidated इस अन्य प्रश्न / उत्तर को पढ़ने की सलाह दूं क्योंकि इसमें कुछ उपयोगी जानकारी है।

अब, क्योंकि हम एक श्रेणीगत चर पर एकीकृत नहीं कर सकते हैं जो हमें निरंतर एक को अलग करने की आवश्यकता है। यह आर में काफी आसानी से किया जा सकता है, जो कि मैंने अपने अधिकांश विश्लेषणों के साथ किया है। मैंने cutफ़ंक्शन का उपयोग करना पसंद किया , क्योंकि यह मूल्यों को भी उपनाम देता है, लेकिन अन्य विकल्प भी उपलब्ध हैं। बिंदु, है एक तय करने के लिए है एक प्रायोरी "डिब्बे" (असतत राज्यों) किसी भी discretization से पहले की संख्या से किया जा सकता।

हालांकि, मुख्य समस्या एक और है: एमआई 0 से, तक है, क्योंकि यह एक असंरचित उपाय है जो इकाई बिट है। यह एक सहसंबंध गुणांक के रूप में उपयोग करने के लिए बहुत मुश्किल बनाता है। इसे वैश्विक सहसंबंध गुणांक का उपयोग करके आंशिक रूप से हल किया जा सकता है , यहां और जीसीसी के बाद, जो एमआई का मानकीकृत संस्करण है; GCC को निम्नानुसार परिभाषित किया गया है:

यहाँ छवि विवरण दर्ज करें

संदर्भ: सूत्र आंद्रेया डायोनियो, रुई मेनेजेस और डायना मेंडेस, 2010 द्वारा स्टॉक मार्केट ग्लोबलाइजेशन का विश्लेषण करने के लिए एक गैर-रेखीय उपकरण के रूप में म्युचुअल सूचना से है।

जीसीसी 0 से 1 तक होता है, और इसलिए दो चर के बीच संबंध का अनुमान लगाने के लिए आसानी से उपयोग किया जा सकता है। समस्या हल हुई, है ना? एक प्रकार का। क्योंकि यह सारी प्रक्रिया बहुत हद तक इस बात पर निर्भर करती है कि हमने कितने डिस्क्रिमिनेशन के दौरान इस्तेमाल करने का फैसला किया है। यहाँ मेरे प्रयोगों के परिणाम:

यहाँ छवि विवरण दर्ज करें

Y- अक्ष पर आपके पास GCC है और x- अक्ष पर आपके पास 'डिब्बे' की संख्या है जिसे मैंने विवेक के लिए उपयोग करने का निर्णय लिया है। दो लाइनें दो अलग-अलग विश्लेषणों को संदर्भित करती हैं जिन्हें मैंने दो अलग-अलग (हालांकि बहुत समान) डेटासेट पर आयोजित किया था।

यह मुझे लगता है कि विशेष रूप से एमआई और विशेष रूप से जीसीसी का उपयोग अभी भी विवादास्पद है। फिर भी, यह भ्रम मेरी तरफ से एक गलती का परिणाम हो सकता है। या तो मामला है, मैं इस मामले पर आपकी राय सुनना पसंद करूंगा (क्या आपके पास एक स्पष्ट चर और निरंतर एक के बीच सहसंबंध का अनुमान लगाने के लिए वैकल्पिक तरीके हैं?)।


2
मैं निरंतर और असतत चर के संयुक्त वितरण के लिए पारस्परिक जानकारी की गणना करने पर टिप्पणी नहीं कर सकता, लेकिन मैं सुझाव दे सकता हूं कि यदि आप आपसी जानकारी के सामान्यीकृत संस्करण की गणना करते हैं, तो द्विपद के प्रभाव को समाप्त किया जाना चाहिए। आमतौर पर एक एंट्रॉपी के योग से या संयुक्त एन्ट्रॉपी द्वारा सामान्यीकृत होता है। एंट्रॉपीज़ का योग थोड़ा बेहतर है क्योंकि । H(Xi,Xj)H(Xi)+H(Xj)
जेसिका कोलिन्स

बीटीडब्लू, यहां कोड कोड है जो कोई भी बिनिंग विधि की कोशिश करना चाहता है।
zkurtz

4
आप "सहसंबंध" का अनुमान नहीं लगा रहे हैं। आप पारस्परिक जानकारी का अनुमान लगा रहे हैं। एक दूसरे का अनुमान नहीं करता है; वे एसोसिएशन की अधिक सामान्य अवधारणा के विशिष्ट उपाय हैं ।
zkurtz

शायद इस पद के लिए एक बेहतर शीर्षक है "कैसे एक निरंतर चर के साथ अपनी पारस्परिक जानकारी का अनुमान लगाने के लिए एक निरंतर चर को सर्वश्रेष्ठ किया जाए?"
zkurtz

यहाँ एक दिलचस्प गैर-द्वैध दृष्टिकोण है। दुर्भाग्य से मुझे एक आर कार्यान्वयन नहीं मिल रहा है।
zkurtz

जवाबों:


5

इस समस्या से निपटने का एक सरल और बेहतर तरीका है। एक श्रेणीगत चर प्रभावी रूप से संकेतक चर का एक सेट है। यह माप सिद्धांत का एक मूल विचार है कि इस तरह का एक वैरिएबल श्रेणियों की रीलेबलिंग के लिए अपरिवर्तनीय है, इसलिए किसी अन्य चर के बीच संबंधों के किसी भी माप में श्रेणियों के संख्यात्मक लेबलिंग का उपयोग करने का कोई मतलब नहीं है (जैसे, 'सहसंबंध) । इस कारण से, और एक निरंतर चर और एक श्रेणीगत चर के बीच संबंध का मापन पूरी तरह से बाद वाले सूचक चर से आधारित होना चाहिए।

यह देखते हुए कि आप दो चर के बीच 'सहसंबंध' का एक माप चाहते हैं, यह एक निरंतर यादृच्छिक चर और एक संकेतक यादृच्छिक चर के बीच सहसंबंध को देखने के लिए समझ में आता है जो ता श्रेणीगत चर से प्राप्त किया गया था। हमारे पास होने दें:XIϕP(I=1)

Cov(I,X)=E(IX)E(I)E(X)=ϕ[E(X|I=1)E(X)],

जो देता है:

Corr(I,X)=ϕ1ϕE(X|I=1)E(X)S(X).

तो एक सतत यादृच्छिक चर और एक संकेतक यादृच्छिक चर बीच सहसंबंध सूचक प्रायिकता का एक काफी सरल कार्य है और पर कंडीशनिंग से अपेक्षित मूल्य में मानकीकृत लाभ है । ध्यान दें कि इस सहसंबंध को निरंतर यादृच्छिक चर के किसी भी विवेक की आवश्यकता नहीं है।XIϕXI=1


श्रेणी साथ एक सामान्य श्रेणीबद्ध चर के लिए तो आप इस विचार को विस्तारक चर के प्रत्येक परिणाम के लिए सहसंबंध मानों के वेक्टर के लिए विस्तारित करेंगे । किसी भी परिणाम हम संबंधित संकेतक को परिभाषित कर सकते हैं और हमारे पास हैं:C1,...,mC=kIkI(C=k)

Corr(Ik,X)=ϕk1ϕkE(X|C=k)E(X)S(X).

हम तब के लिए को के मान के रूप में श्रेणीबद्ध यादृच्छिक चर की प्रत्येक श्रेणी। यह वास्तव में एकमात्र अर्थ है जिसमें यह एक स्पष्ट यादृच्छिक चर के लिए 'सहसंबंध' के बारे में बात करने के लिए समझ में आता है।Corr(C,X)(Corr(I1,X),...,Corr(Im,X))

( नोट: यह दिखाने के लिए तुच्छ है कि और इसलिए एक स्पष्ट यादृच्छिक चर के लिए सहसंबंध वेक्टर इस बाधा के अधीन है। इसका मतलब है कि वेक्टर के लिए प्रायिकता वेक्टर का ज्ञान। स्पष्ट यादृच्छिक चर, और के मानक विचलन , आप वेक्टर को इसके तत्वों के किसी भी से प्राप्त कर सकते हैं ।)kCov(Ik,X)=0Xm1


उपरोक्त प्रदर्शनी सच्चे सहसंबंध मूल्यों के लिए है, लेकिन स्पष्ट रूप से इनका अनुमान किसी दिए गए विश्लेषण में होना चाहिए। नमूना डेटा से संकेतक सहसंबंधों का अनुमान लगाना सरल है, और प्रत्येक भागों के लिए उपयुक्त अनुमानों के प्रतिस्थापन द्वारा किया जा सकता है। (यदि आप चाहें तो आप अनुमान विधियों का उपयोग कर सकते हैं।) नमूना डेटा ) को देखते हुए हम सहसंबंध समीकरण के कुछ हिस्सों का अनुमान लगा सकते हैं:(x1,c1),...,(xn,cn)

ϕ^k1ni=1nI(ci=k).

E^(X)x¯1ni=1nxi.

E^(X|C=k)x¯k1ni=1nxiI(ci=k)/ϕ^k.

S^(X)sX1n1i=1n(xix¯)2.

इन अनुमानों के प्रतिस्थापन से सहसंबंध वेक्टर का एक मूल अनुमान निकलेगा। यदि आपके पास पर पैरामीट्रिक जानकारी है तो आप अधिकतम संभावना या किसी अन्य तकनीक द्वारा सीधे सहसंबंध वेक्टर का अनुमान लगा सकते हैं।X

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.