भारित सहसंबंध के रूप में ऐसी बात?


14

मेरे पास सबसे लोकप्रिय संगीत कलाकारों के बारे में कुछ दिलचस्प आंकड़े हैं जो स्थान के आधार पर लगभग 200 कांग्रेस जिलों में विभाजित हैं। मैं यह देखना चाहता हूं कि क्या यह संभव है कि किसी व्यक्ति को उसकी संगीत वरीयताओं को चुना जाए और यह निर्धारित किया जाए कि वह "एक डेमोक्रेट की तरह सुनता है" या "एक रिपब्लिकन की तरह सुनता है।" (स्वाभाविक रूप से यह हल्के दिल का है, लेकिन डेटा में वास्तविक एन्ट्रॉपी है!)

मेरे पास लगभग 100 कलाकारों का डेटा है, साथ ही पिछले तीन चुनाव चक्रों में प्रत्येक जिले में रिपब्लिकन और डेमोक्रेट के लिए औसत प्रतिशत वोट हैं। इसलिए मैंने प्रत्येक कलाकार पर एक सहसंबंध चलाया, यह देखने के लिए कि डेमोक्रेटस के लिए वोट शेयर के एक समारोह के रूप में कौन-सी सबसे अधिक सुनी-सुनाई गई। वे सहसंबंध किसी भी दिए गए कलाकार के लिए लगभग -0.3 से 0.3 तक चलते हैं, बीच में बहुत सारे जिनके पास कोई पूर्वानुमानित शक्ति नहीं है।

मेरे पास दो प्रश्न हैं: पहला, प्रति जिले धाराओं की कुल संख्या व्यापक रूप से भिन्न होती है। अभी, मैं प्रति जिले से संबंधित सभी धाराओं के प्रतिशत का उल्लेख कर रहा हूं, जैसे कि, बीओनसेक, डेमोक्रेट के लिए डाले गए वोटों के प्रतिशत के खिलाफ। लेकिन एक जिले में कुल धाराएँ लाखों में हो सकती हैं, जबकि दूसरी निम्न 100,000 में है। क्या मुझे इसके लिए किसी तरह सहसंबंध को वजन करने की आवश्यकता है?

दूसरा, मैं उत्सुक हूं कि इन सहसंबंधों को उपयोगकर्ता की राजनीति के रूप में एक समग्र अनुमान में कैसे संयोजित किया जाए। मान लें कि मैं 20 कलाकारों को उच्चतम पूर्ण सहसंबंधी मूल्यों (सकारात्मक और नकारात्मक) के साथ लेता हूं, प्रत्येक दिशा में दस, और प्रत्येक कलाकार को कितना पसंद है, इस पर एक उपयोगकर्ता को परागित करता है। इसलिए मेरे पास प्रत्येक कलाकार के वोटों के ऊपर या नीचे हैं और सभी 20 मूल्यों के लिए राजनीति से संबंध हैं। क्या इन अनुमानों को एक अनुमान में संयोजित करने का एक मानक तरीका है? (मैं NYTimes की प्रसिद्ध बोली क्विज़ की तरह कुछ सोच रहा हूँ , जहाँ इसने 25 सवालों के लिए क्षेत्रीय संभावनाओं को हीट मैप में जोड़ा है। लेकिन इस मामले में, मुझे सिर्फ एक मूल्य की आवश्यकता है कि डेमोक्रेटिक या रिपब्लिकन संगीत में किसी का स्वाद कैसा है।

धन्यवाद!

जवाबों:


25

भारित पियर्सन सहसंबंध के लिए सूत्र वेब , स्टैकऑवरफ्लो और विकिपीडिया पर आसानी से पाया जा सकता है और इसे कई आर पैकेजों जैसे कि मनोवैज्ञानिक , या भार और पायथन के स्टैटमोडेल पैकेज में लागू किया जाता है। इसकी गणना नियमित सहसंबंध की तरह की जाती है लेकिन भारित साधनों का उपयोग करने के साथ ,

mX=iwixiiwi,    mY=iwiyiiwi

भारित संस्करण ,

sX=iwi(ximX)2iwi,    sY=iwi(yimY)2iwi

और वजनदार कोवरियन

sXY=iwi(ximX)(yimY)iwi

यह सब होने से आप आसानी से भारित सहसंबंध की गणना कर सकते हैं

ρXY=sXYsXsY

आपके दूसरे प्रश्न के बारे में, जैसा कि मैं इसे समझता हूं, आपके पास बीस कलाकारों के लिए राजनीतिक अभिविन्यास और वरीयता के बीच सहसंबंध के बारे में डेटा होगा और उपयोगकर्ता उनकी वरीयता के बारे में द्विआधारी उत्तर देते हैं और आप इसे किसी तरह का समग्र उपाय प्राप्त करना चाहते हैं।

चलो औसत सहसंबंधों के साथ शुरू करते हैं। औसत संभावनाओं के लिए कई तरीके हैं , लेकिन सहसंबंधों को औसत करने के लिए इतने सारे दृष्टिकोण नहीं हैं। एक बात है कि किया जा सकता है उपयोग करने के लिए है फिशर -transformationz रूप MathOverflow पर वर्णित अर्थात

ρ¯=tanh1(j=1Ktanh(ρj)K)

मूल रूप से सहसंबंध गुणांक के स्पर्शरेखा को चरम मानों (नीचे देखें) को "समतल" करते हैं, ताकि अंतिम अनुमान पर उनका कम प्रभाव हो और उनका वितरण सामान्य के करीब हो जाए। इस प्रक्रिया को बुशमैन और वांग (1995) और कोरी, डनलप और बर्क (1998) द्वारा भी वर्णित किया गया था।

यहाँ छवि विवरण दर्ज करें

r=cor(X,Y)r=cor(X,Y)=cor(X,Y) , तो संगीत संबंधी वरीयता का सकारात्मक सहसंबंध कुछ राजनीतिक अभिविन्यास, इस तरह के राजनीतिक अभिविन्यास के लिए संगीत नापसंद के नकारात्मक सहसंबंध के समान है, और दूसरे तरीके से।

rjjxijijxij=1xij=1

r¯i=tanh1(j=1Ktanh(rjxij)K)

11

परंतु...

क्या आपको नहीं लगता कि यह सब कुछ के लिए एक ओवरकिल है जो मूल रूप से एक बहु प्रतिगमन समस्या है? इसके बजाय सभी भार और औसत आप भारित कई प्रतिगमन (रैखिक या उपस्कर का उपयोग कर सकते हैं यदि आप द्विआधारी वरीयता या दोनों दिशा में वरीयता की डिग्री की भविष्यवाणी करते हैं) जहां भार उप-आकारों के आकार पर आधारित होते हैं। आप भविष्यवक्ता के रूप में प्रत्येक कलाकार के लिए संगीत की प्राथमिकता का उपयोग करेंगे। अंत में आप पूर्वानुमान बनाने के लिए उपयोगकर्ता की प्राथमिकता का उपयोग करेंगे। यह दृष्टिकोण सरल और अधिक सांख्यिकीय रूप से सुरुचिपूर्ण है। यह भी लागू होता है सापेक्षAB


बुशमैन, बीजे, और वांग, एमसी (1995)। नमूना सहसंबंध गुणांक के संयोजन के लिए एक प्रक्रिया और जनसंख्या सहसंबंध गुणांक के लिए एक अनुमान और एक विश्वास अंतराल प्राप्त करने के लिए वोट मायने रखता है। मनोवैज्ञानिक बुलेटिन, 117 (3), 530।

कोरी, डीएम, डनलप, डब्ल्यूपी, और बर्क, एमजे (1998)। Averaging Correlations: Expected Values ​​and Bias in Combined Pearson rs and Fisher's z Transformations, The Journal of General Psychology, 125 (3), 245-261।


धन्यवाद! इससे काफी मदद मिलती है। आज बाद में उपलब्ध होने पर इनाम देगा
क्रिस विल्सन

एक्समैंyमैं

1
@ कगारत्सच मैंने कभी ऐसा सूत्र नहीं देखा। यह पूछने के लिए एक अच्छा प्रश्न है।
टिम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.