भारित सहसंबंध के रूप में ऐसी बात?

मेरे पास सबसे लोकप्रिय संगीत कलाकारों के बारे में कुछ दिलचस्प आंकड़े हैं जो स्थान के आधार पर लगभग 200 कांग्रेस जिलों में विभाजित हैं। मैं यह देखना चाहता हूं कि क्या यह संभव है कि किसी व्यक्ति को उसकी संगीत वरीयताओं को चुना जाए और यह निर्धारित किया जाए कि वह "एक डेमोक्रेट की तरह सुनता है" या "एक रिपब्लिकन की तरह सुनता है।" (स्वाभाविक रूप से यह हल्के दिल का है, लेकिन डेटा में वास्तविक एन्ट्रॉपी है!)

मेरे पास लगभग 100 कलाकारों का डेटा है, साथ ही पिछले तीन चुनाव चक्रों में प्रत्येक जिले में रिपब्लिकन और डेमोक्रेट के लिए औसत प्रतिशत वोट हैं। इसलिए मैंने प्रत्येक कलाकार पर एक सहसंबंध चलाया, यह देखने के लिए कि डेमोक्रेटस के लिए वोट शेयर के एक समारोह के रूप में कौन-सी सबसे अधिक सुनी-सुनाई गई। वे सहसंबंध किसी भी दिए गए कलाकार के लिए लगभग -0.3 से 0.3 तक चलते हैं, बीच में बहुत सारे जिनके पास कोई पूर्वानुमानित शक्ति नहीं है।

मेरे पास दो प्रश्न हैं: पहला, प्रति जिले धाराओं की कुल संख्या व्यापक रूप से भिन्न होती है। अभी, मैं प्रति जिले से संबंधित सभी धाराओं के प्रतिशत का उल्लेख कर रहा हूं, जैसे कि, बीओनसेक, डेमोक्रेट के लिए डाले गए वोटों के प्रतिशत के खिलाफ। लेकिन एक जिले में कुल धाराएँ लाखों में हो सकती हैं, जबकि दूसरी निम्न 100,000 में है। क्या मुझे इसके लिए किसी तरह सहसंबंध को वजन करने की आवश्यकता है?

दूसरा, मैं उत्सुक हूं कि इन सहसंबंधों को उपयोगकर्ता की राजनीति के रूप में एक समग्र अनुमान में कैसे संयोजित किया जाए। मान लें कि मैं 20 कलाकारों को उच्चतम पूर्ण सहसंबंधी मूल्यों (सकारात्मक और नकारात्मक) के साथ लेता हूं, प्रत्येक दिशा में दस, और प्रत्येक कलाकार को कितना पसंद है, इस पर एक उपयोगकर्ता को परागित करता है। इसलिए मेरे पास प्रत्येक कलाकार के वोटों के ऊपर या नीचे हैं और सभी 20 मूल्यों के लिए राजनीति से संबंध हैं। क्या इन अनुमानों को एक अनुमान में संयोजित करने का एक मानक तरीका है? (मैं NYTimes की प्रसिद्ध बोली क्विज़ की तरह कुछ सोच रहा हूँ , जहाँ इसने 25 सवालों के लिए क्षेत्रीय संभावनाओं को हीट मैप में जोड़ा है। लेकिन इस मामले में, मुझे सिर्फ एक मूल्य की आवश्यकता है कि डेमोक्रेटिक या रिपब्लिकन संगीत में किसी का स्वाद कैसा है।

धन्यवाद!

— क्रिस विल्सन
स्रोत

भारित पियर्सन सहसंबंध के लिए सूत्र वेब , स्टैकऑवरफ्लो और विकिपीडिया पर आसानी से पाया जा सकता है और इसे कई आर पैकेजों जैसे कि मनोवैज्ञानिक , या भार और पायथन के स्टैटमोडेल पैकेज में लागू किया जाता है। इसकी गणना नियमित सहसंबंध की तरह की जाती है लेकिन भारित साधनों का उपयोग करने के साथ ,

m_{X} = \frac{\sum_{i} w_{i} x_{i}}{\sum_{i} w_{i}}, m_{Y} = \frac{\sum_{i} w_{i} y_{i}}{\sum_{i} w_{i}}

$m_X = \frac{\sum_i w_i x_i}{\sum_i w_i}, ~~~~ m_Y = \frac{\sum_i w_i y_i}{\sum_i w_i}$

भारित संस्करण ,

s_{X} = \frac{\sum_{i} w_{i} (x_{i} - m_{X})^{2}}{\sum_{i} w_{i}}, s_{Y} = \frac{\sum_{i} w_{i} (y_{i} - m_{Y})^{2}}{\sum_{i} w_{i}}

$s_X = \frac{\sum_i w_i (x_i - m_X)^2}{ \sum_i w_i}, ~~~~ s_Y = \frac{\sum_i w_i (y_i - m_Y)^2}{ \sum_i w_i}$

और वजनदार कोवरियन

s_{X Y} = \frac{\sum_{i} w_{i} (x_{i} - m_{X}) (y_{i} - m_{Y})}{\sum_{i} w_{i}}

$s_{XY} = \frac{\sum_i w_i (x_i - m_X)(y_i - m_Y)}{ \sum_i w_i}$

यह सब होने से आप आसानी से भारित सहसंबंध की गणना कर सकते हैं

ρ_{X Y} = \frac{s_{X Y}}{\sqrt{s_{X} s_{Y}}}

$\rho_{XY} = \frac{s_{XY}}{\sqrt{s_X s_Y}}$

आपके दूसरे प्रश्न के बारे में, जैसा कि मैं इसे समझता हूं, आपके पास बीस कलाकारों के लिए राजनीतिक अभिविन्यास और वरीयता के बीच सहसंबंध के बारे में डेटा होगा और उपयोगकर्ता उनकी वरीयता के बारे में द्विआधारी उत्तर देते हैं और आप इसे किसी तरह का समग्र उपाय प्राप्त करना चाहते हैं।

चलो औसत सहसंबंधों के साथ शुरू करते हैं। औसत संभावनाओं के लिए कई तरीके हैं , लेकिन सहसंबंधों को औसत करने के लिए इतने सारे दृष्टिकोण नहीं हैं। एक बात है कि किया जा सकता है उपयोग करने के लिए है फिशर -transformation $z$ रूप MathOverflow पर वर्णित अर्थात

\bar{ρ} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (ρ_{j})}{K})

$\bar\rho = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(\rho_j)}{K} \right)$

मूल रूप से सहसंबंध गुणांक के स्पर्शरेखा को चरम मानों (नीचे देखें) को "समतल" करते हैं, ताकि अंतिम अनुमान पर उनका कम प्रभाव हो और उनका वितरण सामान्य के करीब हो जाए। इस प्रक्रिया को बुशमैन और वांग (1995) और कोरी, डनलप और बर्क (1998) द्वारा भी वर्णित किया गया था।

$r = \mathrm{cor}(X,Y)$ $-r = \mathrm{cor}(-X,Y) = \mathrm{cor}(X,-Y)$ , तो संगीत संबंधी वरीयता का सकारात्मक सहसंबंध कुछ राजनीतिक अभिविन्यास, इस तरह के राजनीतिक अभिविन्यास के लिए संगीत नापसंद के नकारात्मक सहसंबंध के समान है, और दूसरे तरीके से।

$r_j$ $j$ $x_{ij}$ $i$ $j$ $x_{ij} = 1$ $x_{ij} = -1$

{\bar{r}}_{i} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (r_{j} x_{i j})}{K})

$\bar r_i = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(r_j x_{ij})}{K} \right)$

$-1$ $1$

परंतु...

क्या आपको नहीं लगता कि यह सब कुछ के लिए एक ओवरकिल है जो मूल रूप से एक बहु प्रतिगमन समस्या है? इसके बजाय सभी भार और औसत आप भारित कई प्रतिगमन (रैखिक या उपस्कर का उपयोग कर सकते हैं यदि आप द्विआधारी वरीयता या दोनों दिशा में वरीयता की डिग्री की भविष्यवाणी करते हैं) जहां भार उप-आकारों के आकार पर आधारित होते हैं। आप भविष्यवक्ता के रूप में प्रत्येक कलाकार के लिए संगीत की प्राथमिकता का उपयोग करेंगे। अंत में आप पूर्वानुमान बनाने के लिए उपयोगकर्ता की प्राथमिकता का उपयोग करेंगे। यह दृष्टिकोण सरल और अधिक सांख्यिकीय रूप से सुरुचिपूर्ण है। यह भी लागू होता है सापेक्ष $A$ $B$

बुशमैन, बीजे, और वांग, एमसी (1995)। नमूना सहसंबंध गुणांक के संयोजन के लिए एक प्रक्रिया और जनसंख्या सहसंबंध गुणांक के लिए एक अनुमान और एक विश्वास अंतराल प्राप्त करने के लिए वोट मायने रखता है। मनोवैज्ञानिक बुलेटिन, 117 (3), 530।

कोरी, डीएम, डनलप, डब्ल्यूपी, और बर्क, एमजे (1998)। Averaging Correlations: Expected Values and Bias in Combined Pearson rs and Fisher's z Transformations, The Journal of General Psychology, 125 (3), 245-261।

— टिम
स्रोत

धन्यवाद! इससे काफी मदद मिलती है। आज बाद में उपलब्ध होने पर इनाम देगा

— क्रिस विल्सन

x_{i}

$x_i$

y_{i}

$y_i$

@ कगारत्सच मैंने कभी ऐसा सूत्र नहीं देखा। यह पूछने के लिए एक अच्छा प्रश्न है।

— टिम