संभवतः शून्य मानक विचलन के साथ डेटा सेट का पियर्सन सहसंबंध?


12

मुझे संभवतः शून्य मानक विचलन (यानी सभी डेटा का समान मूल्य है) के साथ डेटा सेट के पीयरसन सहसंबंध गुणांक की गणना करने में समस्या हो रही है।

मान लीजिए कि मेरे पास निम्नलिखित दो डेटा सेट हैं:

float x[] = {2, 2, 2, 3, 2};
float y[] = {2, 2, 2, 2, 2};

सहसंबंध गुणांक "आर", निम्नलिखित समीकरण का उपयोग करके गणना की जाएगी:

float r = covariance(x, y) / (std_dev(x) * std_dev(y));

हालाँकि, क्योंकि डेटा सेट "y" के सभी डेटा का मूल्य समान है, मानक विचलन std_dev (y) शून्य होगा और "r" अपरिभाषित होगा।

क्या इस समस्या का कोई समाधान है? या क्या मुझे इस मामले में डेटा संबंध को मापने के लिए अन्य तरीकों का उपयोग करना चाहिए?


इस उदाहरण में कोई "डेटा संबंध" नहीं है क्योंकि y भिन्न नहीं है। किसी भी संख्यात्मक मान को r को सौंपना एक गलती होगी।
whuber

1
@whuber - यह सच है कि अपरिभाषित है, लेकिन जरूरी नहीं कि "सच" अज्ञात सहसंबंध ρ का अनुमान नहीं लगाया जा सकता है। बस इसका अनुमान लगाने के लिए कुछ अलग उपयोग करना होगा। आरρ
probabilityislogic

@probability आप अनुमान लगाते हैं कि यह अनुमान की समस्या है और केवल लक्षण वर्णन में से एक नहीं है। लेकिन यह स्वीकार करते हुए कि आप किस अनुमानक के उदाहरण में प्रस्ताव रखेंगे? कोई भी उत्तर सार्वभौमिक रूप से सही नहीं हो सकता है क्योंकि यह इस बात पर निर्भर करता है कि अनुमानक का उपयोग कैसे किया जाएगा (एक नुकसान फ़ंक्शन, प्रभाव में)। कई अनुप्रयोगों में, जैसे कि पीसीए, यह संभावना है कि किसी भी प्रक्रिया का उपयोग करना जो कि लिए एक मान को लागू करता है, अन्य प्रक्रियाओं की तुलना में खराब हो सकता है जो ρ को पहचानते हैं उन्हें पहचाना नहीं जा सकता है। ρρ
whuber

1
@whuber - अनुमान एक बुरा (आपने ध्यान दिया होगा कि मैं सबसे अच्छा शब्दों का जानकार नहीं हूँ) मेरे लिए शब्द की पसंद, मेरा मतलब है कि हालांकि था विशिष्ट पहचान नहीं हो सकता है, इसका मतलब यह नहीं है कि डेटा कह में बेकार हैं हमारे बारे में ρ । मेरा जवाब एक बीजगणितीय दृष्टिकोण से इसका (बदसूरत) प्रदर्शन करता है। ρρ
प्रोबेबिलिसलॉजिक

@Probability यह लगता है कि आपका विश्लेषण विरोधाभासी है: यदि वास्तव में y को सामान्य वितरण के साथ मॉडलिंग की जाती है, तो पांच 2 का एक नमूना दिखाता है कि यह मॉडल अनुचित है। अंततः, आपको कुछ नहीं के लिए कुछ नहीं मिलता है: आपके परिणाम पुजारियों के बारे में बनी धारणाओं पर दृढ़ता से निर्भर करते हैं। पहचान करने में मूल समस्याएं अभी भी हैं लेकिन इन सभी अतिरिक्त मान्यताओं द्वारा छिपाई गई हैं। ऐसा लगता है कि IMHO सिर्फ मुद्दों को स्पष्ट करने के बजाय उन्हें स्पष्ट करता है। ρ
whuber

जवाबों:


9

"नमूना सिद्धांत" लोग आपको बताएंगे कि ऐसा कोई अनुमान मौजूद नहीं है। लेकिन आप एक प्राप्त कर सकते हैं, आपको बस अपनी पूर्व सूचना के बारे में उचित होना चाहिए, और बहुत कठिन गणितीय कार्य करना होगा।

यदि आपने अनुमान की एक बायेसियन विधि निर्दिष्ट की है, और पोस्टीरियर पूर्व के समान है, तो आप कह सकते हैं कि डेटा पैरामीटर के बारे में कुछ नहीं कहता है। क्योंकि चीजें हम पर "विलक्षण" हो सकती हैं, फिर हम अनंत पैरामीटर रिक्त स्थान का उपयोग नहीं कर सकते हैं। मैं यह मान रहा हूं कि क्योंकि आप पियर्सन सहसंबंध का उपयोग करते हैं, आपके पास एक द्विभाजित सामान्य संभावना है:

जहां Qi=(xi-μx)2

पी(डी|μएक्स,μy,σएक्स,σy,ρ)=(σएक्सσy2π(1-ρ2))-एनएक्सपी(-Σमैंक्यूमैं2(1-ρ2))
क्यूमैं=(एक्समैं-μएक्स)2σएक्स2+(yमैं-μy)2σy2-2ρ(एक्समैं-μएक्स)(yमैं-μy)σएक्सσy

अब यह इंगित करने के लिए कि एक डेटा सेट एक ही मान हो सकता है, लिखें , और फिर हमें मिलता है:yमैं=y

जहां s2x=1 है

Σमैंक्यूमैं=एन[(y-μy)2σy2+रोंएक्स2+(एक्स¯-μएक्स)2σएक्स2-2ρ(एक्स¯-μएक्स)(y-μy)σएक्सσy]
रोंएक्स2=1एनΣमैं(एक्समैं-एक्स¯)2

रोंएक्स2,y,एक्स¯,एनρμएक्स,μy,σएक्स,σy

Σमैंक्यूमैं1-ρ2=एन[(μy-[y-(एक्स¯-μएक्स)ρσyσएक्स])2σy2(1-ρ2)+रोंएक्स2σएक्स2(1-ρ2)+(एक्स¯-μएक्स)2σएक्स2]

एलμ<μएक्स,μy<यूμएलσ<σएक्स,σy<यूσρ±1

पी(ρ,μएक्स,μy,σएक्स,σy)=पी(ρ)σएक्सσy

=2(यूμ-एलμ)2[एलजी(यूσ)-एलजी(एलσ)]2

पी(ρ|डी)=पी(ρ,μएक्स,μy,σएक्स,σy)पी(डी|μएक्स,μy,σएक्स,σy,ρ)μyμएक्सσएक्सσy

=p(ρ)[2π(1-ρ2)]एन2एलσयूσएलσयूσ(σएक्सσy)-एन-1एक्सपी(-एनरोंएक्स22σएक्स2(1-ρ2))×
एलμयूμएक्सपी(-एन(एक्स¯-μएक्स)22σएक्स2)एलμयूμएक्सपी(-एन(μy-[y-(एक्स¯-μएक्स)ρσyσएक्स])22σy2(1-ρ2))μyμएक्सσएक्सσy

μyz=एनμy-[y-(एक्स¯-μएक्स)ρσyσएक्स]σy1-ρ2z=एनσy1-ρ2μyμy

σy2π(1-ρ2)एन[Φ(यूμ-[y-(एक्स¯-μएक्स)ρσyσएक्स]σyएन1-ρ2)-Φ(एलμ-[y-(एक्स¯-μएक्स)ρσyσएक्स]σyएन1-ρ2)]

ρपी(ρ)ρ

μyρΦ()ρ-0.99,-0.98,...,0.98,0.99


@probabilityislogic: वाह। बस वाह। आपके कुछ जवाबों को देखने के बाद मुझे वास्तव में आश्चर्य होता है: मेरे जैसे दिमाग के लचीले बायेसियन राज्य तक पहुंचने के लिए मुझे क्या करना चाहिए?
स्टीफन

1
@ ऑस्टिफ़ेन - योग्य। यह मुश्किल नहीं है, आपको बस अभ्यास करने की आवश्यकता है। और हमेशा हमेशा याद रखें कि संभाव्यता के उत्पाद और योग नियम एकमात्र नियम हैं जिनकी आपको कभी आवश्यकता होगी । वे जो भी जानकारी है उसे निकालेंगे - चाहे आप उसे देखें या नहीं। तो आप उत्पाद और योग नियम लागू करते हैं, फिर गणित करते हैं। यही सब मैंने यहां किया है।
प्रोबेबिलिसलॉजिक

@steffen - और दूसरा नियम - आँकड़ों की तुलना में अधिक गणितीय एक - आपकी गणना में बहुत जल्दी एक अनंत सीमा तक नहीं जाता है, आपके परिणाम मनमाने ढंग से हो सकते हैं, या थोड़ा विवरण बाहर हो सकता है। मापन त्रुटि मॉडल इसका एक आदर्श उदाहरण है (जैसा कि यह प्रश्न है)।
probabilityislogic

@probabilityislogic: धन्यवाद, मैं इसे ध्यान में रखूंगा ... जैसे ही मैं अपने "बायेसियन विश्लेषण" -कोपी के माध्यम से काम कर रहा हूं;)।
स्टीफेन

@probabilityislogic: यदि आप एक गैर-वैज्ञानिक सांख्यिकीविद् / शोधकर्ता को हास्य दे सकते हैं ... तो क्या यह संभव है कि आप अपने उत्तर को दंत चिकित्सकों या उच्च विद्यालय के प्रधानाचार्यों या परिचयात्मक सांख्यिकी छात्रों के समूह में अनुवाद करें।
16land में rolando2

6

जीwआर(v1,v2)=Σमैं=1nδ(v1मैं,v2मैं)nδv1,v2

इसलिए उदाहरण के लिए यदि सभी मान समान हैं, तो गोवर (।,) = 1। यदि दूसरी ओर वे केवल एक आयाम में भिन्न होते हैं, तो गोवर (।)। = 0.9। यदि वे प्रत्येक आयाम में भिन्न होते हैं, तो गोवर (।) = 0 और इसी तरह।

बेशक यह सहसंबंध के लिए कोई उपाय नहीं है, लेकिन यह आपको यह गणना करने की अनुमति देता है कि वेक्टर> s> 0 के साथ कितना करीब है = 0 के साथ। बेशक, आप अन्य मैट्रिक्स भी लागू कर सकते हैं, अगर वे आपके उद्देश्य को बेहतर तरीके से पूरा करते हैं।


+1 यह एक रचनात्मक विचार है। ऐसा लगता है कि "गोवर समानता" एक स्केलिंग हैमिंग दूरी है
whuber

@ शुभंकर: वास्तव में यह है!
8

0

उस मामले में सहसंबंध अपरिभाषित है। यदि आप इसे परिभाषित करते हैं, तो मैं इसे 0 के रूप में परिभाषित करूंगा, लेकिन इसके बजाय एक सरल अर्थ निरपेक्ष अंतर पर विचार करें।


0

यह प्रश्न प्रोग्रामर से आ रहा है, इसलिए मैं शून्य में प्लगिंग का सुझाव दूंगा। सहसंबंध का कोई सबूत नहीं है, और शून्य परिकल्पना शून्य (कोई सहसंबंध नहीं) होगी। अन्य संदर्भ ज्ञान हो सकता है जो एक संदर्भ में "विशिष्ट" सहसंबंध प्रदान करेगा, लेकिन कोड को दूसरे संदर्भ में फिर से उपयोग किया जा सकता है।


2
सहसंबंध की कमी का कोई सबूत नहीं है , तो 1 में प्लग क्यों नहीं? या -1? या बीच में कुछ भी? वे सभी फिर से उपयोग करने योग्य कोड के लिए नेतृत्व करते हैं!
व्हीबर

@ व्हाइट - आप शून्य में प्लग करते हैं क्योंकि स्वतंत्र होने पर डेटा "कम विवश" होता है - यही कारण है कि अधिकतम वितरण स्वतंत्र हैं जब तक कि आप स्पष्ट रूप से बाधाओं में सहसंबंध निर्दिष्ट नहीं करते हैं। स्वतंत्रता को एक रूढ़िवादी धारणा के रूप में देखा जा सकता है जब आप इस तरह के सहसंबंधों के बारे में नहीं जानते हैं - प्रभावी रूप से आप सभी संभावित सहसंबंधों से अधिक औसत हैं ।
प्रोबेबिलिसलॉजिक

1
@prob मैं सवाल करता हूं कि यह सभी सहसंबंधों को औसत करने के लिए सामान्य प्रक्रिया के रूप में क्यों समझ में आता है । वास्तव में यह प्रक्रिया निश्चित और संभवतः काफी गलत उत्तर "शून्य!" को प्रतिस्थापित करती है। सही उत्तर के लिए "डेटा हमें नहीं बताएं।" निर्णय लेने के लिए यह अंतर महत्वपूर्ण हो सकता है।
whuber

सिर्फ इसलिए कि सवाल एक प्रोग्रामर से हो सकता है, इसका मतलब यह नहीं है कि आपको अपरिभाषित मान को शून्य में बदलना चाहिए। शून्य का मतलब एक सहसंबंध गणना में कुछ विशिष्ट है। एक अपवाद फेंक दें। कॉल करने वाले को तय करना चाहिए कि क्या होना चाहिए। आपके फ़ंक्शन को एक सहसंबंध की गणना करनी चाहिए, यह तय नहीं करना चाहिए कि यदि कोई गणना नहीं की जा सकती है तो क्या करें।
जैरेड बेकसफोर्ट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.