गैर-रैखिक निर्भरता को मापना


11

दो यादृच्छिक चर के बीच सहसंयोजी एक माप को परिभाषित करता है कि वे एक दूसरे से रैखिक रूप से कितने निकट से संबंधित हैं। लेकिन क्या होगा अगर संयुक्त वितरण परिपत्र है? निश्चित रूप से वितरण में संरचना है। इस संरचना को कैसे निकाला जाता है?

जवाबों:


8

"परिपत्र" से मैं समझता हूं कि वितरण एक परिपत्र क्षेत्र पर केंद्रित है, जैसे कि एक पीडीएफ के समोच्च भूखंड में।

एक परिपत्र वितरण के समोच्च भूखंड

यदि इस तरह की संरचना मौजूद है, तो आंशिक रूप से, इसकी पहचान करने और मापने का एक प्राकृतिक तरीका वितरण को अपने केंद्र के चारों ओर औसत रूप से रखना है । (सहज रूप से, इसका मतलब है कि प्रत्येक संभव त्रिज्या हमें केंद्र से दूरी पर सभी दिशाओं में समान रूप से चारों ओर होने की संभावना को फैलाना चाहिए ।) चर रूप में नकारते हुए , केंद्र बिंदु पर स्थित होना चाहिए। पहले क्षण । औसत करने के लिए रेडियल वितरण फ़ंक्शन को परिभाषित करना सुविधाजनक हैr ( X , Y ) ( μ X , μ Y )rr(X,Y)(μX,μY)

F(ρ)=Pr[(XμX)2+(YμY)2ρ2],ρ0;
F(ρ)=0,ρ<0.

यह केंद्र की दूरी और के बीच झूठ बोलने की कुल संभावना को है। सभी दिशाओं में इसे बाहर से वितरित करने के जाने के साथ CDF एक यादृच्छिक चर हो और पर एक समान यादृच्छिक चर हो के स्वतंत्र । द्विचर यादृच्छिक चर है परिपत्र औसत के । (यह एक "परिपत्र औसत" के हमारे अंतर्ज्ञान की मांग को पूरा करता है क्योंकि (क) इसका सही रेडियल वितरण है, अर्थात् , निर्माण द्वारा, और (बी) केंद्र से सभी दिशाओं (0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ) समान रूप से संभावित हैं।)

इस बिंदु पर आपके पास कई विकल्प हैं: जो सभी अवशेष के वितरण की तुलना उस । संभावनाओं में एक दूरी और कुल्बैक-लीब्लर विचलन (असंख्य संबंधित दूरी के उपायों के साथ: सममितीय विचलन, हेलिंगर दूरी, आपसी जानकारी आदि ) शामिल हैं। तुलना का सुझाव है में एक परिपत्र संरचना हो सकती है जब यह करीब हो । इस मामले में संरचना गुणों से "निकाली" जा सकती है । उदाहरण के लिए, के केंद्रीय स्थान का एक उपाय , जैसे कि इसका माध्य या माध्यिका, वितरण के "त्रिज्या" की पहचान करता है(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y) , और के मानक विचलन (या पैमाने के अन्य माप) यह व्यक्त करते हैं कि "कैसे फैलता है" उनके केंद्रीय स्थान बारे में रेडियल दिशाओं में हैं ।F(X,Y)(μX,μY)

जब एक वितरण से नमूना , डेटा साथ एक उचित परीक्षण केंद्रीय स्थान को सामान्य रूप से अनुमान लगाने के लिए होता है (साधनों या मध्यस्थों के साथ) और प्रत्येक मान को परिवर्तित करते हैं ध्रुवीय निर्देशांक में उस अनुमानित केंद्र के सापेक्ष। रेडी के मानक विचलन (या IQR) की उनके मतलब (या माध्यिका) से तुलना करें। गैर-परिपत्र वितरण के लिए अनुपात बड़ा होगा; परिपत्र वितरण के लिए यह अपेक्षाकृत छोटा होना चाहिए। (यदि आपके पास अंतर्निहित वितरण के लिए एक विशिष्ट मॉडल है, तो आप रेडियल स्टेटिस्टिक के नमूना वितरण का काम कर सकते हैं और इसके साथ एक महत्व परीक्षण का निर्माण कर सकते हैं।) अलग से, अंतराल में एकरूपता के लिए कोणीय समन्वय का परीक्षण करें।(xi,yi),1in(xi,yi)(ri,θi)[0,2π) । यह परिपत्र वितरण के लिए लगभग समान होगा (और कुछ अन्य वितरणों के लिए भी); गैर-एकरूपता परिपत्रता से प्रस्थान का संकेत देती है।


1
धन्यवाद! हालांकि पूरी तरह से स्पष्ट नहीं है, यह मुझे कुछ विचार देता है। क्या आप कृपया कुछ पढ़ने की सिफारिश कर सकते हैं जहाँ इस तरह के वितरण से निपटे हैं? मुझे केवल गौसियों और अन्य मानक वितरणों से अवगत कराया गया है। एक अन्य प्रश्न, क्या इसका परमाणुओं आदि के रेडियल वितरण कार्यों के साथ कुछ करना है?
अनंत

1
@ इनफिनिटी मुझे पता है कि क्या हिस्सा स्पष्ट नहीं है, इसलिए मैं इसे ठीक करने की कोशिश कर सकता हूं। मुझे नहीं पता कि इस तरह के वितरणों पर चर्चा की जाती है, लेकिन संबंधित विश्लेषण "परिपत्र वितरण" पर साहित्य में पाया जा सकता है। अंतर्निहित गणितीय विचार वास्तव में कुछ हद तक परमाणु कक्षीय सिद्धांत से संबंधित हैं। प्रासंगिक अवधारणाओं में गोलाकार निर्देशांक में श्रोडिंगर समीकरण की पृथक्करणता शामिल है, जो औसत से एक कॉम्पैक्ट ले समूह के Haar माप का निर्माण करती है, और ओवरलैप इंटीग्रल्स के माध्यम से ऑर्बिटल्स की तुलना करती है।
whuber

धन्यवाद। मैं प्रायिकता और आँकड़ों के लिए बहुत नया हूँ इसलिए शायद इसकी वजह थी। मुझे वास्तव में समझ में नहीं आया कि आपके केंद्र के चारों ओर "औसत रूप से वितरण का औसतन" क्या मतलब है, मुझे लगता है कि इसका मतलब है कि सभी मंडलियों को औसत करना है ताकि केंद्र के साथ केवल एक सर्कल बचा रहे और त्रिज्या एक रेखीय प्रतिगमन लाइन फिट की तरह थोड़े। क्या वो सही है? (μX,μY)ρ
इन्फिनिटी

मेरे पास दूसरा संदेह यह है कि वितरण फ़ंक्शन एक डिस्क का वर्णन करता है, लेकिन आंकड़ा (और जो मेरे मन में था) एक अंगूठी है। यादृच्छिक चर ध्रुवीय रूप में औसत वृत्त का वर्णन करता है। मुझे खेद है कि मुझे स्पष्ट रूप से नहीं मिला कि आगे क्या होता है। मैं समझता हूं कि हम कुछ दूरी मीट्रिक का उपयोग करके दो वितरणों की तुलना करते हैं, लेकिन क्यों विशेष है और यह कैसे मदद करता है कि मैं तर्क करने में असमर्थ हूं। मुझे खेद है यदि प्रश्न बहुत अधिक मूर्ख लगते हैं। F(ρ)(Ξ,H)(Ξ,H)
इन्फिनिटी

1
@ इन्फिनिटी में मैंने कुछ स्पष्ट टिप्पणियां जोड़ीं। आप मंडलियों से औसत नहीं निकालते; बल्कि, आप (या "धब्बा") बाहर औसत सभी संभावना भर में प्रत्येक चक्र इतना है कि कोई बात नहीं क्या आप के साथ शुरू कर दिया है, यह समाप्त होता है मेरी तस्वीर की तरह लग रही (परिपत्र आकृति के साथ)। यदि मूल वितरण वास्तव में परिपत्र था, तो यह औसत इसे बदलता नहीं है। इस प्रकार, वितरण को इसके औसत संस्करण से तुलना करना बताता है कि यह पहली जगह में गोलाकार होने से कितनी दूर है।
whuber

5

पारस्परिक जानकारी में गुणसूत्र के अनुरूप कुछ गुण होते हैं। Covariance एक संख्या है जो स्वतंत्र चर के लिए 0 और वैरिएबल के लिए नॉनज़रो है जो रैखिक रूप से निर्भर हैं। विशेष रूप से, यदि दो चर समान हैं, तो सहसंयोजन विचरण के बराबर है (जो आमतौर पर एक सकारात्मक संख्या है)। सहसंयोजक के साथ एक मुद्दा यह है कि यह शून्य हो सकता है भले ही दो चर स्वतंत्र न हों, बशर्ते कि निर्भरता अशुभ हो।

पारस्परिक जानकारी (एमआई) एक गैर-नकारात्मक संख्या है। यह शून्य है अगर और केवल अगर दो चर सांख्यिकीय रूप से स्वतंत्र हैं। यह संपत्ति सहसंयोजक की तुलना में अधिक सामान्य है और इसमें गैर निर्भर लोगों सहित किसी भी निर्भरता को शामिल किया गया है।

यदि दो चर समान हैं, तो एमआई चर की एन्ट्रापी (फिर से, आमतौर पर एक सकारात्मक संख्या) के बराबर है। यदि चर अलग-अलग हैं और नियतात्मक रूप से संबंधित नहीं हैं, तो एमआई एंट्रॉपी से छोटा है। इस अर्थ में, दो चर का एमआई 0 और एच (एन्ट्रापी) के बीच जाता है, केवल 0 के साथ यदि स्वतंत्र और एच केवल यदि निर्धारक रूप से निर्भर हैं।

सह-अस्तित्व से एक अंतर यह है कि निर्भरता के "संकेत" को अनदेखा किया जाता है। जैसे , लेकिन ।Cov(X,X)=Cov(X,X)=Var(X)MI(X,X)=MI(X,X)=H(X)


4
क्या आप इस पर विस्तार कर सकते हैं कि यह अवधारणा प्रश्न का उत्तर कैसे प्रदान करती है?
onestop

3

कृपया विज्ञान से निम्नलिखित लेख पर एक नज़र डालें - यह आपकी बात को ठीक से संबोधित करता है:

डेविड एन। रेशे एट अल द्वारा बड़े डेटा सेट में उपन्यास संघों का पता लगाना।

अमूर्त से:

बड़े डेटा सेट में चर के जोड़े के बीच दिलचस्प संबंधों की पहचान करना महत्वपूर्ण है। यहां, हम दो-चर संबंधों के लिए निर्भरता का एक उपाय पेश करते हैं: अधिकतम जानकारी गुणांक (एमआईसी)। MIC, कार्यात्मक और नहीं दोनों प्रकार की संघों की एक विस्तृत श्रृंखला को पकड़ता है, और कार्यात्मक संबंधों के लिए एक ऐसा स्कोर प्रदान करता है जो लगभग प्रतिगमन फ़ंक्शन के सापेक्ष डेटा के निर्धारण (R ^ 2) के गुणांक के बराबर होता है। एमआईसी संबंधों को पहचानने और वर्गीकृत करने के लिए अधिकतम सूचना-आधारित गैर-समरूप अन्वेषण (MINE) आंकड़ों का एक बड़ा वर्ग है। हम वैश्विक स्वास्थ्य, जीन अभिव्यक्ति, प्रमुख-लीग बेसबॉल और मानव आंत माइक्रोबायोटा के डेटा सेटों में एमआईसी और एमईएन लागू करते हैं और ज्ञात और उपन्यास संबंधों की पहचान करते हैं।

आप यहाँ पूरक सामग्री पाते हैं: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

लेखक उपन्यास पद्धति को शामिल करते हुए एक नि: शुल्क उपकरण भी प्रदान करते हैं जिसका उपयोग आर और पायथन के साथ किया जा सकता है: http : //www.exploredata..net/

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.