मैं कैसे परीक्षण करूं कि दो निरंतर चर स्वतंत्र हैं?


48

मान लीजिए कि मेरे पास और के संयुक्त वितरण से एक नमूना है । मैं परिकल्पना है कि किस प्रकार जाँच कर और हैं स्वतंत्र ?एक्स वाई एक्स वाई वाई(Xn,Yn),n=1..NXYXY

और के संयुक्त या सीमांत वितरण कानूनों पर कोई धारणा नहीं बनाई गई है (सभी संयुक्त सामान्यता का कम से कम, क्योंकि उस मामले में स्वतंत्रता सहसंबंध के समान है )।वाई XY0

और बीच संभावित संबंध की प्रकृति पर कोई धारणा नहीं बनाई गई है ; यह गैर-रैखिक हो सकता है, इसलिए चर असंबद्ध ( ) लेकिन अत्यधिक सह-निर्भर ( ) हैं।वाई आर = 0 मैं = एचXYr=0I=H

मैं दो दृष्टिकोण देख सकता हूं:

  1. बिन दोनों चर और फिशर के सटीक परीक्षण या जी-परीक्षण का उपयोग करते हैं

    • प्रो: अच्छी तरह से स्थापित सांख्यिकीय परीक्षणों का उपयोग करें
    • Con: बिनिंग पर निर्भर करता है
  2. और की निर्भरता का अनुमान करें : (यह स्वतंत्र और लिए और जब वे पूरी तरह से एक दूसरे को निर्धारित करते हैं)।Y I ( X ; Y )XYI(X;Y)H(X,Y)एक्सवाई10XY1

    • प्रो: एक स्पष्ट सैद्धांतिक अर्थ के साथ एक संख्या पैदा करता है
    • Con: अनुमानित एन्ट्रापी अभिकलन पर निर्भर करता है (यानी, फिर से द्विअर्थी)

क्या ये दृष्टिकोण समझ में आते हैं?

लोग किन अन्य तरीकों का उपयोग करते हैं?



@ रेकअपमैन: धन्यवाद, मैं अब सहसंबंधों के मापन द्वारा माप और परीक्षण निर्भरता पढ़ रहा हूं !
एसडीएस

1
निर्भरता निरंतर चर के बारे में बात करने से कोई मतलब नहीं है। निरंतर चर में अनंत एन्ट्रापी होती हैं। यहाँ, आप अंतर एन्ट्रापी के लिए को स्थानापन्न नहीं कर सकते हैं , क्योंकि अंतर एन्ट्रापी आपसी जानकारी के लिए तुलनीय नहीं है। जबकि आपसी जानकारी का एक "पूर्ण" अर्थ है, अंतर एंट्रोपी सकारात्मक हो सकती है, शून्य, या यहां तक ​​कि नकारात्मक, इकाइयों के आधार पर आप चर और को मापने के लिए उपयोग करते हैं । H X YI(X;Y)/H(X;Y)HXY
फोनिनी

@fonini: निश्चित रूप से, मैं बिनड चर के बारे में बात कर रहा था। हालांकि आपकी टिप्पणी के लिए धन्यवाद।
एसडीएस

जवाबों:


27

यह सामान्य रूप से एक बहुत ही कठिन समस्या है, हालांकि आपके चर स्पष्ट रूप से केवल 1d हैं ताकि मदद मिल सके। बेशक, पहला कदम (जब संभव हो) डेटा को प्लॉट करने और यह देखने के लिए होना चाहिए कि क्या कुछ भी आप पर बाहर निकलता है; आप 2d में हैं इसलिए यह आसान होना चाहिए।

यहाँ कुछ दृष्टिकोण दिए गए हैं जो या उससे भी अधिक सामान्य सेटिंग्स में काम करते हैं:Rn


क्या आप संक्षेप में उल्लेख कर सकते हैं कि ये दृष्टिकोण दूरस्थ सहसंबंध की तुलना कैसे करते हैं ? मैं डीसी का उपयोग बड़े डेटासेट (मेरे लिए बड़े,) के माध्यम से करने के लिए कर रहा हूं, इसलिए मुझे आपकी किसी भी टिप्पणी में दिलचस्पी है। धन्यवाद!
14

1
@pteetor यह दिलचस्प है, मैं इससे पहले दूरी के संबंध में नहीं चला था। कम्प्यूटेशनल रूप से, यह बड़े नमूना आकारों के लिए एन्ट्रापी अनुमान दृष्टिकोण की तुलना में अधिक महंगा लगता है क्योंकि आपको पूर्ण दूरी के मेट्रिसेस की आवश्यकता होती है (जहां एन्ट्रापी अनुमानकों के लिए आप केवल पहले kपड़ोसियों को प्राप्त करने के लिए सूचकांकों का उपयोग कर सकते हैं )। यह पता नहीं है कि यह सांख्यिकीय शक्ति / आदि के संदर्भ में कैसे तुलना करता है
डगल

4
बाद के पाठकों के लिए: 2013 का पेपर सेजडेनोविक अल द्वारा परिकल्पना परीक्षण में दूरी-आधारित और आरकेएचएस-आधारित आँकड़ों के बराबर। दिखाता है कि दूरी सहसंबंध और अन्य ऊर्जा दूरी MMD के विशेष उदाहरण हैं, HSIC के पीछे अंतर्निहित उपाय, और परीक्षण शक्ति और इतने पर संबंध के बारे में चर्चा करता है।
डगल

18

हॉफडिंग ने का परीक्षण करने के लिए संयुक्त रैंकों का उपयोग करते हुए दो निरंतर चर की स्वतंत्रता के लिए एक सामान्य गैर-समरूप परीक्षण विकसित किया । यह 1948 परीक्षण आर पैकेज के कार्य में लागू किया गया है।H0:H(x,y)=F(x)G(y)Hmischoeffd


6

इस कागज के बारे में कैसे:

http://arxiv.org/pdf/0803.4101.pdf

"दूरी के सहसंबंध द्वारा माप और निर्भरता का परीक्षण"। Székely और Bakirov में हमेशा दिलचस्प चीजें होती हैं।

कार्यान्वयन के लिए matlab कोड है:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

यदि आपको स्वतंत्रता के लिए कोई अन्य (लागू करने के लिए सरल) परीक्षा मिल जाए तो हमें बताएं।


2
साइट में आपका स्वागत है, @JLp। हम सवाल और जवाब के रूप में उच्च गुणवत्ता वाले सांख्यिकीय जानकारी का एक स्थायी भंडार बनाने की उम्मीद करते हैं। जैसे, एक चीज जिसकी हमें चिंता है, वह है लिंकरोट। उस के साथ, क्या आप इस बात का सारांश देंगे कि उस पेपर में क्या है / यह कैसे प्रश्नों का उत्तर देता है, यदि लिंक मृत हो जाते हैं। यह इस धागे के भविष्य के पाठकों को यह तय करने में भी मदद करेगा कि क्या वे पेपर पढ़ने के लिए समय का निवेश करना चाहते हैं।
गंग -

@gung: इस रूप में ही है ऊर्जा
एसडीएस

5

डिस्टेंस कोवरियन और कर्नेल टेस्ट (हिल्बर्ट-श्मिट स्वतंत्रता की कसौटी पर आधारित) का लिंक पेपर में दिया गया है:

सेजदिनोविक, डी।, श्रीपेरुम्बुदूर, बी।, ग्रेट्टन, ए।, और फुकुमिज़ू, के।, दूरी-आधारित और आरकेएचएस-आधारित आँकड़ों की परिकल्पना परीक्षण में, एनाल्स ऑफ़ स्टैटिस्टिक्स, 41 (5), पीपी.2263-2702, 2013

यह दिखाया गया है कि दूरी सहसंयोजक कर्नेल के एक विशेष परिवार के लिए कर्नेल स्टैटिस्टिक का एक विशेष मामला है।

यदि आप आपसी जानकारी का उपयोग करने के इरादे से हैं, तो एमआई के एक अनुमान के आधार पर एक परीक्षण है:

ग्रेट्टन, ए। और गियोर्फी, एल।, आजादी के लगातार गैरपरंपरागत परीक्षण, जर्नल ऑफ मशीन लर्निंग रिसर्च, 11, पीपी.1391--1423, 2010।

यदि आप सर्वश्रेष्ठ परीक्षण शक्ति प्राप्त करने में रुचि रखते हैं, तो आप बिनिंग और पारस्परिक जानकारी के बजाय कर्नेल परीक्षणों का उपयोग करना बेहतर समझते हैं।

कहा कि, आपके चर को देखते हुए एकरूपता नहीं है, होफ़डिंग की तरह शास्त्रीय गैरपरंपरागत स्वतंत्रता परीक्षण शायद ठीक हैं।


4

शायद ही कभी (कभी भी?) आँकड़ों में आप अपने नमूना आंकड़े = एक बिंदु मान प्रदर्शित कर सकते हैं। आप बिंदु मानों के खिलाफ परीक्षण कर सकते हैं और या तो उन्हें बाहर कर सकते हैं या उन्हें बाहर नहीं कर सकते। लेकिन आंकड़ों की प्रकृति यह है कि यह चर डेटा की जांच करने के बारे में है। क्योंकि हमेशा विचरण होता है, इसलिए यह जानने का कोई तरीका नहीं होगा कि कोई चीज बिल्कुल संबंधित नहीं है, सामान्य, गॉसियन, आदि। आप केवल इसके लिए मूल्यों की एक सीमा जान सकते हैं। आप जान सकते हैं कि क्या मूल्य को प्रशंसनीय मूल्यों की सीमा से बाहर रखा गया है। उदाहरण के लिए, किसी भी रिश्ते को बाहर करना आसान नहीं है और यह रिश्ता कितना बड़ा है, इसके लिए मूल्यों की श्रेणी दें।

इसलिए, कोई संबंध प्रदर्शित करने की कोशिश करना, अनिवार्य रूप से relationship = 0सफलता के साथ मिलने वाला नहीं है। यदि आपके पास संबंध के उपायों की एक सीमा है जो लगभग 0. के रूप में स्वीकार्य हैं, तो एक परीक्षण तैयार करना संभव होगा।

यह मानते हुए कि आप उस सीमा को स्वीकार कर सकते हैं, जो लोगों को आपकी मदद करने में मददगार होगा ताकि आप एक घटिया वक्र के साथ एक स्कैल्पलॉट प्रदान कर सकें। जब से आप R समाधान के लिए प्रयास कर रहे हैं:

scatter.smooth(x, y)

अब तक आपके द्वारा दी गई सीमित जानकारी के आधार पर, मुझे लगता है कि गैर-स्वतंत्रता के परीक्षण के लिए एक सामान्यीकृत योगात्मक मॉडल सबसे अच्छी बात हो सकती है। यदि आप अनुमान लगाते हैं कि सीआई के पूर्वानुमानित मूल्यों के आसपास आप स्वतंत्रता के विश्वास के बारे में बयान देने में सक्षम हो सकते हैं। की जाँच करें gammgcv पैकेज में। मदद काफी अच्छी है और सीआई के संबंध में यहां सहायता है ।


2

यह दिलचस्प हो सकता है ...

गार्सिया, जेई; गोंजालेज-लोपेज़, वीए (2014) सबसे लंबे समय तक बढ़ती क्रम के आधार पर निरंतर यादृच्छिक चर के लिए स्वतंत्रता परीक्षण। बहुभिन्नरूपी विश्लेषण जर्नल, वी। 127 पी। 126-146।

http://www.sciencedirect.com/science/article/pii/S0047259X14000335


2
इस पोस्ट से लेख में क्या है के बारे में अधिक जानकारी से लाभ होगा, विशेष रूप से यह एक paywall के पीछे है।
एरिक

यह मुफ़्त है। क्रोन -प्रोजेक्ट.org
web/
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.