क्या गैर-रेखीय सहसंबंधों का पता लगाने के लिए एमआईसी एल्गोरिदम को सहज रूप से समझाया जा सकता है?


20

अभी हाल ही में, मैंने दो लेख पढ़े। पहला सहसंबंध के इतिहास के बारे में है और दूसरा नई विधि के बारे में है जिसे मैक्सिमल इन्फ़ॉर्मेशन कोएफ़िशिएंसी (एमआईसी) कहा जाता है। चर के बीच गैर-रेखीय सहसंबंधों का अनुमान लगाने के लिए एमआईसी पद्धति को समझने के लिए मुझे आपकी सहायता की आवश्यकता है।

इसके अलावा, आर में इसके उपयोग के निर्देश लेखक की वेबसाइट पर मिल सकते हैं ( डाउनलोड के तहत ):

मुझे उम्मीद है कि इस पद्धति पर चर्चा करने और समझने के लिए यह एक अच्छा मंच होगा। इस पद्धति के पीछे एक अंतर्ज्ञान पर चर्चा करने के लिए मेरी रुचि है और लेखक ने कहा कि इसे कैसे बढ़ाया जा सकता है।

" ... हमें MIC (X, Y) से MIC (X, Y | Z) के एक्सटेंशन की आवश्यकता है। हम यह जानना चाहते हैं कि MIC के स्थिर अनुमान प्राप्त करने के लिए कितने डेटा की आवश्यकता है, यह आउटलेर्स के लिए कितना अतिसंवेदनशील है, क्या तीन - या उच्च-आयामी रिश्ते इसे याद करेंगे, और अधिक। एमआईसी एक महान कदम है, लेकिन कई और कदम उठाने हैं। "


सवाल दिलचस्प है, लेकिन मुझे लगता है कि यह जवाबदेह नहीं है। क्या आप कृपया इसे और अधिक विशिष्ट बना सकते हैं?
mpiktas

3
चर्चा इस तथ्य से बाधित होगी कि विज्ञान में लेख खुली पहुंच नहीं है।
इटाराम

7
यहां लेखकों में से एक द्वारा मुक्त किए गए कागज की एक प्रति है।

10
संक्षेप में, एमआईसी "प्लॉट-ऑल-स्कैटरप्लॉट्स-एंड-पीक-उन-विथ सबसे बड़ा-व्हाइट-एरिया" के पुराने विचार की खुदाई है, इसलिए यह मुख्य रूप से झूठी सकारात्मकता पैदा करता है, जिसमें की अवास्तविक जटिलता है (जो लेखक परीक्षण-केवल-कुछ-बेतरतीब ढंग से चयनित-जोड़े-जोड़ के पीछे छिपाते हैं) और उप-डिज़ाइन तीनों को याद करते हैं- और अधिक-चर बातचीत। O(M2)

4
एमआईसी पर तकनीकी विवरण के लिए, सहायक ऑनलाइन सामग्री लेख की तुलना में अधिक जानकारीपूर्ण है।
रेस

जवाबों:


22

क्या यह नहीं बताया जा रहा है कि यह एक गैर-सांख्यिकीय पत्रिका में प्रकाशित किया गया था जिसकी सांख्यिकीय सहकर्मी समीक्षा हम अनिश्चित हैं? 1948 में हॉफडिंग द्वारा इस समस्या को हल किया गया था (एनल्स ऑफ मैथमेटिकल स्टैटिस्टिक्स 19: 546), जिन्होंने बिना किसी झुकाव और न ही कई चरणों की आवश्यकता के एक सीधा एल्गोरिदम विकसित किया। विज्ञान लेख में हॉफिंग के काम को भी संदर्भित नहीं किया गया था। यह कई वर्षों hoeffdसे Hmiscपैकेज में आर फ़ंक्शन में है । यहाँ एक उदाहरण है ( example(hoeffd)R में टाइप करें ):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdहोफिंग की विधि के एक काफी कुशल फोरट्रान कार्यान्वयन का उपयोग करता है। उनके परीक्षण का मूल विचार एक्स और वाई के संयुक्त रैंकों और एक्स के सीमांत रैंक के उत्पाद और वाई के सीमांत रैंक के बीच अंतर पर विचार करना है, उपयुक्त रूप से बढ़ाया गया।

अपडेट करें

D

HmiscD|F(x,y)G(x)H(y)|D


6
(+1) हॉफिंग का पेपर ऑनलाइन उपलब्ध है।
रेस

1
अच्छा लगा। होफडिंग के प्रदर्शन की उनकी तुलना करने वाले विज्ञान के लिए एक संक्षिप्त नोट के लायक हो सकता है। यह अफ़सोस की बात है कि 50 से कई अच्छे अध्ययन (कई क्षेत्रों में) वर्षों से भुला दिए गए थे।
इटाराम

6

MI=H(X)+H(Y)H(X,Y)
H(X)=ip(zi)logp(zi)
H(X,Y)=i,jp(xi,yj)logp(xi,yj)

लेखकों का मुख्य विचार कई अलग-अलग दो-आयामी ग्रिडों पर डेटा को अलग करना और सामान्यीकृत स्कोर की गणना करना है जो प्रत्येक ग्रिड पर दो चर की पारस्परिक जानकारी का प्रतिनिधित्व करता है। विभिन्न ग्रिडों के बीच उचित तुलना सुनिश्चित करने के लिए स्कोर को सामान्यीकृत किया जाता है और 0 (असंबद्ध) और 1 (उच्च सहसंबंध) के बीच भिन्न होता है।

R2


3

मैं दो अच्छा अधिक स्पष्ट रूप से विशेष रूप से एमआईसी के विचार समझा लेख नहीं मिले इस एक; यहाँ दूसरा है

जैसा कि मैंने इन रीड्स से समझा है कि आप ग्रिड के विभिन्न संयोजनों की खोज करके दो चर के बीच संबंधों की विभिन्न जटिलताओं और पैमानों को ज़ूम कर सकते हैं; इन ग्रिडों का उपयोग कोशिकाओं में 2 आयामी स्थान को विभाजित करने के लिए किया जाता है। ग्रिड का चयन करके जो इस बात की सबसे अधिक जानकारी रखता है कि कोशिकाएं उस स्थान को कैसे विभाजित करती हैं जिसे आप एमआईसी चुन रहे हैं।

मैं @mbq से पूछना चाहता हूं कि क्या वह "प्लॉट-ऑल-स्कैटरप्लॉट्स-एंड-पीक-उन-सबसे बड़ी-व्हाइट-एरिया" और ओ (एम 2) की अवास्तविक जटिलता का विस्तार कर सकता है।


4
मैं किसी भी सांख्यिकीय पद्धति के बारे में चिंता करता हूं जो बिनिंग का उपयोग करता है।
फ्रैंक हरेल

@FrankHarrell क्या आप संदर्भ या कुछ अंतर्ज्ञान प्रदान कर सकते हैं, जो बिंगिंग खराब क्यों है? सहज रूप से, मैं देख सकता हूँ कि आप अनिवार्य रूप से जानकारी को दूर करने के कारण फेंक रहे हैं, लेकिन इसके और भी कारण हो सकते हैं?
किरण के।

कहां से शुरू करें, यह जानने के लिए बहुत सारे संदर्भ हैं। बिनिंग पर आधारित कोई सांख्यिकीय पद्धति अंततः जीवित नहीं रहती है। मध्यस्थता कई समस्याओं में से एक है।
फ्रैंक हरेल

@FrankHarrell टिप्पणी की सराहना करें। कारण मैंने संदर्भों के लिए पूछा कि क्या मैं एक पीएचडी छात्र हूं, और अभी निर्भरता और बहुभिन्नरूपी अवधारणाओं का अध्ययन कर रहा हूं, और भविष्य में इन पत्रों को पढ़ना और उन्हें अपने कामों में उद्धृत करना पसंद करूंगा। यदि आप एक या दो प्रमुख लोगों का उल्लेख कर सकते हैं, तो मुझे यकीन है कि मैं उन शेष लोगों को ढूंढ सकता हूं जिनका आप उल्लेख कर रहे हैं। मैं कुछ खुदाई और पोस्ट संदर्भ यहाँ भी करूँगा अगर मुझे अच्छे मिलेंगे।
किरण के।

Citeulike.org/user/harrelfe/article/13265458 से शुरू करें और फिर biostat.mc.vanderbilt.edu/CatContinuous पर dichotomization के बारे में अन्य जानकारी देखें । एक सामान्य निर्भरता के उपाय के लिए किसी भी बिनिंग की आवश्यकता नहीं है, citeulike.org/user/harrelfe/article/13264312
फ्रैंक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.