महालनोबिस दूरी और उत्तोलन के बीच संबंध साबित करें?


12

मैंने विकिपीडिया पर सूत्र देखे हैं वह महालनोबिस दूरी और उत्तोलन से संबंधित है:

महालनोबिस दूरी लीवरेज स्टैटिस्टिक, h से निकटता से संबंधित है , लेकिन इसका एक अलग पैमाना है:

D2=(N1)(h1N).

एक लिंक किए गए लेख में , विकिपीडिया इन शब्दों में h का वर्णन करता है :

रेखीय प्रतीपगमन मॉडल में, के लिए लाभ उठाने के स्कोर ith डेटा इकाई के रूप में परिभाषित किया गया है: टोपी मैट्रिक्स की विकर्ण तत्व , जहां मैट्रिक्स ट्रांज़ोज़ को दर्शाता है।

hii=(H)ii,
ithH=X(XX)1X

मुझे कहीं भी प्रमाण नहीं मिला। मैंने परिभाषाओं से शुरू करने की कोशिश की लेकिन मैं कोई प्रगति नहीं कर सकता। कोई कुछ संकेत दे सकता है?

जवाबों:


11

महालनोबिस दूरी के शीर्ष विवरण के नीचे महालनोबिस दूरी का मेरा विवरण ? दो प्रमुख परिणाम शामिल हैं:

  1. परिभाषा के अनुसार, यह तब नहीं बदलता है जब रजिस्टरों को समान रूप से स्थानांतरित किया जाता है।

  2. वैक्टर के बीच महालनोबिस दूरी चुकता और द्वारा दिया जाता है जहां डेटा की सहप्रसरण है।xy

    D2(x,y)=(xy)Σ1(xy)
    Σ

(1) हमें यह मानने की अनुमति देता है कि रजिस्टरों के साधन सभी शून्य हैं। यह गणना करने के लिए बना हुआ है । हालांकि, दावे के सच होने के लिए, हमें एक और धारणा जोड़ने की जरूरत है:hi

मॉडल में एक अवरोधन शामिल होना चाहिए।

इस के लिए अनुमति दे, चलो वहाँ regressors और डेटा, regressor का मूल्य लेखन अवलोकन के लिए के रूप में । इनमें से स्तंभ वेक्टर चलो n regressor के लिए मान जे लिखा जा एक्स , जे और इनमें से पंक्ति वेक्टर कश्मीर मूल्यों अवलोकन के लिए मैं लिखा जा एक्स मैं । फिर मॉडल मैट्रिक्स हैk0njixijnjx,jkixi

X=(1x11x1k1x21x2k1xn1xnk)

और, परिभाषा के अनुसार, टोपी मैट्रिक्स है

H=X(XX)1X,

जिस कारण से प्रवेश विकर्ण साथ हैi

(1)hi=hii=(1;xi)(XX)1(1;xi).

इसके लिए कुछ भी नहीं है, लेकिन उस केंद्रीय मैट्रिक्स के विपरीत काम करने के लिए - लेकिन पहली कुंजी परिणाम के आधार पर, यह आसान है, खासकर जब हम इसे ब्लॉक-मैट्रिक्स रूप में लिखते हैं:

XX=n(100C)

जहां और0=(0,0,,0)

Cjk=1ni=1nxijxik=n1nCov(xj,xk)=n1nΣjk.

(मैंने रजिस्टरों के नमूना सहसंयोजक मैट्रिक्स के लिए लिखा है ।) क्योंकि यह ब्लॉक विकर्ण है, इसका उलटा केवल ब्लॉकों को निष्क्रिय करके पाया जा सकता है:Σ

(XX)1=1n(100C1)=(1n001n1Σ1).

परिभाषा हम प्राप्त करते हैं(1)

hi=(1;xi)(1n001n1Σ1)(1;xi)=1n+1n1xiΣ1xi=1n+1n1D2(xi,0).

महालनोबिस लंबाई पैदावार के लिएDi2=D2(xi,0)

Di2=(n1)(hi1n),

QED

पीछे मुड़कर देखें, तो हम अवरोधक शब्द को एक अवरोधन की उपस्थिति का पता लगा सकते हैं , जिसने मॉडल मैट्रिक्स में लोगों के कॉलम को पेश किया है । महालनोबिस दूरी मानने के बाद गुणा शब्द दिखाई दिया, जो नमूना सहसंयोजक अनुमान का उपयोग करके गणना किया जाएगा (जो द्वारा वर्गों और उत्पादों के योगों को विभाजित करता है ) बजाय डेटा के सहसंयोजक मैट्रिक्स (जो वर्गों के योग को विभाजित करता है और) द्वारा उत्पादों )।1/nXn1एन - 1 एनn1n


इस विश्लेषण का मुख्य मूल्य उत्तोलन के लिए एक ज्यामितीय व्याख्या प्रदान करना है, जो मापता है कि अवलोकन में प्रतिक्रिया में एक इकाई कितनी बदल जाती है, उस अवलोकन में फिट किए गए मूल्य को बदल दूंगा: उच्च-उत्तोलन का अवलोकन सेंट्रोइड से बड़ी महालनोबिस दूरी पर है रजिस्ट्रारों के रूप में, बिल्कुल एक यांत्रिक रूप से कुशल लीवर अपने फुलक्रम से बड़ी दूरी पर संचालित होता है।i


यह दिखाने के लिए कि वास्तव में संबंध रखने के लिए आर कोड:

x <- mtcars

# Compute Mahalanobis distances
h <- hat(x, intercept = TRUE); names(h) <- rownames(mtcars)
M <- mahalanobis(x, colMeans(x), cov(x))

# Compute D^2 of the question
n <- nrow(x); D2 <- (n-1)*(h - 1/n)

# Compare.
all.equal(M, D2)               # TRUE
print(signif(cbind(M, D2), 3))

उत्कृष्ट उत्तर, बहुत अच्छी तरह से कठोरता और अंतर्ज्ञान के साथ गोल। चीयर्स!
22 दिसंबर को 22:19 पर cgrudz

पोस्ट के लिए धन्यवाद @whuber! पवित्रता की जाँच के लिए, यहाँ R कोड है जो यह दर्शाता है कि संबंध वास्तव में है: x <- mtcars rownames (x) <- NULL colnames (x) <- NULL n <- nrow (x) h <- hat (x, T) mahalanobis (x, colMeans (x), cov (x)) (n-1) * (h - 1 / n) all.equal (mahalanobis (x, colMeans (x), cov (x)), (n-1) ) * (एच - 1 / एन))
ताल गैली

1
@ मुझे नहीं लगा कि मुझे एक विवेक जांच की आवश्यकता है - लेकिन कोड के लिए धन्यवाद। :-) मैंने इसे स्पष्ट करने के लिए संशोधन किया है और इसका उत्पादन थोड़ा बढ़ा है।
whuber

1
@whuber, मुझे एक उदाहरण चाहिए था जो दिखाता है कि समानता के कार्यों को कैसे किया जाए (मुझे स्पष्ट करना कि मुझे सही धारणा मिली)। मैंने प्रासंगिक विकी प्रविष्टि को भी बढ़ा दिया है: en.wikipedia.org/wiki/… (जैसा कि आप फिट देखें, वहां पर भी खर्च करने के लिए स्वतंत्र महसूस करें :))
Tal Galili
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.