महालनोबिस दूरी के शीर्ष विवरण के नीचे महालनोबिस दूरी का मेरा विवरण ? दो प्रमुख परिणाम शामिल हैं:
परिभाषा के अनुसार, यह तब नहीं बदलता है जब रजिस्टरों को समान रूप से स्थानांतरित किया जाता है।
वैक्टर के बीच महालनोबिस दूरी चुकता और द्वारा दिया जाता है जहां डेटा की सहप्रसरण है।एक्सyडी2( एक्स , वाई) = ( एक्स - वाई)'Σ- 1( x - y)
Σ
(1) हमें यह मानने की अनुमति देता है कि रजिस्टरों के साधन सभी शून्य हैं। यह गणना करने के लिए बना हुआ है । हालांकि, दावे के सच होने के लिए, हमें एक और धारणा जोड़ने की जरूरत है:जमैं
मॉडल में एक अवरोधन शामिल होना चाहिए।
इस के लिए अनुमति दे, चलो वहाँ regressors और डेटा, regressor का मूल्य लेखन अवलोकन के लिए के रूप में । इनमें से स्तंभ वेक्टर चलो n regressor के लिए मान जे लिखा जा एक्स , जे और इनमें से पंक्ति वेक्टर कश्मीर मूल्यों अवलोकन के लिए मैं लिखा जा एक्स मैं । फिर मॉडल मैट्रिक्स हैके ≥ ०nजेमैंएक्समैं जेnजेएक्स, जेकमैंxi
X=⎛⎝⎜⎜⎜⎜11⋮1x11x21⋮xn1⋯⋯⋮⋯x1kx2k⋮xnk⎞⎠⎟⎟⎟⎟
और, परिभाषा के अनुसार, टोपी मैट्रिक्स है
H=X(X′X)−1X′,
जिस कारण से प्रवेश विकर्ण साथ हैi
hi=hii=(1;xi)(X′X)−1(1;xi)′.(1)
इसके लिए कुछ भी नहीं है, लेकिन उस केंद्रीय मैट्रिक्स के विपरीत काम करने के लिए - लेकिन पहली कुंजी परिणाम के आधार पर, यह आसान है, खासकर जब हम इसे ब्लॉक-मैट्रिक्स रूप में लिखते हैं:
X′X=n(100′C)
जहां और0=(0,0,…,0)′
Cjk=1n∑i=1nxijxik=n−1nCov(xj,xk)=n−1nΣjk.
(मैंने रजिस्टरों के नमूना सहसंयोजक मैट्रिक्स के लिए लिखा है ।) क्योंकि यह ब्लॉक विकर्ण है, इसका उलटा केवल ब्लॉकों को निष्क्रिय करके पाया जा सकता है:Σ
(X′X)−1=1n(100′C−1)=(1n00′1n−1Σ−1).
परिभाषा हम प्राप्त करते हैं(1)
hi=(1;xi)(1n00′1n−1Σ−1)(1;xi)′=1n+1n−1xiΣ−1x′i=1n+1n−1D2(xi,0).
महालनोबिस लंबाई पैदावार के लिएD2i=D2(xi,0)
D2i=(n−1)(hi−1n),
QED ।
पीछे मुड़कर देखें, तो हम अवरोधक शब्द को एक अवरोधन की उपस्थिति का पता लगा सकते हैं , जिसने मॉडल मैट्रिक्स में लोगों के कॉलम को पेश किया है । महालनोबिस दूरी मानने के बाद गुणा शब्द दिखाई दिया, जो नमूना सहसंयोजक अनुमान का उपयोग करके गणना किया जाएगा (जो द्वारा वर्गों और उत्पादों के योगों को विभाजित करता है ) बजाय डेटा के सहसंयोजक मैट्रिक्स (जो वर्गों के योग को विभाजित करता है और) द्वारा उत्पादों )।1/nXn−1एन - 1 एनn−1n
इस विश्लेषण का मुख्य मूल्य उत्तोलन के लिए एक ज्यामितीय व्याख्या प्रदान करना है, जो मापता है कि अवलोकन में प्रतिक्रिया में एक इकाई कितनी बदल जाती है, उस अवलोकन में फिट किए गए मूल्य को बदल दूंगा: उच्च-उत्तोलन का अवलोकन सेंट्रोइड से बड़ी महालनोबिस दूरी पर है रजिस्ट्रारों के रूप में, बिल्कुल एक यांत्रिक रूप से कुशल लीवर अपने फुलक्रम से बड़ी दूरी पर संचालित होता है।i
यह दिखाने के लिए कि वास्तव में संबंध रखने के लिए आर कोड:
x <- mtcars
# Compute Mahalanobis distances
h <- hat(x, intercept = TRUE); names(h) <- rownames(mtcars)
M <- mahalanobis(x, colMeans(x), cov(x))
# Compute D^2 of the question
n <- nrow(x); D2 <- (n-1)*(h - 1/n)
# Compare.
all.equal(M, D2) # TRUE
print(signif(cbind(M, D2), 3))