क्या त्रिकोण संबंधी असमानता इन सह-संबंध आधारित दूरियों के लिए पूरी होती है?


13

पदानुक्रमिक क्लस्टरिंग के लिए मैं अक्सर दो रैंडम चर और : \ newcommand {\ Cor} {\ _ mathrm {Cor}} \ start "align " के बीच की दूरी को मापने के लिए निम्नलिखित दो "मैट्रिक्स" (वे बिल्कुल नहीं बोल रहा हूं) देखता हूं। d_1 (X, Y) & = 1- | \ Cor (X, Y) |, \\ d_2 (X, Y) & = 1 - (\ Cor (X, Y)) ^ 2 \ end {संरेखित} करता है या तो त्रिकोण की असमानता को पूरा करने के लिए? यदि हां, तो मुझे इसे केवल एक ब्रूटफोर्स गणना करने के अलावा अन्य कैसे साबित करना चाहिए? यदि वे मैट्रिक्स नहीं हैं, तो एक सरल काउंटर उदाहरण क्या है?XY

d1(X,Y)=1|Cor(X,Y)|,d2(X,Y)=1(Cor(X,Y))2

आपको इस पत्र की समीक्षा करने में रुचि हो सकती है: arxiv.org/pdf/1208.3145.pdf
क्रिस

जवाबों:


5

त्रिकोण असमानता अपने पर d1 प्राप्त होते हैं:

d1(X,Z)d1(X,Y)+d1(Y,Z)1|Cor(X,Z)|1|Cor(X,Y)|+1|Cor(Y,Z)||Cor(X,Y)|+|Cor(Y,Z)|1+|Cor(X,Z)|

यह हार के लिए काफी आसान असमानता प्रतीत होती है। हम X और Z स्वतंत्र बनाकर दाएं हाथ को यथासंभव छोटा (बिल्कुल एक) कर सकते हैं । फिर क्या हम एक वाई प्राप्त कर सकते हैं Yजिसके लिए बाएं हाथ की तरफ एक से अधिक है?

यदि और और का समान रूपांतर है, तो और इसी तरह , के लिए बाएं हाथ की तरफ एक से ऊपर है और असमानता का उल्लंघन किया गया है। आर में इस उल्लंघन का उदाहरण, जहां और एक बहुभिन्नरूपी सामान्य के घटक हैं:एक्स जेड सी आर ( एक्स , वाई ) = Y=X+ZXZसीआर(वाई,जेड)एक्सजेडCor(X,Y)=220.707Cor(Y,Z)XZ

library(MASS)
set.seed(123)
d1 <- function(a,b) {1 - abs(cor(a,b))}

Sigma    <- matrix(c(1,0,0,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 1
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # nearly zero
Y <- X + Z

d1(X,Y) 
# 0.2928932
d1(Y,Z)
# 0.2928932
d1(X,Z)
# 1
d1(X,Z) <= d1(X,Y) + d1(Y,Z)
# FALSE

हालांकि ध्यान दें कि यह निर्माण आपके साथ काम नहीं करता है :d2

d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y) 
# 0.5
d2(Y,Z)
# 0.5
d2(X,Z)
# 1
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# TRUE

पर एक सैद्धांतिक हमले शुरू करने के बजाय , इस स्तर पर मुझे आर में सहसंयोजक मैट्रिक्स के साथ खेलना आसान लगा, जब तक कि एक अच्छा प्रतिसाद नहीं हुआ। Allowing , और देता है:V a r ( X ) = 2 V a r ( Z ) = 1 C o v ( X , Z ) = 1d2SigmaVar(X)=2Var(Z)=1Cov(X,Z)=1

Var(Y)=Var(X+Y)=Var(X)+Var(Z)+2Cov(X,Z)=2+1+2=5

हम भी covariances की जांच कर सकते हैं:

C o v ( Y , Z) ) = सी वी ( एक्स + जेड , जेड

Cov(X,Y)=Cov(X,X+Z)=Cov(X,X)+Cov(X,Z)=2+1=3
Cov(Y,Z)=Cov(X+Z,Z)=Cov(X,Z)+Cov(Z,Z)=1+1=2

चुकता सहसंबंध तब होते हैं: सीआर(एक्स,वाई)2=सीवी(एक्स,वाई)2

Cor(X,Z)2=Cov(X,Z)2Var(X)Var(Z)=122×1=0.5
सीआर(वाई,जेड)2=सीवी(वाई,जेड)2
Cor(X,Y)2=Cov(X,Y)2Var(X)Var(Y)=322×5=0.9
Cor(Y,Z)2=Cov(Y,Z)2Var(Y)Var(Z)=225×1=0.8

फिर जबकि और ताकि त्रिकोण असमानता का पर्याप्त अंतर से उल्लंघन हो।d 2 ( X)d2(X,Z)=0.5d 2 ( Y , Z ) = 0.2d2(X,Y)=0.1d2(Y,Z)=0.2

Sigma    <- matrix(c(2,1,1,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 2
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # 0.707
Y  <- X + Z
d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y) 
# 0.1
d2(Y,Z)
# 0.2
d2(X,Z)
# 0.5
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# FALSE

5

हमारे तीन वैक्टर हैं (यह चर या व्यक्ति हो सकते हैं) , , और । और हमने उनमें से प्रत्येक को z- स्कोर (मतलब = 0, विचरण = 1) के लिए मानकीकृत किया।वाई जेडXYZ

फिर कोसाइन प्रमेय के अनुसार (" कोसाइन का नियम") दो मानकीकृत वैक्टर (कहो, X और Y) के बीच यूक्लिडियन दूरी , जहां , कोसाइन समानता, है पियर्सन वैक्टर की z के मानकीकरण की वजह से। हम अपने विचार से निरंतर गुणक को सुरक्षित रूप से छोड़ सकते हैं ।dXY2=2(n1)(1cosXY)cosXYrXY2(n1)

तो, यह आता है कि प्रश्न में व्यक्त की गई दूरीयदि सूत्र सहसंबंध गुणांक के संकेत की अनदेखी नहीं कर रहे थे, तो स्क्वायड यूक्लिडियन दूरी होगी।d1(X,Y)=1|Cor(X,Y)|

यदि मैट्रिक्सs होता है ग्रामियन (पॉजिटिव सेमीफाइनल) तो "d1" दूरी का वर्गमूल यूक्लिडियन दूरी है, जो कि निश्चित रूप से मीट्रिक है। के बड़े मेट्रिक्स नहीं के साथयह अक्सर एक मामला है या एक मामले के पास है जब दूरियां यूक्लिडियन अंतरिक्ष में अच्छी तरह से परिवर्तित होने से दूर नहीं हैं। चूंकि मीट्रिक यूक्लिडियन की तुलना में एक व्यापक वर्ग है, इसलिए दी गई मैट्रिक्स "sqrt (d1)" का मैट्रिक्स बहुत बार दिखाई देने की उम्मीद कर सकता है।|r||r|

सी के लिए "डी 1" के रूप में, जो कि "जैसे" स्क्वेरेड यूक्लिडियन दूरी है, यह निश्चित रूप से गैर-मीट्रिक है। यहां तक ​​कि सच चुकता यूक्लिडियन दूरी मीट्रिक नहीं है: यह कभी-कभी त्रिकोण असमानता सिद्धांत का उल्लंघन करता है। [क्लस्टर विश्लेषण में, चुकता यूक्लिडियन दूरी का उपयोग अक्सर किया जाता है; हालाँकि, इस तरह के मामलों का अधिकांश हिस्सा वास्तव में निरर्थक दूरी पर विश्लेषण का निर्माण कर रहा है, वर्गों को गणनाओं के लिए एक सुविधाजनक स्थान है।] इसे देखने के लिए (स्क्वेरड यूक्लिडियन बारे में ), चलो हमारे तीन वैक्टर तैयार करते हैं।d

यहाँ छवि विवरण दर्ज करें

वैक्टर यूनिट-लेंथ (क्योंकि मानकीकृत) हैं। कोणों के कोस ( , , ) क्रमशः , , हैं। ये कोण वैक्टर के बीच इसी यूक्लिडियन दूरी को : , , । सादगी के लिए, तीन वैक्टर सभी एक ही विमान में हैं (और इसलिए और बीच का कोण दो अन्य, का योग है )। यह वह स्थिति है जिसमें दूर वर्ग द्वारा त्रिकोण असमानता का उल्लंघन सबसे प्रमुख है।αβα+βrXYrXZrYZdXYdXZdYZXZα+β

के लिए, जैसा कि आप आंखों से देख सकते हैं, हरे रंग का वर्ग क्षेत्र दो लाल वर्गों का योग : ।dYZ2>dXY2+dXZ2

इसलिए संबंध है

d1(X,Y)=1|Cor(X,Y)|

दूरी हम कह सकते हैं कि यह मीट्रिक नहीं है। क्योंकि यहां तक ​​कि जब सभी मूल रूप से सकारात्मक थे दूरी यूक्लिडियन जो स्वयं मीट्रिक नहीं है।rd2

दूसरी दूरी के बारे में क्या है?

d2(X,Y)=1(Cor(X,Y))2

चूंकि मानकीकृत वैक्टर के मामले में सहसंबंध , है । (वास्तव में, है एक रेखीय प्रतिगमन की, एक मात्रा जो कुछ के साथ आश्रित चर के वर्ग संबंध है ओर्थोगोनल भविष्यवक्ता है।) उस मामले में वैक्टर की जीवाओं आकर्षित है, और बनाने के लिए उन्हें चुकता (क्योंकि हम उस दूरी के बारे में बात कर रहे हैं जो ):rcos1r2sin21r2SSerror/SStotalsin2

यहाँ छवि विवरण दर्ज करें

हालाँकि यह स्पष्ट रूप से स्पष्ट नहीं है, हरे रंग का वर्ग फिर से लाल क्षेत्रों के योग से बड़ा है ।sinYZ2sinXY2+sinXZ2

यह साबित किया जा सकता है। एक विमान पर, । जब से हम में रुचि रखते हैं, दोनों पक्षों को स्क्वायर करें ।sin(α+β)=sinαcosβ+cosαsinβsin2

sin2(α+β)=sin2α(1sin2β)+(1sin2α)sin2β+2sinαcosβcosαsinβ=sin2α+sin2β2[sin2αsin2β]+2[sinαcosαsinβcosβ]

अंतिम अभिव्यक्ति में, दो महत्वपूर्ण शब्दों को श्रेणीबद्ध दिखाया गया है। यदि दो में से दूसरा (या हो सकता है) पहले वाले से बड़ा है तो , और "d2" दूरी का उल्लंघन करता है त्रिकोणीय असमानता। और यह हमारी तस्वीर पर ऐसा है जहाँ लगभग 40 डिग्री और लगभग 30 डिग्री (शब्द 1 है और शब्द 2 है )। "D2" मीट्रिक नहीं है।अल्फा बीटाsin2(α+β)>sin2α+sin2βαβ.1033.2132

"D2" दूरी का वर्गमूल - साइन डिसिमिलैरिटी माप - मेट्रिक हालांकि (मेरा मानना ​​है)। आप सुनिश्चित करने के लिए मेरे सर्कल पर विभिन्न और कोण के साथ खेल सकते हैं । चाहे "डी 2" एक गैर-कोलिनियर सेटिंग में मीट्रिक दिखाया जाएगा (यानी एक विमान पर तीन वैक्टर नहीं) - मैं इस समय नहीं कह सकता, हालांकि मैं इसे अस्थायी रूप से मान लूंगा।βαβ


3

यह भी देखिए कि मैंने क्या लिखा है: http://arxiv.org/abs/1208.3145 । मुझे अभी भी समय निकालने और इसे ठीक से जमा करने की आवश्यकता है। सार:

हम मीट्रिक दूरी के संरक्षण के सरल उपकरण का उपयोग करते हुए, मीट्रिक दूरी में कोसाइन समानता और पियर्सन और स्पीयरमैन सहसंबंधों के परिवर्तनों के दो वर्गों की जांच करते हैं। पहला वर्ग अधिकतम सहसंबद्ध वस्तुओं को दूर से अलग रखता है। पहले ज्ञात परिवर्तन इस वर्ग के भीतर आते हैं। दूसरा वर्ग सहसंबद्ध और परस्पर विरोधी वस्तुओं से टकराता है। ऐसे परिवर्तन का एक उदाहरण जो केंद्रित डेटा के लिए लागू होने पर एक मीट्रिक दूरी पैदावार करता है।

आपके प्रश्न का मुख्य कारण यह है कि d1 , d2 वास्तव में मीट्रिक नहीं हैं और d2 का वर्गमूल वास्तव में एक उचित मीट्रिक है।


2

नहीं।

सबसे सरल काउंटर-उदाहरण:

के लिए दूरी बिल्कुल परिभाषित नहीं है, जो भी आपके है।वाईX=(0,0)Y

किसी भी निरंतर श्रृंखला में मानक विचलन , और इस प्रकार की परिभाषा में एक विभाजन शून्य हो जाता है ...सी आरσ=0Cor

अधिकांश में यह डेटा स्पेस के सबसेट पर एक मीट्रिक है, जिसमें कोई निरंतर श्रृंखला शामिल नहीं है।


अच्छी बात! मुझे इसका उल्लेख अन्यत्र बताए गए प्री-प्रिंट में करना चाहिए।
माइकंस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.