रैखिक सहसंयोजक की तुलना में दूरी covariance कम उपयुक्त है?


21

मुझे सिर्फ ब्राउनियन / दूरी सहसंयोजक / सहसंबंध में पेश किया गया है (अस्पष्ट) । यह कई गैर-रैखिक स्थितियों में विशेष रूप से उपयोगी लगता है, जब निर्भरता के लिए परीक्षण किया जाता है। लेकिन इसका उपयोग बहुत बार नहीं किया जाता है, भले ही गैर-रैखिक / अराजक डेटा के लिए सहसंयोजक / सहसंबंध अक्सर उपयोग किया जाता है।

इससे मुझे लगता है कि कोवरियन से दूरी बनाने में कुछ कमियां हो सकती हैं। तो वे क्या कर रहे हैं, और क्यों हर कोई हमेशा दूरी सहवास का उपयोग नहीं करता है?


6
n

मैंने पढ़ा कि आप गैर रेखीय समय श्रृंखला की तुलना करने के लिए dcov का उपयोग कर रहे थे और उन्हें वजन के साथ जोड़ रहे थे..मैं सोच रहा था कि आपने क्या किया है जो एक भारित दूरी covariance का उपयोग कर रहा है..उनके वजन को मापने के लिए आपने एक वजन वेक्टर का उपयोग करके अपने डेटा को अलग-अलग वजन दिया। दूरी सहसंबंध? मैं ऐसा करने की कोशिश कर रहा हूं, लेकिन मुझे यकीन नहीं है कि अगर दूरी के सहसंबंध के फार्मूले में एक वेट वेक्टर शुरू किया जाए तो जाने का सही तरीका है।
user3757561

नहीं, क्षमा करें @ user3757561, मैं केवल सहसंबंध के लिए प्रतिस्थापन के रूप में दूरी सहसंबंध की कोशिश कर रहा था, और फिर उस पर आधारित वजन बना रहा था। लेकिन मैं इसे वैसे भी उपयोग नहीं कर पाया ...
n

जवाबों:


18

मैंने नीचे सूचीबद्ध संदर्भों को पढ़ने से अपने इंप्रेशन के आधार पर दूरी कोवरियन पर कुछ टिप्पणी एकत्र करने की कोशिश की है। हालांकि, मैं खुद को इस विषय का विशेषज्ञ नहीं मानता। टिप्पणियाँ, सुधार, सुझाव, आदि का स्वागत है।

टिप्पणी मूल प्रश्न में अनुरोध के अनुसार संभावित कमियों के प्रति (दृढ़ता से) पक्षपाती हैं

जैसा कि मैंने देखा, संभावित कमियां इस प्रकार हैं:

  1. कार्यप्रणाली नई है । मेरा अनुमान है कि इस समय लोकप्रियता की कमी के बारे में यह एकमात्र सबसे बड़ा कारक है। दूरी कोविरेंस को रेखांकित करने वाले कागजात 2000 के दशक के मध्य में शुरू होते हैं और वर्तमान दिन तक प्रगति करते हैं। ऊपर उद्धृत किया गया पेपर वह है जिसे सबसे अधिक ध्यान दिया गया था (प्रचार?) और यह तीन साल से कम है। इसके विपरीत, सिद्धांत और सहसंबंध और सहसंबंध जैसे उपायों का परिणाम उनके पीछे पहले से ही काम की एक सदी से अधिक है।
  2. मूल अवधारणाएं अधिक चुनौतीपूर्ण हैं । पियर्सन के उत्पाद-क्षण सहसंबंध, एक परिचालन स्तर पर, कॉलेज के फ्रेशमैन को बहुत आसानी से कैलकुलस बैकग्राउंड के बिना समझाया जा सकता है। एक सरल "एल्गोरिथम" के दृष्टिकोण को निर्धारित किया जा सकता है और ज्यामितीय अंतर्ज्ञान का वर्णन करना आसान है। इसके विपरीत, दूरी सहसंयोजक के मामले में, यहां तक ​​कि युग्मक यूक्लिडियन उत्पादों के उत्पादों की धारणा काफी अधिक कठिन है और एक स्टोकेस्टिक प्रक्रिया के संबंध में सहसंयोजक की धारणा इस तरह के दर्शकों को यथोचित रूप से समझाया जा सकता है। ।
  3. यह कम्प्यूटेशनल रूप से अधिक मांग है । मानक सांख्यिकीय मेट्रिक्स के लिए O ( n ) के विपरीत नमूने के आकार में परीक्षण आँकड़ा की गणना के लिए मूल एल्गोरिथ्म है । छोटे नमूने के आकार के लिए यह एक बड़ी बात नहीं है, लेकिन बड़े लोगों के लिए यह अधिक महत्वपूर्ण हो जाता है।O(n2)O(n)
  4. परीक्षण आँकड़ा वितरण मुक्त नहीं है, यहाँ तक कि स्पर्शोन्मुख भी नहीं है । कोई उम्मीद कर सकता है कि एक परीक्षण सांख्यिकीय के लिए जो सभी विकल्पों के अनुरूप है, यह है कि वितरण - कम से कम स्पर्शोन्मुख - शून्य परिकल्पना के तहत और वाई के अंतर्निहित वितरण से स्वतंत्र हो सकता है। दूरी covariance के लिए यह मामला नहीं है क्योंकि अशक्त के तहत वितरण एक्स और वाई के अंतर्निहित वितरण पर निर्भर करता है, यहां तक ​​कि नमूना आकार अनन्तता के लिए जाता है। यह है सच है कि वितरण समान रूप से एक से घिरा रहे हैं χ 2 1 वितरण, जो एक की गणना के लिए अनुमति देता है रूढ़िवादी महत्वपूर्ण मान।XYXYχ12
  5. दूरी सहसंबंध एक-से-एक परिवर्तन है सामान्य मामले में|ρ| । यह वास्तव में एक खामी नहीं है, और इसे एक ताकत के रूप में भी देखा जा सकता है। लेकिन, यदि कोई डेटा को एक द्विभाजित सामान्य सन्निकटन स्वीकार करता है, जो व्यवहार में काफी सामान्य हो सकता है, तो मानक प्रक्रियाओं के स्थान पर दूरी सहसंबंध का उपयोग करने से कुछ भी प्राप्त होता है।
  6. अज्ञात शक्ति गुण । सभी विकल्पों के खिलाफ सुसंगत होना अनिवार्य रूप से गारंटी देता है कि दूरी के सहसंयोजक के पास कुछ विकल्पों के खिलाफ बहुत कम शक्ति होनी चाहिए। कई मामलों में, कोई व्यक्ति ब्याज के विशेष विकल्पों के खिलाफ अतिरिक्त शक्ति प्राप्त करने के लिए सामान्यता को छोड़ने के लिए तैयार है। मूल कागजात कुछ उदाहरण दिखाते हैं जिसमें वे मानक सहसंबंध मेट्रिक्स के सापेक्ष उच्च शक्ति का दावा करते हैं, लेकिन मेरा मानना ​​है कि, ऊपर (1.) ऊपर जा रहा है, इसके विकल्प के खिलाफ व्यवहार अभी तक अच्छी तरह से समझा नहीं गया है।

दोहराना करने के लिए, यह उत्तर संभवतः काफी नकारात्मक है। लेकिन, वह मंशा नहीं है। दूरी सहसंयोजक से संबंधित कुछ बहुत ही सुंदर और दिलचस्प विचार हैं और इसके सापेक्ष नवीनता भी इसे और अधिक पूरी तरह से समझने के लिए अनुसंधान के रास्ते खोलती है।

संदर्भ :

  1. जीजे स्ज़ेकली और एमएल रिज़ो (2009), ब्राउनियन दूरी सहसंयोजक , एन। Appl। सांख्यिकीविद। , वॉल्यूम। 3, नहीं। 4, 1236–1265।
  2. जीजे स्ज़ेकली, एमएल रिज़ो और एनके बकरोव (2007), दूरी के सहसंबंध द्वारा स्वतंत्रता की माप और परीक्षण , एन। सांख्यिकीविद। , वॉल्यूम। 35, 2769–2794।
  3. आर। ल्योंस (2012), मीट्रिक रिक्त स्थान में दूरी सहसंयोजक , एन। Probab। (उपस्थित होना)।

बहुत बढ़िया जवाब, धन्यवाद। इसमें से कुछ मेरे सिर पर है, लेकिन मुझे लगता है कि मैं अपने आप को उपाय करने में सक्षम हो जाऊंगा :)
n

1
यह भी देखें सारांश और की चर्चा: "ब्राउनियन दूरी सहप्रसरण" सांख्यिकी जर्नल क्लब, 36-825 बेंजामिन काउली और ग्यूसेप विंची अक्टूबर 27, 2014 stat.cmu.edu/~ryantibs/journalclub/dcov.pdf
फेलिप जी Nievinski

2
जब दोनों यादृच्छिक चर एकतरफा होते हैं तो दूरी सहसंबंध की गणना की जा सकती है हे(nलॉगn)समय, उदाहरण के लिए tandfonline.com/doi/abs/10.1080/00401706.2015.1054435 देखें ।
अरिन चौधरी

3

मुझे अच्छी तरह से कुछ याद आ रहा है, लेकिन सिर्फ दो चर के बीच nonlinear निर्भरता की मात्रा का ठहराव के लिए एक अदायगी का ज्यादा नहीं लगता है। यह आपको रिश्ते का आकार नहीं बताएगा। यह आपको दूसरे से एक चर की भविष्यवाणी करने का कोई साधन नहीं देगा। सादृश्य द्वारा, जब खोजपूर्ण डेटा विश्लेषण करते हैं, तो कभी-कभी यह देखने की दिशा में पहले कदम के रूप में एक लोटस कर्व (स्थानीय रूप से भारित स्कैल्प्लॉट स्मूथ) का उपयोग करता है, यह देखने के लिए कि क्या डेटा को एक सीधी रेखा, एक द्विघात, एक घन आदि के साथ मॉडल किया गया है, लेकिन इसमें लोटस है। अपने आप में बहुत उपयोगी भविष्य कहनेवाला उपकरण नहीं है। यह एक द्विभाजित आकृति का वर्णन करने के लिए एक व्यावहारिक समीकरण खोजने के रास्ते में सिर्फ एक पहला सन्निकटन है। वह समीकरण, लोस (या दूरी सहसंयोजक परिणाम) के विपरीत, एक पुष्टिकरण मॉडल का आधार बना सकता है।


मेरे उद्देश्यों के लिए, इसमें एक भुगतान है। मैं कुछ भी भविष्यवाणी करने के लिए dcov () का उपयोग नहीं कर रहा हूं, बल्कि, एक कलाकारों की टुकड़ी में कई गैर-रैखिक समय-श्रृंखला की तुलना कर रहा है, और उनकी निर्भरता के आधार पर उन्हें वजन के साथ जोड़ रहा है। इस स्थिति में, dcov () के संभावित रूप से बड़े लाभ हैं।
n

@ n-0101 क्या आप कुछ मी अयस्क जानकारी में डाल सकते हैं। - जब आप कहते हैं-'combine '? यह मुझे नॉनलाइनर निर्भरता के आधार पर वेटिंग के मामले में दिलचस्प लगता है। क्या आपका मतलब है- समय श्रृंखला को समूहों में वर्गीकृत करना? इसके अलावा-इस परिदृश्य में उच्च और निम्न भार क्या हैं?
रथी

2
@PraneethVepakomma: मेरे जवाब को देखिए
562

1
इसके अलावा, यदि आप निर्भरता के सामान्य रूप (जैसे, बहुपद समीकरण) को जानते हैं, तो आप निर्धारण के गुणांक का उपयोग करके निर्भरता की ताकत को देख सकते हैं, उदाहरण के लिए, बहुपद
नियमों के
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.