असमान आकार के दो चर के बीच सहसंबंध


9

एक समस्या जिस पर मैं काम कर रहा हूं, मेरे पास दो यादृच्छिक चर हैं, एक्स और वाई। मुझे यह पता लगाने की आवश्यकता है कि उनमें से दो कैसे परस्पर संबंधित हैं, लेकिन वे विभिन्न आयामों के हैं। X के पंक्ति स्थान की रैंक 4350 है, और Y के पंक्ति स्थान की रैंक हजारों की संख्या में काफी बड़ी है। X और Y दोनों में समान कॉलम हैं।

मुझे दो चर के बीच सहसंबंध के उपाय की आवश्यकता है, और पियर्सन के आर को एक्स और वाई के बराबर आयाम की आवश्यकता है (कम से कम आर को दो आरवी होने की आवश्यकता है)।

क्या मुझे इन दोनों के बीच सहसंबंध बनाने की कोई उम्मीद है, या मुझे वाई से टिप्पणियों को दूर करने का कोई रास्ता निकालना चाहिए?

 EDIT

टिप्पणियों से जानकारी जोड़ना, जो प्रश्न में होना चाहिए।

मुझे लगता है कि मैं यह उल्लेख करना भूल गया। एक्स और वाई स्टॉक की कीमतें हैं। कंपनी X, Y की तुलना में बहुत कम समय के लिए सार्वजनिक रही है। मैं यह बताना चाहता था कि X और Y के मूल्य कितने सहसंबद्ध हैं। मैं निश्चित रूप से समय की अवधि के लिए सहसंबंध प्राप्त कर सकता था कि एक्स और वाई दोनों मौजूद हैं। मैं जानना चाहता था कि क्या Y के कई अतिरिक्त वर्षों के लिए स्टॉक की कीमतों को जानने से एक्स का अस्तित्व नहीं था, मुझे कोई अतिरिक्त जानकारी नहीं मिली।


2
यह नहीं लगता है जैसे आपके पास अवलोकन (या "मामले") हैं, जिस पर आप एक एक्स और वाई अहसास दोनों का पालन करते हैं। आप कैसे पता लगा सकते हैं कि कौन सा X किस Y से जुड़ा है।
Stephan Kolassa

1
मुझे लगता है कि मैं यह उल्लेख करना भूल गया। एक्स और वाई स्टॉक की कीमतें हैं। कंपनी X, Y की तुलना में बहुत कम समय के लिए सार्वजनिक रही है। मैं यह बताना चाहता था कि X और Y के मूल्य कितने सहसंबद्ध हैं। मैं निश्चित रूप से उस अवधि के लिए सहसंबंध प्राप्त कर सकता हूं जो एक्स और वाई दोनों मौजूद हैं। मैं जानना चाहता था कि क्या Y के कई अतिरिक्त वर्षों के लिए स्टॉक की कीमतों को जानने से एक्स का अस्तित्व नहीं था, मुझे कोई अतिरिक्त जानकारी नहीं मिली।
क्रिस्टोफर अदन

2
@Christopher मैं आपको सलाह दूंगा कि आप अपने उपरोक्त टिप्पणी को प्रतिबिंबित करने के लिए अपने प्रश्न को अपडेट करें। इसके अलावा, सहसंबंध के सार्थक होने के लिए, केवल समान आयामों से अधिक की आवश्यकता होती है; वास्तविक मापों को उन्हीं मामलों से आना पड़ता है, जो आपके मामले में संभवतः समान समय बिंदु हैं।
जेरोमे एंग्लीम

2
मैंने सवाल को अपडेट करने पर
जेरेमी

एक और सवाल: आप उल्लेख करते हैं कि X और Y में समान कॉलम हैं। क्या यह एक-एक होगा? या क्या आपके पास एक्स और वाई दोनों के लिए कई श्रृंखलाएं हैं (विभिन्न स्टॉक एक्सचेंजों में कीमतें या कुछ ऐसे)?
स्टीफन कोलासे

जवाबों:


10

इंपोर्टेशन, टाइम सीरीज़ एनालिसिस, गार्च मॉडल्स, इंटरपोलेशन, एक्सट्रपलेशन, या अन्य फैंसी एल्गोरिदम की कोई भी राशि जानकारी बनाने के लिए कुछ भी नहीं करेगी जहाँ यह मौजूद नहीं है (हालाँकि वे उस भ्रम को बना सकते हैं; ;-) एक्स के सार्वजनिक होने से पहले वाई की कीमत का इतिहास उनके बाद के सहसंबंध का आकलन करने के लिए बेकार है।

कभी-कभी (अक्सर आईपीओ के लिए तैयारी करने वाले) विश्लेषकों ने आंतरिक लेखा जानकारी (या निजी स्टॉक लेनदेन के रिकॉर्ड) का उपयोग सार्वजनिक रूप से जाने से पहले एक्स के स्टॉक के लिए काल्पनिक कीमतों को फिर से संगठित करने के लिए किया है। वैचारिक रूप से ऐसी जानकारी का उपयोग सहसंबंध के अनुमानों को बढ़ाने के लिए किया जा सकता है, लेकिन इस तरह के बैककास्ट की अत्यंत अस्थायी प्रकृति को देखते हुए, मुझे संदेह है कि शुरुआत के अलावा किसी भी मदद का प्रयास तब होगा जब एक्स के लिए केवल कुछ दिन या सप्ताह की कीमतें हों।


स्पष्टता: मैंने लापता डेटा समस्या से निपटने के लिए GARCH का उल्लेख नहीं किया (जो निश्चित रूप से कोई मतलब नहीं होगा) - लेकिन समय श्रृंखला के बीच सहसंबंध की एक सरल गणना में सुधार करने के लिए जहां दोनों मौजूद हैं।
Stephan Kolassa

@ स्टेफ़न: ठीक है। मैंने इसे मुख्य रूप से यह दिखाने के लिए उल्लेख किया कि मैं आपको अनदेखा नहीं कर रहा था!
whuber

1
शुक्रिया, व्हीबर यह उस चीज के अनुरूप है जिसकी मुझे तलाश थी। मुझे नहीं लगता है कि जब एक्स और वाई के बीच आपसी समय सीमा पहले से ही लगभग 16 साल है, तो एक्स के एक जोड़े को अतिरिक्त सप्ताह जोड़ने के लिए बैककास्टिंग का अधिक उपयोग (या व्यवहार्यता) होगा।
क्रिस्टोफर एडेन

2
@Christopher: !! 16 साल (दैनिक बंद होने के साथ) आपके पास न केवल एक सहसंबंध खोजने के लिए पर्याप्त डेटा है, बल्कि यह भी पता लगाने के लिए कि यह समय के साथ कैसे बदल रहा है। (यह मेरा मानना है कि @Stephan Kolassa के उत्तर की भावना है।)
whuber

मैं सहमत हूँ। यह जानने के लिए तकनीकों का उपयोग करना कि एक्स ने अपने आईपीओ से पहले किन मूल्यों को लिया है, त्रुटि का खतरा है। मैं आधुनिक रुझानों की भविष्यवाणी करने के लिए डेटा की प्रासंगिकता पर भी सवाल उठा सकता हूं जो 16 साल पुराना है।
क्रिस्टोफर एडन

10

तो समस्या गायब डेटा में से एक है (सभी वाई में एक संबंधित एक्स नहीं है, जहां पत्राचार समय बिंदुओं के माध्यम से संचालित होता है)। मुझे नहीं लगता कि वाई को दूर फेंकने के लिए यहां आपके पास करने के लिए बहुत कुछ है जो आपके पास एक्स नहीं है और पूर्ण जोड़े पर सहसंबंध की गणना करें।

आप वित्तीय समय श्रृंखला पर पढ़ना चाह सकते हैं, हालांकि मेरे पास इस बिंदु (विचारों, किसी भी?) पर एक अच्छा संदर्भ नहीं है। स्टॉक की कीमतें अक्सर समय-बदलती अस्थिरता दर्शाती हैं , जिसे GARCH द्वारा प्रतिरूपित किया जा सकता है । यह अनुमान योग्य है कि आपकी दो समय श्रृंखला एक्स और वाई कम अस्थिरता की अवधि के दौरान सकारात्मक सहसंबंधों का प्रदर्शन करती है (जब अर्थव्यवस्था बढ़ती है, सभी शेयर की कीमतों में वृद्धि होती है), लेकिन नकारात्मक सहसंबंध जब समग्र अस्थिरता अधिक होती है (9/11 पर, एयरलाइंस को टैंकर करते हुए पैसा सुरक्षित निवेश के लिए भाग गए)। तो बस एक समग्र सहसंबंध की गणना आपके अवलोकन समय सीमा पर बहुत अधिक निर्भर हो सकती है।

अद्यतन करें: मुझे लगता है कि आप VAR (वेक्टर ऑटोर्रिजिव) मॉडल को देखना चाहते हैं।


मूल वित्तीय समय श्रृंखला संदर्भों के लिए, आप यहां मेरा उत्तर देख सकते हैं: आंकड़े . stackexchange.com/questions/328/… । त्से पाठ सबसे लोकप्रिय में से एक है।
शेन

2

@Jeromy Anglim ने इसे सही ढंग से निर्दिष्ट किया है। अतिरिक्त जानकारी होने पर, केवल एक ही समय श्रृंखला के अस्तित्व में होने से यहां कोई मूल्य नहीं मिलेगा। और सिद्धांत रूप में, डेटा को पारंपरिक सहसंबंध उपायों का उपयोग करते हुए सार्थक होने के लिए एक ही समय में नमूना होना चाहिए।

एक अधिक सामान्य समस्या के रूप में, मैं जोड़ूंगा कि अनियमित रूप से समयबद्ध श्रृंखला डेटा से निपटने की तकनीकें हैं। आप "अनियमित रूप से समयबद्ध श्रृंखला सहसंबंध" के लिए खोज कर सकते हैं। उच्च आवृत्ति डेटा का उपयोग करके हाल ही में किए गए कुछ कार्य " Realized Volatility and Correlation" (एंडरसन, बोलर्सलेव, डाइबोल्ड और लैबिस 1999) पर किए गए हैं।


1

आपकी टिप्पणियों में अतिरिक्त जानकारी को देखते हुए मैं दो सहसंबंधों को देखने की सलाह दूंगा। पहली बार आम समय अवधि होगी जब कंपनियां दोनों के आसपास थीं। इसलिए, यदि कोई 2 साल पहले था, तो आप उस डेटा को छोड़ देंगे और बाकी को देखेंगे। दूसरा सापेक्ष समय अवधि होगा। दूसरे में आप वास्तविक समय से संबंध नहीं रख रहे हैं लेकिन कंपनी द्वारा सार्वजनिक किए जाने के बाद से मापा गया समय।

पूर्व समान समय अवधि के भीतर साझा किए गए सामान्य आर्थिक बलों से दृढ़ता से प्रभावित होगा। बाद में कंपनियों द्वारा साझा की गई संपत्तियों से प्रभावित होगा क्योंकि वे आईपीओ के बाद बदलते हैं।


0

इस तरह की समस्या को हल करने का एक अन्य तरीका समय श्रृंखला मॉडल का उपयोग करके छोटी श्रृंखला के लिए लापता डेटा को लागू करना है जो किसी विशेष संदर्भ में समझ में नहीं आता है या नहीं हो सकता है।

आपके संदर्भ में, स्टॉक की कीमतों को अतीत में लगाने का मतलब होगा कि आप निम्नलिखित काउंटर-तथ्यात्मक सवाल पूछ रहे हैं: कंपनी एक्स के लिए स्टॉक की कीमत क्या होगी, यह पिछले साल के बजाय सार्वजनिक रूप से N साल में चला गया था जब यह वास्तव में सार्वजनिक हुआ था? संबंधित कंपनियों, सामान्य बाजार के रुझानों आदि के शेयर की कीमतों को ध्यान में रखते हुए इस तरह के डेटा का उपयोग संभावित रूप से किया जा सकता है लेकिन, इस तरह के विश्लेषण से समझ में नहीं आ सकता है या आपको अपने प्रोजेक्ट के लक्ष्यों की आवश्यकता नहीं हो सकती है।


0

वैसे बहुत कुछ आपके द्वारा की गई मान्यताओं पर निर्भर करता है। यदि आप यह मानते हैं कि डेटा स्थिर है, तो श्रृंखला एक के लिए अधिक डेटा आपको इसकी अस्थिरता का सटीक अनुमान देगा। इस अनुमान का उपयोग सहसंबंध अनुमान में सुधार के लिए किया जा सकता है। इसलिए फॉलोविंग की प्रतिमा गलत है:

"एक्स के सार्वजनिक होने से पहले वाई की कीमत का इतिहास उनके बाद के सहसंबंध का आकलन करने के लिए बेकार है"


मैंने इस बारे में सोचा। सिद्धांत रूप में काम हो सकता है, लेकिन बहुत ही निर्लज्ज होगा, ताकि बचने के लिए बेहतर हो।
kjetil b halvorsen

-1

यह एक मशीन लर्निंग एल्गोरिदम के लिए एक समस्या की तरह लगता है। इसलिए, मैं उन विशेषताओं के एक समूह का पता लगाने की कोशिश करूंगा, जो उस प्रवृत्ति और ट्रेन के एक निश्चित पहलू का वर्णन करते हैं। संपूर्ण मशीन लर्निंग सिद्धांत इस उत्तर-बॉक्स के लिए थोड़ा जटिल है, लेकिन आपके लिए इसमें पढ़ना उपयोगी होगा।

लेकिन ईमानदारी से, मुझे लगता है कि पहले से ही वहां मौजूद है। जहां पैसा बनाया जा सकता है, लोग उसमें अपना दिमाग लगाते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.