परस्पर संबंध मात्रात्मक समय


12

निम्नलिखित ग्राफ पर विचार करें:

ट्विटर और ट्रेडिंग वॉल्यूम

लाल रेखा (बाएं अक्ष) एक निश्चित स्टॉक की व्यापारिक मात्रा का वर्णन करता है। नीली रेखा (दायां अक्ष) उस स्टॉक के लिए ट्विटर संदेश की मात्रा का वर्णन करता है। उदाहरण के लिए, 9 मई (05-09) को लगभग 1.100 मिलियन ट्रेड और 4.000 ट्वीट किए गए थे।

मैं यह गणना करना चाहूंगा कि क्या दोनों के बीच या तो एक ही दिन में या उदाहरण के लिए, अंतराल के बीच सहसंबंध होता है - उदाहरण के लिए: एक दिन बाद ट्रेडिंग वॉल्यूम के साथ ट्वीट वॉल्यूम सहसंबंधित होता है। मैं ऐसे कई लेखों को पढ़ रहा हूं जिन्होंने इस तरह के विश्लेषण किए हैं, उदाहरण के लिए माइक्रो-ब्लॉगिंग गतिविधि के साथ सहसंबंधी वित्तीय समय श्रृंखला , लेकिन वे यह नहीं बताते हैं कि इस तरह का विश्लेषण व्यावहारिक रूप से कैसे किया जाता है। निम्नलिखित लेख में कहा गया है:

यहाँ छवि विवरण दर्ज करें

हालांकि, मेरे पास सांख्यिकीय विश्लेषण के साथ बहुत कम अनुभव है और मुझे नहीं पता कि इस श्रृंखला पर इसे कैसे निष्पादित किया जाए। मैं SPSS (PASW के रूप में भी जाना जाता है) का उपयोग करता हूं और मेरा सवाल यह है: उस बिंदु से इस तरह का विश्लेषण करने के लिए क्या कदम उठाने हैं जहां मेरे पास उपरोक्त छवि अंतर्निहित डेटाफाइल है? क्या ऐसा परीक्षण एक डिफ़ॉल्ट विशेषता है (और इसे क्या कहा जाता है) और / या मैं इसे कैसे निष्पादित कर सकता हूं?

किसी भी तरह की सहायता का स्वागत किया जाएगा :-)


1
आप उनकी गणना कर सकते हैं ... आप बस उन्हें महत्वपूर्ण मूल्यों से तुलना नहीं कर सकते हैं जब तक कि दो श्रृंखलाएं द्वि-सामान्य रूप से सामान्य न हों
आयरिशस्टैट

मैंने यहां कच्चा डेटा चिपकाया है: pastebin.com/tZajRae9 क्या यह बताने का कोई तरीका है कि श्रृंखला द्वि-संस्करण सामान्य है या नहीं? मैं वास्तव में आपकी टिप्पणी की सराहना करूंगा।
प्रॉनो

प्रत्येक श्रृंखला में आउटलेर्स / लेवल शिफ्ट का पता लगाने के बाद परिणामी समायोजित श्रृंखला ने AR (1) मॉडल प्रदर्शित किया। न केवल बाह्य / स्तर शिफ्ट समायोजन और आनुभविक रूप से पहचाने गए एआर (1) को शामिल करने के बाद दोनों शोर श्रृंखला ऑटो-सहसंबंध (संरचना के भीतर) से मुक्त थीं। इस दो सरोगेट श्रृंखला के एक क्रॉस-सहसंबंध ने कोई मूल क्रॉस-सहसंबंध (संरचना के बीच) का संकेत नहीं दिया, इस प्रकार ट्वीट्स की संख्या वॉल्यूम की भविष्यवाणी में मदद करने के लिए प्रकट नहीं होती है।
आयरिशस्टैट

जवाबों:


6

बाइवेरेट सामान्यता के लिए दो जाँच तीन चीज़ों की जाँच करें:

  1. जाँच करें कि क्या टिप्पणियों की पहली श्रृंखला मामूली सामान्य है,
  2. जाँच करें कि क्या टिप्पणियों की दूसरी श्रृंखला मामूली सामान्य है,
  3. एक दूसरे पर वापस जाएँ और जाँच करें कि अवशिष्ट सामान्य हैं या नहीं।

इनमें से प्रत्येक चरण में सामान्यता की जांच करने के लिए, सामान्य qq भूखंडों का उपयोग करें या आप किसी भी सामान्य परिकल्पना परीक्षण का उपयोग कर सकते हैं।

या वैकल्पिक रूप से आप देख सकते हैं कि दो श्रृंखलाओं के हर संभव रैखिक संयोजन (वास्तविक गुणांक) मामूली सामान्य हैं। यह शायद मुश्किल होगा, हालांकि।

संपादित करें: (6 साल बाद) मैं उपरोक्त को पोस्टीरिटी के लिए रखूंगा, लेकिन ध्यान दें कि मेरे पास इसी तरह के प्रश्न का एक और उत्तर है


मैंने चरण 1 और 2 को लिया है और निम्नलिखित बॉक्सप्लॉट्स के साथ आया है: i.imgur.com/SDOTE.png 3 से 5 बाहरी टिप्पणियों के अलावा, वे मामूली सामान्य दिखते हैं। हालाँकि, सिग। Shapiro-Wilk टेस्ट के लिए मूल्य 0.000 है, जो सामान्यता से महत्वपूर्ण विचलन का संकेत देगा। आउटलेर्स हटाए जाने के साथ, शापिरो विलक सिग। ट्वीट के लिए 0.201 है और ट्रेडों के लिए 0.004 है। क्या यह इंगित करता है कि कोई सहसंबंध संभव नहीं है? इसके अलावा, यह एक समय है - शोधकर्ता को हटाने का मतलब है कि शोध किए गए समय सीमा के भीतर दिनों को हटाना। क्या यह एक स्वीकृत अभ्यास है?
प्रॉनो

मैंने चरण 3 के लिए एक पीपी प्लॉट भी बनाया। या कम से कम, मेरी व्याख्या में मुझे यही चाहिए (सामान्य संभाव्यता प्लॉट के साथ एक रैखिक प्रतिगमन): i.imgur.com/EZ3Ic.png कोई टिप्पणी?
प्रॉनो

सीमांत वितरण सामान्य नहीं लगते हैं। विकिपीडिया पृष्ठ लिंक पर अनुमान पर एक छोटा सा खंड है । आउटलेर्स को हटाना आमतौर पर एक अच्छा विचार नहीं है। शायद एक विश्वास अंतराल बूटस्ट्रैप।
टेलर

1
प्रश्न सहसंबंध के बारे में है - लेकिन उत्तर सामान्यता के बारे में है। उत्तर को कई बार उखाड़ कर स्वीकार किया जाता है। मैं यहाँ क्या याद कर रहा हूँ? ..
रिचर्ड हार्डी

एक द्विभाजित सामान्य वितरण सबसे सरल मॉडल है जो पियर्सन सहसंबंध का उपयोग करने के लिए प्रेरित / न्यायोचित है।
टेलर

11

समय श्रृंखला के बीच सहसंबंध गुणांक बेकार है। सुधार समन्वय देखें - परीक्षण महत्व के लिए महत्वपूर्ण मूल्य । यह पहली बार यू। यूल द्वारा 1926 में यूल, GU, 1926 में कहा गया था , "हमें कभी-कभी समय श्रृंखला के बीच बकवास संबंध क्यों मिलते हैं? नमूने में एक अध्ययन और समय श्रृंखला की प्रकृति", रॉयल स्टैटिस्टिकल जर्नल 89, 1 -64 । आप अधिक के लिए "क्यों हम बकवास सहसंबंध प्राप्त करते हैं" Google चाहते हैं।

इसका कारण सहसंबंध के लिए परीक्षण है जो संयुक्त सामान्यता की आवश्यकता है। संयुक्त सामान्यता के लिए प्रत्येक श्रृंखला को सामान्य होना आवश्यक है। सामान्यता के लिए स्वतंत्रता चाहिए। टाइम सीरीज़ के बीच संबंध की जाँच करने के लिए कृपया टाइम सीरीज़ एनालिसिस: यूनीवेरिएट और मल्टीवेरिएट मेथड्स जैसे विलियम डब्ल्यूएस वी, डेविड पी। रेली द्वारा ट्रांसफर फंक्शन आइडेंटिफिकेशन की समीक्षा करें ।

चुनौती का जवाब

अपनी चुनौती के जवाब के संदर्भ में। यह अच्छी तरह से ज्ञात है, कुछ ( यूल, जीयू, 1926 ) द्वारा कहा जाता है कि दो समय श्रृंखला को परस्पर संबंधित करना विशेष रूप से त्रुटिपूर्ण हो सकता है यदि या तो श्रृंखला दालों / स्तर की शिफ्ट / मौसमी दालों और / या स्थानीय समय के रुझान से प्रभावित होती है। यही कारण है कि मैं श्रृंखला की प्रत्येक श्रृंखला को ले जाऊंगा और ARIMA संरचना और किसी भी दालों / स्तर की शिफ्टों / मौसमी दालों और / या स्थानीय समय के रुझानों की पहचान करूँगा जो लागू हो सकते हैं और एक त्रुटि प्रक्रिया बना सकते हैं।

दो स्वच्छ त्रुटि प्रक्रियाओं के साथ, दो मूल श्रृंखलाओं में से प्रत्येक के लिए, मैं क्रॉस सहसंबंध की गणना करूंगा, जिसका उपयोग प्रत्येक श्रृंखला के भीतर ऑटो-सहसंबंधीय संरचना से ऊपर और उससे अधिक संघ की डिग्री को मापने के लिए किया जा सकता है। इस समाधान को उचित रूप से डबल प्री-व्हाइटनिंग दृष्टिकोण कहा जाता है।

देख:


आपके जवाब के लिए धन्यवाद। लेकिन क्या आप यह कह रहे हैं कि परिभाषा के अनुसार, जिस कागज को मैंने संदर्भित किया है, उसका कोई मूल्य नहीं है? दूसरे, क्या इसका मतलब यह है कि परिभाषा के अनुसार दो श्रृंखलाओं को कभी नहीं जोड़ा जा सकता है जहां c सहसंबंध का अर्थ है?
प्रूनो

3
सहसंबंध की गणना की जा सकती है क्योंकि यह साधारण अंकगणित है। क्या गणना नहीं की जा सकती (आसानी से) संभावना है कि सहसंबंध सांख्यिकीय रूप से महत्वपूर्ण है। पहली बार जब आप सहसंबंध गुणांक से परिचित हुए थे, तब वापस सोचें। यह एन स्वतंत्र नमूनों के संदर्भ में था, जहां एन स्वतंत्र नमूनों में से प्रत्येक के लिए दो विशेषताओं / मूल्यों की गणना की गई थी और संयुक्त घनत्व सामान्य रूप से द्विभाजित था।
23 अगस्त को आयरिशस्टैट

1
इसे संयुक्त सामान्यता की आवश्यकता क्यों है, और न केवल समान (सममित?) वितरण। यानी संयुक्त एकरूपता भी काम नहीं करेगी?
naught101

1
@ NAUGHT101 सहसंबंध गुणांक के लिए महत्वपूर्ण मान संयुक्त-सामान्यता और अपरिभाषित अन्य बुद्धिमान की धारणा के तहत उपलब्ध हैं।
आयरिशस्टैट

@IrishStat आपके संपादित उत्तर के लिए धन्यवाद। यह सराहनीय है। सामान्य परीक्षण के लिए, कृपया i.imgur.com/SDOTE.png अलग-अलग चरों के qq भूखंडों के लिए देखें । आउटलेर्स हटाए जाने के बाद, एक पीपी प्लॉट, जिसमें से मैं समझता हूं कि संयुक्त-आदर्शता को मापता है, इस तरह दिखता है i.imgur.com/EZ3Ic.png कोई टिप्पणी?
प्रॉनो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.