वित्तीय समयसीमाओं में तेजी का पता लगाने


16

मैं कुछ मजबूत तकनीकों की तलाश कर रहा हूं जो वित्तीय समय-श्रृंखला डेटा (यानी टिकडाटा) से आउटलेर और त्रुटियों (जो भी कारण हो) को हटाने के लिए।

टिक-दर-टिक वित्तीय समय-श्रृंखला डेटा बहुत गड़बड़ है। इसमें एक्सचेंज बंद होने पर बहुत बड़ा (समय) अंतराल होता है, और जब एक्सचेंज फिर से खुलता है तो बहुत बड़ी छलांग लगाता है। जब एक्सचेंज खुला होता है, तो सभी प्रकार के कारक मूल्य स्तर पर ट्रेडों को पेश करते हैं जो गलत हैं (वे उत्पन्न नहीं हुए) और / या बाजार के प्रतिनिधि नहीं हैं (गलत तरीके से दर्ज बोली के कारण एक स्पाइक या उदाहरण के लिए मूल्य पूछें)।Tickdata.com (पीडीएफ) द्वारा यह पेपर समस्या को रेखांकित करने का अच्छा काम करता है, लेकिन कुछ ठोस समाधान प्रदान करता है।

अधिकांश पेपर मैं ऑनलाइन पा सकते हैं जो इस समस्या का उल्लेख करते हैं या तो इसे अनदेखा करते हैं (टिकडेटा को फ़िल्टर्ड मान लिया जाता है) या फ़िल्टरिंग को कुछ विशाल ट्रेडिंग मॉडल के हिस्से के रूप में शामिल करते हैं जो किसी भी उपयोगी फ़िल्टरिंग चरण को छुपाता है।

क्या किसी को इस क्षेत्र में अधिक गहराई से काम करने की जानकारी है?

अद्यतन: यह सवाल सतह पर समान लगता है लेकिन:

  • वित्तीय समय श्रृंखला (कम से कम टिक स्तर पर) गैर-आवधिक है।
  • प्रारंभिक प्रभाव एक बड़ा मुद्दा है क्योंकि आप अंतिम दिन के डेटा को प्रारंभिककरण के रूप में उपयोग नहीं कर सकते हैं, भले ही आप वास्तव में करना चाहते हैं (क्योंकि अन्यथा आपके पास कुछ भी नहीं है)। बाहरी घटनाएँ नए दिन के उद्घाटन को निरपेक्ष स्तर पर नाटकीय रूप से भिन्न करने के लिए और पिछले दिन से अस्थिरता का कारण हो सकती हैं।
  • आने वाले डेटा की बेतहाशा अनियमित आवृत्ति। दिन के खुले और बंद होने के पास दिन के दौरान डेटापॉइंट्स / सेकंड की मात्रा औसत से 10 गुना अधिक हो सकती है। अन्य प्रश्न नियमित रूप से सैंपल किए गए डेटा से संबंधित है।
  • वित्तीय आंकड़ों में "आउटलेयर" कुछ विशिष्ट पैटर्न प्रदर्शित करता है, जिन्हें विशिष्ट तकनीकों के साथ अन्य डोमेन में लागू नहीं किया जा सकता है और मैं उन विशिष्ट तकनीकों की तलाश में हूँ।
  • अधिक चरम मामलों में (जैसे फ्लैश क्रैश) आउटलेयर में 75% से अधिक डेटा अंतराल अंतराल (> 10 मिनट) से अधिक हो सकता है। इसके अलावा, आने वाले डेटा की उच्च (उच्च) आवृत्ति में स्थिति के बाहरी पहलू के बारे में कुछ जानकारी होती है।

1
मुझे नहीं लगता कि डेटा की प्रकृति के कारण यह एक डुप्लिकेट है। इस समस्या के बारे में अन्य प्रश्न पर नियमित रूप से देखा गया समय श्रृंखला कभी-कभी आउटलेर के साथ चर्चा की जाती है (कम से कम यह है कि मैंने इसकी व्याख्या कैसे की)। टिक-बाय-टिक डेटा की प्रकृति एक्सचेंज के प्रभाव के कारण अलग-अलग समाधानों को जन्म देगी।
रोब हंडमैन

जेनेरिक टाइम सीरीज़ की ऑनलाइन बाहरी पहचान के लिए सिंपल एल्गोरिथ्म का संभव डुप्लिकेट। इस प्रश्न को डुप्लिकेट के रूप में बंद करने का प्रस्ताव है। क्या आप कृपया हमें यह बता सकते हैं कि मेटा थ्रेड आपके और मेरे संदर्भ से जुड़े प्रश्न से अलग है या नहीं?

@ रब लेकिन एक्सचेंज खोलने का प्रभाव केवल तब निर्धारित करता है जब आपको एल्गोरिथ्म को चलाना होता है। मौलिक मुद्दा वही रहता है। यहां तक ​​कि नेटवर्क डेटा में भी आपके पास 'ऑफिस ओपनिंग इफेक्ट' होता है, जहां ऑफिस खुलते ही ट्रैफिक चोटियों पर आ जाता है। बहुत कम से कम, ओपी को उस प्रश्न से लिंक करना चाहिए, वहां उत्तरों को स्कैन करना चाहिए और समझाना चाहिए कि वहां समाधान काम क्यों नहीं करते हैं ताकि इस प्रश्न के लिए एक उपयुक्त उत्तर पोस्ट किया जा सके।

1
मैं @Rob से सहमत हूं। इस तरह के डेटा से अनूठे चालान खोले जा सकते हैं, इसलिए यह कोई डुप्लिकेट नहीं है।
शेन

1
मुझे लगता है कि यह यहाँ है। सवाल अनियमित रूप से दूरी, बहुत शोर समय श्रृंखला का विश्लेषण करने के बारे में है। क्या आप Dacorogna, Olsen और दूसरों के एक समूह द्वारा "हाई-फ़्रीक्वेंसी फ़ाइनेंस के लिए एक परिचय" पर एक नज़र डाल चुके हैं? या एक ही लेखक द्वारा कागजात?
पीटर आरआर

जवाबों:


14

समस्या निश्चित रूप से कठिन है

यांत्रिक नियम जैसे +/- एन 1 गुना मानक विचलन, या + / एन 2 बार एमएडी, या +/- एन 3 आईक्यूआर या ... असफल हो जाएंगे क्योंकि हमेशा कुछ श्रृंखलाएं होती हैं जो उदाहरण के लिए अलग होती हैं:

  • इंटरबैंक रेट जैसी फिक्सिंग कुछ समय के लिए स्थिर हो सकती है और फिर अचानक से कूद सकती है
  • इसी तरह के लिए एक खूंटी से आने वाले कुछ विदेशी एक्सचेंज
  • कुछ उपकरण स्पष्ट रूप से फैलते हैं; ये पीरियड्स के लिए जीरो के पास हो सकते हैं और अचानक से कई गुना बढ़ जाते हैं

वहाँ गया है, कि पिछले काम में ... किया। आप मध्यस्थता संबंध जहाजों ( उदाहरण के लिए) का उपयोग करके प्रत्येक श्रृंखला को ब्रैकेट करने की कोशिश कर सकते हैं यूएसडी / यूरो और यूरो / जेपीवाई को संभालने के लिए अच्छा माना जाता है, आप यूएसडी / जेपीवाई के आसपास के बैंडों को काम कर सकते हैं; इसी तरह एक अंतर्निहित आदि पीपीपी से डेरिवेटिव के लिए)।

वाणिज्यिक डेटा विक्रेता इस पर कुछ प्रयास का विस्तार करते हैं, और उन उपयोगों के जो उनके ग्राहक हैं, जानते हैं ... यह अभी भी त्रुटियों को बाहर नहीं करता है।


+1 हाँ, कुछ भी सही नहीं है। Tickdata.com (जिनके पेपर का उल्लेख है) में आउटलेयर भी शामिल हैं और वे बहुत अच्छे डेटा (जब किसी अन्य स्रोत के साथ तुलना की जाती हैं) को भी अलग करते हैं। ऑलसेन का डेटा भयानक होने के करीब है, और मैं आमतौर पर सिर्फ संकेत देता हूं। एक कारण यह है कि बैंक इस पर काम करने के लिए बड़ी परिचालन टीमों का भुगतान करते हैं।
शेन

मुझे ज्ञात मध्यस्थ संबंधों का उपयोग करने के बारे में आपका विचार पसंद है। क्या आपने अपनी पिछली नौकरी में यह कोशिश की है?
जिल्स डी विट

नहीं, हमने कभी भी पूरी तरह से औपचारिकता नहीं निभाई। लेकिन मुझे लगता है कि हमने कुछ सरल (यानी ईटीएफ बनाम अंतर्निहित सूचकांक आदि) का इस्तेमाल किया। हालांकि कुछ साल हो गए हैं।
डिर्क एडल्डबुलेटेल

8

जब मैं कंप्यूटर पर वापस आऊंगा तो कुछ पेपर संदर्भ जोड़ूंगा, लेकिन यहां कुछ सरल सुझाव दिए गए हैं:

निश्चित रूप से रिटर्न के साथ काम करके शुरू करें। यह अनियमित अंतर से निपटने के लिए महत्वपूर्ण है जहां आप स्वाभाविक रूप से बड़ी कीमत अंतराल प्राप्त कर सकते हैं (विशेषकर सप्ताहांत के आसपास)। फिर आप आदर्श के बाहर रिटर्न को हटाने के लिए एक साधारण फ़िल्टर लागू कर सकते हैं (जैसे। मानक विचलन की एक उच्च संख्या।)। रिटर्न नए पूर्ण स्तर पर समायोजित हो जाएगा, इसलिए बड़े वास्तविक परिवर्तनों के परिणामस्वरूप केवल एक टिक का नुकसान होगा। मेरा सुझाव है कि आउटलेर्स के समूहों से निपटने के लिए 1 कदम और n चरणों से लिए गए रिटर्न के साथ दो-पास फिल्टर का उपयोग करें।

संपादित करें 1: रिटर्न के बजाय कीमतों के उपयोग के बारे में: संपत्ति की कीमतें स्थिर नहीं होती हैं, इसलिए आईएमओ जो कुछ अतिरिक्त चुनौतियों का सामना कर सकता है। अनियमितता और बिजली कानून के प्रभावों के लिए, मैं किसी प्रकार के समायोजन की सलाह दूंगा यदि आप उन्हें अपने फ़िल्टर में शामिल करना चाहते हैं। आप समय अंतराल या अस्थिरता से मूल्य में बदलाव कर सकते हैं। आप इस पर कुछ चर्चा के लिए "एहसास हुआ अस्थिरता" मुकदमेबाजी का उल्लेख कर सकते हैं। डकोरोगना एट में भी चर्चा की गई। अल।

अस्थिरता में होने वाले परिवर्तनों के लिए, आप पिछले सप्ताह के दौरान (मौसमी का उपयोग करके) दिन के एक ही समय से अपनी अस्थिरता गणना को आधार बना सकते हैं।


केवल रिटर्न का उपयोग करके आप लैडर के लिए बहुत कमजोर हो जाते हैं (यानी कीमतों का एक क्रम जो आदर्श से दूर चढ़ता या गिरता है, जहां प्रत्येक व्यक्तिगत रिटर्न स्वीकार्य है, लेकिन एक समूह के रूप में वे एक स्पष्टता का प्रतिनिधित्व करते हैं)। आदर्श रूप से आप रिटर्न और पूर्ण स्तर दोनों का उपयोग करेंगे।
जिल्स डे विट

5

बिना शर्त पागल / मंझले की 'अनुकूलनशीलता' की कमी के बारे में आपकी चिंता को दर्शाने के लिए मैंने (कुछ देरी के साथ) अपना जवाब बदल दिया।

(μ^t,σ^t)

xtμ^tσ^टी

आप इस पेपर में अधिक जानकारी (और R पैकेज के लिए लिंक) पा सकते हैं :

बॉड, के और क्राउक्स, सी। (2010)। मल्टीवेरेट गार्च मॉडल्स का रोबस्ट एम-एस्टिमेशन।


मैंने ऐसा कुछ करने की कोशिश की है, लेकिन अस्थिरता में अचानक बदलाव से निपटने के लिए यह तरीका बहुत अच्छा नहीं है। यह अधिक व्यस्त समय के दौरान शांत अवधि में ओवरफिल्टरिंग और ओवरफिल्टरिंग की ओर जाता है।
jilles de wit

मुझे यह समझ में नहीं आता है "यह शांत अवधि में कम और अधिक व्यस्त समय के दौरान ओवरफिल्टरिंग की ओर जाता है" समझाने के लिए देखभाल?
user603

शांत अवधियों में मूल्य अस्थिरता कम हो जाती है, इसलिए औसत के करीब कीमतों को आउटलेर माना जा सकता है। हालाँकि, क्योंकि आप MAD का उपयोग करते हैं (संभवतया) एक संपूर्ण व्यापारिक दिन (या इससे भी अधिक) कि ये आउटलेयर माध्यिका से 3 MAD से कम हैं और इसे फ़िल्टर नहीं किया जाएगा। उच्च मूल्य आंदोलनों के साथ व्यस्त अवधि के लिए रिवर्स सच है (स्वीकार्य मूल्य आंदोलनों को फ़िल्टर्ड किया जाएगा)। इस प्रकार यह समस्या हर समय MAD को ठीक से आंकने के लिए कम हो जाती है, जिसे शुरू करने का मुद्दा है।
जिल्स डे विट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.