मैं कुछ मजबूत तकनीकों की तलाश कर रहा हूं जो वित्तीय समय-श्रृंखला डेटा (यानी टिकडाटा) से आउटलेर और त्रुटियों (जो भी कारण हो) को हटाने के लिए।
टिक-दर-टिक वित्तीय समय-श्रृंखला डेटा बहुत गड़बड़ है। इसमें एक्सचेंज बंद होने पर बहुत बड़ा (समय) अंतराल होता है, और जब एक्सचेंज फिर से खुलता है तो बहुत बड़ी छलांग लगाता है। जब एक्सचेंज खुला होता है, तो सभी प्रकार के कारक मूल्य स्तर पर ट्रेडों को पेश करते हैं जो गलत हैं (वे उत्पन्न नहीं हुए) और / या बाजार के प्रतिनिधि नहीं हैं (गलत तरीके से दर्ज बोली के कारण एक स्पाइक या उदाहरण के लिए मूल्य पूछें)।Tickdata.com (पीडीएफ) द्वारा यह पेपर समस्या को रेखांकित करने का अच्छा काम करता है, लेकिन कुछ ठोस समाधान प्रदान करता है।
अधिकांश पेपर मैं ऑनलाइन पा सकते हैं जो इस समस्या का उल्लेख करते हैं या तो इसे अनदेखा करते हैं (टिकडेटा को फ़िल्टर्ड मान लिया जाता है) या फ़िल्टरिंग को कुछ विशाल ट्रेडिंग मॉडल के हिस्से के रूप में शामिल करते हैं जो किसी भी उपयोगी फ़िल्टरिंग चरण को छुपाता है।
क्या किसी को इस क्षेत्र में अधिक गहराई से काम करने की जानकारी है?
अद्यतन: यह सवाल सतह पर समान लगता है लेकिन:
- वित्तीय समय श्रृंखला (कम से कम टिक स्तर पर) गैर-आवधिक है।
- प्रारंभिक प्रभाव एक बड़ा मुद्दा है क्योंकि आप अंतिम दिन के डेटा को प्रारंभिककरण के रूप में उपयोग नहीं कर सकते हैं, भले ही आप वास्तव में करना चाहते हैं (क्योंकि अन्यथा आपके पास कुछ भी नहीं है)। बाहरी घटनाएँ नए दिन के उद्घाटन को निरपेक्ष स्तर पर नाटकीय रूप से भिन्न करने के लिए और पिछले दिन से अस्थिरता का कारण हो सकती हैं।
- आने वाले डेटा की बेतहाशा अनियमित आवृत्ति। दिन के खुले और बंद होने के पास दिन के दौरान डेटापॉइंट्स / सेकंड की मात्रा औसत से 10 गुना अधिक हो सकती है। अन्य प्रश्न नियमित रूप से सैंपल किए गए डेटा से संबंधित है।
- वित्तीय आंकड़ों में "आउटलेयर" कुछ विशिष्ट पैटर्न प्रदर्शित करता है, जिन्हें विशिष्ट तकनीकों के साथ अन्य डोमेन में लागू नहीं किया जा सकता है और मैं उन विशिष्ट तकनीकों की तलाश में हूँ।
- अधिक चरम मामलों में (जैसे फ्लैश क्रैश) आउटलेयर में 75% से अधिक डेटा अंतराल अंतराल (> 10 मिनट) से अधिक हो सकता है। इसके अलावा, आने वाले डेटा की उच्च (उच्च) आवृत्ति में स्थिति के बाहरी पहलू के बारे में कुछ जानकारी होती है।