समय श्रृंखला विश्लेषण में नुकसान


46

मैं अभी समय श्रृंखला विश्लेषण में आत्म-अध्ययन शुरू कर रहा हूं। मैंने देखा है कि कई संभावित नुकसान हैं जो सामान्य आंकड़ों पर लागू नहीं होते हैं। तो, सामान्य सांख्यिकीय पाप क्या हैं? , मैं पूछना चाहूँगा:

समय श्रृंखला विश्लेषण में आम नुकसान या सांख्यिकीय पाप क्या हैं?

यह एक समुदाय विकि के रूप में है, प्रति उत्तर एक अवधारणा, और कृपया, सामान्य सांख्यिकीय पापों में सूचीबद्ध (या होना चाहिए) अधिक सामान्य सांख्यिकीय नुकसान की पुनरावृत्ति नहीं है?

जवाबों:


18

एक समय श्रृंखला पर एक रेखीय प्रतिगमन को बाहर निकालना, जहां समय प्रतिगमन में स्वतंत्र चर में से एक है। एक रेखीय प्रतिगमन थोड़े समय के पैमाने पर एक समय श्रृंखला का अनुमान लगा सकता है, और एक विश्लेषण में उपयोगी हो सकता है, लेकिन एक सीधी रेखा को अतिरिक्त रूप देना मूर्खतापूर्ण है। (समय अनंत और निरंतर बढ़ता है।)

संपादित करें: "मूर्ख" के बारे में naught101 के सवाल के जवाब में, मेरा जवाब गलत हो सकता है, लेकिन यह मुझे लगता है कि अधिकांश वास्तविक दुनिया की घटना लगातार बढ़ती या घटती नहीं है। कारकों को सीमित करने वाली अधिकांश प्रक्रियाएं: लोग उम्र बढ़ने के साथ-साथ बढ़ते जाना बंद कर देते हैं, स्टॉक हमेशा ऊपर नहीं जाते हैं, आबादी नकारात्मक नहीं हो सकती है, आप अपने घर को एक अरब पिल्लों आदि के साथ नहीं भर सकते हैं। समय, अधिकांश स्वतंत्र चर के विपरीत जो आते हैं मन में, अनंत समर्थन है, इसलिए आप वास्तव में अपने रैखिक मॉडल की कल्पना कर सकते हैं कि अब से 10 साल पहले ऐप्पल के शेयर की कीमत का अनुमान है क्योंकि अब से 10 साल बाद निश्चित रूप से मौजूद होगा। (जबकि आप 20-मीटर लंबे वयस्क पुरुषों के वजन की भविष्यवाणी करने के लिए ऊंचाई-वजन प्रतिगमन को एक्सट्रपलेशन नहीं करेंगे: वे मौजूद नहीं हैं और न ही मौजूद होंगे।)

इसके अलावा, समय श्रृंखला में अक्सर चक्रीय या छद्म चक्रीय घटक, या यादृच्छिक चलना घटक होते हैं। जैसा कि उनके जवाब में आयरिशस्टैट का उल्लेख है, आपको सीज़निटी (कभी-कभी मौसमी समय पर कई तराजू) पर विचार करने की आवश्यकता होती है, स्तर की शिफ्ट (जो रैखिक रजिस्टरों के लिए अजीब चीजें करेंगे जो उनके लिए कोई खाता नहीं है), आदि। एक रैखिक प्रतिगमन जो चक्रों को अनदेखा करता है। एक अल्पकालिक पर फिट है, लेकिन अगर आप इसे अतिरिक्त रूप से फैलाना चाहते हैं तो अत्यधिक भ्रामक हो सकते हैं।

जब भी आप एक्सट्रापोलेट, टाइम-सीरीज या नहीं करते हैं, तो आप मुश्किल में पड़ सकते हैं। लेकिन मुझे ऐसा लगता है कि हम भी अक्सर किसी को एक्सेल में टाइम सीरीज़ (अपराधों, स्टॉक की कीमतें, आदि) फेंकते देखते हैं और उस पर एक फॉरेक्स या लिनेस्ट छोड़ देते हैं और भविष्य में अनिवार्य रूप से एक सीधी रेखा के माध्यम से भविष्यवाणी करते हैं, जैसे कि स्टॉक की कीमतें लगातार बढ़ेंगी (या लगातार गिरावट, नकारात्मक सहित)।


क्या आप इसका विस्तार कर सकते हैं कि यह मूर्खता क्यों है?
naught101

1
भयानक उदाहरणों के लिए +1। मैं ठीक-ठीक गणना कर रहा हूं कि मैं अपने घर में अभी कितने पिल्लों को फिट कर सकता हूं: D
n

3
यह आपकी बात का एक बड़ा उदाहरण है: xkcd.com/605
Zach

1
@naught Mark Twain ने सबसे सरल भाषा में यह दिखाते हुए एक महान काम किया कि क्यों "मूर्खतापूर्ण" एक समय श्रृंखला के रैखिक एक्सट्रपलेशन के लिए उपयुक्त है।
whuber

और यह: आंकड़े . stackexchange.com/a/13904/9007 ... एक समान बिंदु एक बहुपद प्रवृत्ति (विशेष रूप से उच्च डिग्री), या किसी भी अन्य मॉडल का भौतिक रूप से प्रासंगिकता नहीं है। मैंने इस पर एक ब्लॉग पोस्ट लिखा कि यह एक बुरा विचार क्यों है , जब मैं खुद को सप्तक सिखा रहा था।
n

13

दो गैर-स्थिर समय श्रृंखला के बीच सहसंबंध पर ध्यान देना। (यह अप्रत्याशित नहीं है कि उनके पास एक उच्च सहसंबंध गुणांक होगा: "गैर-भावना सहसंबंध" और "संयोग" पर खोजें।)

उदाहरण के लिए, Google सहसंबंध पर, कुत्तों और कान के छेदों में 0.84 का सहसंबंध गुणांक है।

एक पुराने विश्लेषण के लिए, यूल की समस्या का 1926 अन्वेषण देखें


बेशक हमेशा नहीं। x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
n

… यह अच्छी तरह से कुछ में, जाहिरा तौर पर छोटे, हलकों में जाना जाता है।
आयरिशस्टैट

7

शीर्ष स्तर पर, कोलमोगोरोव ने आंकड़ों में एक प्रमुख धारणा के रूप में स्वतंत्रता की पहचान की - बिना किसी धारणा के, आंकड़ों में कई महत्वपूर्ण परिणाम सही नहीं हैं, चाहे वह समय श्रृंखला या अधिक सामान्य विश्लेषण कार्यों पर लागू हो।

अधिकांश वास्तविक-विश्व असतत-समय संकेतों में सफल या आस-पास के नमूने स्वतंत्र नहीं हैं, इसलिए एक निर्धारक मॉडल और एक स्टोकेस्टिक शोर घटक में एक प्रक्रिया को विघटित करने के लिए देखभाल की जानी चाहिए। फिर भी, शास्त्रीय स्टोचस्टिक कैलकुलस में स्वतंत्र वेतन वृद्धि समस्याग्रस्त है: 1997 ईकोन नोबेल और 1998 के LTCM के निहितार्थ को याद करें, जो अपने प्रिंसिपलों के बीच में लॉरेट्स की गिनती करता था (हालांकि निष्पक्ष होने के लिए, फंड के प्रबंधक मेरीविथेर की मात्रा की तुलना में अधिक दोष है। विधि)।


"समय श्रृंखला विश्लेषण" अध्ययन के एक क्षेत्र के रूप में। मूल रूप से मेरा मतलब है कि कोई भी व्यक्ति किसी भी समय श्रृंखला (किसी भी प्रकार का, और किसी भी प्रकार के विश्लेषण) का अध्ययन करने के लिए यात्रा कर सकता है। मैं व्यापक उत्तरों की तलाश में नहीं हूं। मेरे प्रश्न का संदर्भ लें जो मैं यहां करने की कोशिश कर रहा हूं, उसके लिए एक प्रश्न प्राप्त करें।
n

मेरा मतलब था कि किस प्रकार का विश्लेषण
अलंकलविट्टी

मुझे पता है। मुझे लगता है कि आप प्रश्न के बिंदु को याद कर रहे हैं। किसी भी प्रकार के समय श्रृंखला समस्या में किसी भी प्रकार के विश्लेषण में आम ठोकर के बारे में टिप्पणी करने के लिए स्वतंत्र महसूस करें , जो आपके पास अनुभव है। बस इसे उन समस्याओं के लिए रखें जो समय श्रृंखला के लिए विशिष्ट हैं।
n

हे @alancalvitti, कि अर्थशास्त्र उदाहरण दिलचस्प लगता है। क्या आप इसके बारे में अच्छे से जानते हैं कि हम यहाँ से लिंक कर सकते हैं?
naught101

मैंने इसे प्रस्तुत करने के लिए इस उत्तर को वापस मुख्य बिंदु पर प्रस्तुत करने के लिए संपादित किया (इसे एक बिंदु-प्रति-उत्तर शैली में वापस लाने के लिए)। इसका मतलब था कि वर्णक्रमीय विश्लेषण के बारे में सामान निकालना। शायद इस बारे में कुछ कहा जा सकता है, एक अलग जवाब में (हालांकि यह नुकसान के बारे में नहीं लगता था, विशेष रूप से, संभवतः स्पेक्ट्रल-विश्लेषण संबंधित नुकसान हैं जो हम यहां नोट कर सकते हैं)। उपरोक्त चर्चा का अब कोई मतलब नहीं है, लेकिन आपको लगता है कि, मुझे लगता है: /
naught101

2

अपने मॉडल के परिणामों के बारे में बहुत कुछ होने के कारण आप एक ऐसी तकनीक / मॉडल (जैसे OLS) का उपयोग करते हैं, जो समय श्रृंखला के ऑटोक्रेलेशन के लिए जिम्मेदार नहीं है।

मेरे पास एक अच्छा ग्राफ नहीं है, लेकिन पुस्तक "परिचयात्मक समय श्रृंखला आर के साथ" (2009, काउपरवेट, एट अल) एक उचित सहज ज्ञान युक्त स्पष्टीकरण देती है: यदि सकारात्मक ऑटोकॉर्प्रेचर है, तो इसके ऊपर या नीचे के मान लगातार बने रहेंगे। और समय में एक साथ क्लस्टर किया जा सकता है। यह माध्य के कम कुशल अनुमान की ओर जाता है, जिसका अर्थ है कि शून्य सटीकता की तुलना में आपको समान सटीकता का अनुमान लगाने के लिए अधिक डेटा की आवश्यकता होती है। आपके पास प्रभावी रूप से आपके विचार से कम डेटा है।

OLS प्रक्रिया (और इसलिए आप) यह मानती है कि कोई ऑटोकैरेलेशन नहीं है, इसलिए आप यह भी मान रहे हैं कि वास्तव में की तुलना में माध्य का अनुमान अधिक सटीक है (आपके डेटा की मात्रा के लिए)। इस प्रकार, आपको अपने परिणामों के बारे में अधिक आश्वस्त होना चाहिए, जितना कि आपको होना चाहिए।

(यह नकारात्मक स्वत :संबंध के लिए दूसरे तरीके से काम कर सकता है: मतलब का आपका अनुमान वास्तव में अधिक कुशल है, अन्यथा यह साबित होगा। मेरे पास यह साबित करने के लिए कुछ भी नहीं है, लेकिन मेरा सुझाव है कि सकारात्मक सहसंबंध ज्यादातर वास्तविक दुनिया में अधिक आम है। नकारात्मक सहसंबंध से श्रृंखला।)


यहाँ एक उदाहरण बहुत अच्छा होगा, मैं पूरी तरह से इस सवाल का जवाब समझ में नहीं आता के रूप में यह खड़ा है
naught101

@Wayne को संपादित करने के लिए धन्यवाद, लेकिन मैं एक वास्तविक दुनिया का उदाहरण चाहता हूं, अधिमानतः कुछ दृश्य के साथ। जाहिर है, दूसरों को भी जोड़ सकते हैं - यह एक सामुदायिक विकि है।
naught101

1
@ naught101: आह। मैंने यहां जो तीन सुझाव दिए हैं, उनमें से दो मैंने जो सीखा है, उस पर आधारित हैं, लेकिन जरूरी नहीं कि एक अच्छा उदाहरण बनाने के लिए पर्याप्त हो। मैं वेब पर एक देखने की कोशिश करूँगा।
वेन

यह केवल सिम्युलेटेड डेटा है, लेकिन एक अन्य प्रश्न के लिए मेरे उत्तर में ओएलएस के साथ फिट होने वाले मॉडल के साथ कुछ आर कोड है और फिर अधिक उपयुक्त रूप से ऑटोकॉर्प्रेलेशन को ध्यान में रखते हुए - नाटकीय रूप से उच्च पी-मूल्यों के साथ। आँकड़े.स्टैकएक्सचेंज.com
पीटर एलिस

2

लेवल शिफ्ट्स, मौसमी दालों और लोकल टाइम ट्रेंड्स का असर ... वन-टाइम दालों के अलावा। समय के साथ मापदंडों में परिवर्तन की जांच / मॉडल के लिए महत्वपूर्ण हैं। समय के साथ त्रुटियों के विचलन में संभावित परिवर्तनों की जांच की जानी है। यह निर्धारित करने के लिए कि X के समकालीन और पिछड़े हुए मूल्यों से Y कैसे प्रभावित होता है। यह कैसे पहचानें कि क्या भविष्य के एक्स के मूल्य वाई के वर्तमान मूल्यों को प्रभावित कर सकते हैं। महीने के विशेष दिनों का पता कैसे लगाया जाए। मिश्रित आवृत्ति समस्याओं को कैसे मॉडल करें जहां प्रतिदिन के मूल्यों से प्रति घंटा डेटा प्रभावित होता है?

naught ने मुझे स्तर की पारियों और दालों पर अधिक विशिष्ट जानकारी / उदाहरण प्रदान करने के लिए कहा। अब तक मैं कुछ और चर्चा को शामिल करता हूं। एक एसीएफ जो गैर-स्थिरता का सुझाव देती है, एक श्रृंखला एक "लक्षण" देने के प्रभाव में है। एक सुझाव दिया गया उपाय डेटा को "अंतर" करना है। एक अनदेखा उपाय डेटा को "डी-मीन" करना है। यदि किसी श्रृंखला में माध्य (यानी) में "प्रमुख" स्तर की शिफ्ट होती है, तो इस पूरी श्रृंखला के एसएफ को आसानी से अलग-अलग सुझाव देने के लिए गलत तरीके से समझा जा सकता है। मैं एक श्रृंखला का एक उदाहरण दिखाऊंगा जो एक स्तर की पारी को प्रदर्शित करता है। अगर मैंने दोनों के बीच अंतर (बड़ा) किया है तो इसका मतलब है कि कुल श्रृंखला का एसीएफ (गलत तरीके से!) अंतर की आवश्यकता का सुझाव देगा। अनुपचारित दालें / स्तर में बदलाव / मौसमी दालों / स्थानीय समय के रुझान मॉडल संरचना के महत्व को बाधित करने वाली त्रुटियों के विचलन को बढ़ाते हैं और त्रुटिपूर्ण पैरामीटर अनुमान और खराब पूर्वानुमान का कारण होते हैं। अब एक उदाहरण पर। गुयहाँ छवि विवरण दर्ज करें27 मासिक मानों की एक सूची है। यह ग्राफ है यहाँ छवि विवरण दर्ज करें। चार दालें और 1 स्तर की शिफ्ट और NO TREND हैं! यहाँ छवि विवरण दर्ज करेंऔर यहाँ छवि विवरण दर्ज करें। इस मॉडल से प्राप्त अवशेष सफेद शोर प्रक्रिया का सुझाव देते हैं यहाँ छवि विवरण दर्ज करें। कुछ (सबसे!) वाणिज्यिक और यहां तक ​​कि नि: शुल्क पूर्वानुमान पैकेज अतिरिक्त मौसमी कारकों के साथ एक प्रवृत्ति मॉडल को संभालने के परिणामस्वरूप निम्नलिखित उदासी प्रदान करते हैं यहाँ छवि विवरण दर्ज करें। मार्क ट्वेन को समाप्त करने और सम्‍मिलित करने के लिए। "बकवास है और बकवास है लेकिन उन सभी में से सबसे गैर कामुक बकवास सांख्यिकीय बकवास है!" एक अधिक उचित की तुलना में यहाँ छवि विवरण दर्ज करें। उम्मीद है की यह मदद करेगा !


1
वास्तव में? ये सभी नुकसान और पाप हैं ? (प्रश्न के जोर वाले हिस्से को फिर से पढ़ें!) शायद आपने जो लिखा उसके विपरीत का मतलब है?
whuber

मेरी टिप्पणियों का उद्देश्य कुछ वास्तविक वास्तविक संरचनाओं के मनोरंजन या कुछ पर विचार न करने के नुकसान को इंगित करना था। मान्यताओं से बचने की आवश्यकता है जो कि बहुत मान्य नहीं हैं अन्यथा किसी को कुछ बहुत ही संदिग्ध परिणाम मिल सकते हैं।
आयरिशस्टैट

3
मैं इकट्ठा था कि इरादा था, लेकिन इसके मौजूदा रूप में आपका जवाब गलत समझना आसान है। उदाहरण के लिए, "एक बार की दाल" के "प्रभाव" का आकलन करना पाप है या ऐसा करना पाप नहीं है? यह पर्याप्त रूप से अस्पष्ट है कि व्याख्या के लिए एक अच्छा मामला बनाया जा सकता है! (हां, यह एक पाप है, क्योंकि एक बार की दालें केवल आउटलेर हो सकती हैं, जिनके लिए आप अनुचित प्रभाव नहीं देना चाहते हैं और उन सभी के लिए लेखांकन मॉडल को ओवरपैरेटाइज़ कर सकता है; नहीं, उन्हें शामिल करने की आवश्यकता है क्योंकि उनके प्रभाव के लिए अस्तर हो सकता है; एक लंबा समय और अनदेखी करना अन्य मापदंडों का अनुमान लगा सकता है।)
व्हिबर

@ वाउचर यदि एक बार की नाड़ी के प्रभाव के कारण इसे एक बार के दालों के क्रम के रूप में देखा जा सकता है। यह उतना सुरुचिपूर्ण नहीं है, लेकिन फिर भी यह प्रभावी हो सकता है। जैसा कि आपने काफी सही ढंग से कहा है कि आप दोहरावदार संरचना के पैरामीटर अनुमानों को विकृत करने वाले त्रुटिपूर्ण मूल्यों को नहीं रखना चाहते हैं, इसलिए दालों, स्तर की शिफ्टों, मौसमी दालों और / या स्थानीय समय के रुझान जैसे अनिर्दिष्ट निर्धारक संरचना का इलाज नहीं करना "पाप" है।
आयरिशस्टैट

मुझे लगता है कि यह वास्तव में एक दिलचस्प जवाब होगा यदि पहला वाक्य (स्तर पारियों और दालों) को बहुत (कुछ उदाहरणों के साथ) पर विस्तारित किया गया था, और बाकी को गिरा दिया गया था। Heteroskedasticity एक अच्छा अलग जवाब के लिए करना होगा।
n

1

समय के साथ रैखिक विकास के रूप में रुझान को परिभाषित करना ।

हालांकि कुछ रुझान किसी तरह रैखिक होते हैं (Apple स्टॉक मूल्य देखें), और हालांकि समय श्रृंखला चार्ट एक लाइन चार्ट की तरह दिखता है जहां आप रैखिक प्रतिगमन पा सकते हैं, अधिकांश रुझान रैखिक नहीं हैं।

परिवर्तन की तरह चरण परिवर्तन होते हैं जब कुछ विशिष्ट समय में कुछ हुआ जो माप व्यवहार को बदल दिया ( "पुल ढह गया और कोई भी कार उस पर नहीं जा रही है ")।

एक और लोकप्रिय प्रवृत्ति "बज़" है - घातीय वृद्धि और इसके बाद एक समान तेज गिरावट ( "हमारा विपणन अभियान एक बड़ी सफलता थी, लेकिन कुछ हफ़्ते बाद प्रभाव फीका हो गया" )।

टाइम सीरीज़ में ट्रेंड के सही मॉडल (लॉजिस्टिक रिग्रेशन आदि) को जानना, टाइम सीरीज़ के डेटा में इसका पता लगाने की क्षमता में अहम है।


1

कुछ महान बिंदुओं के अलावा जिनका पहले ही उल्लेख किया जा चुका है, मैं जोड़ूंगा:

  1. लंबे समय तक चक्र या मौसमी की स्थिति में विफलता - समय की 'अपर्याप्त लंबी अवधि' पर केवल डेटा की जांच करके
  2. पिछले अवधियों के लिए पूर्वानुमान त्रुटि का मूल्यांकन करने में विफलता ( बैकटस्टिंग )
  3. शासन परिवर्तनों का पता लगाने और निपटने में विफलता

ये समस्याएं शामिल सांख्यिकीय तरीकों से संबंधित नहीं हैं, बल्कि अध्ययन के डिजाइन के लिए हैं, अर्थात परिणामों को शामिल करने के लिए कौन सा डेटा शामिल है और इसका मूल्यांकन कैसे करें।

बिंदु 1 के साथ मुश्किल हिस्सा यह सुनिश्चित कर रहा है कि हमने भविष्य के बारे में निष्कर्ष निकालने के लिए डेटा की पर्याप्त अवधि देखी है। टाइम-सीरीज़ पर मेरे पहले व्याख्यान के दौरान, प्रोफेसर ने बोर्ड पर एक लंबा साइनस वक्र खींचा और बताया कि लंबी चक्र रैखिक तरंगों की तरह दिखते हैं जब एक छोटी खिड़की पर मनाया जाता है (काफी सरल, लेकिन सबक मेरे साथ अटक गया)।

बिंदु 2. विशेष रूप से प्रासंगिक है यदि आपके मॉडल की त्रुटियों में कुछ व्यावहारिक निहितार्थ हैं। अन्य क्षेत्रों में, इसका व्यापक रूप से वित्त में उपयोग किया जा रहा है, लेकिन मैं तर्क दूंगा कि पिछले समय में पूर्वानुमान त्रुटियों का मूल्यांकन सभी समय-श्रृंखला मॉडल के लिए बहुत अधिक समझ में आता है जहां डेटा इसकी अनुमति देता है।

बिंदु 3. इस विषय पर फिर से छूता है कि पिछले डेटा के किस हिस्से में भविष्य का प्रतिनिधि है। यह एक बड़ी मात्रा के साहित्य के साथ एक जटिल विषय है - मैं अपने व्यक्तिगत पसंदीदा का नाम दूंगा: ज़ुचिनी और मैकडोनाल्ड एक उदाहरण के रूप में।


1

सैंपल टाइम सीरीज़ में एलियासिंग से बचें। यदि आप नियमित अंतराल पर नमूना किए गए समय श्रृंखला डेटा का विश्लेषण कर रहे हैं, तो नमूना दर आपके द्वारा नमूना किए जा रहे डेटा में उच्चतम आवृत्ति घटक की आवृत्ति से दोगुनी होनी चाहिए। यह Nyquist नमूनाकरण सिद्धांत है, और यह डिजिटल ऑडियो पर लागू होता है, लेकिन नियमित अंतराल पर नमूना किए गए किसी भी समय श्रृंखला के लिए भी। अलियासिंग से बचने का तरीका नाइक्विस्ट दर से ऊपर की सभी आवृत्तियों को फ़िल्टर करना है, जो कि नमूना दर का आधा है। उदाहरण के लिए, डिजिटल ऑडियो के लिए, 48 kHz की एक नमूना दर को 24 kHz से कम कटऑफ के साथ कम-पास फिल्टर की आवश्यकता होगी।
अलियासिंग का प्रभाव तब देखा जा सकता है जब पहियों को पीछे की ओर घूमता हुआ दिखाई देता है, एक स्ट्रोबिस्कोपिक प्रभाव के कारण जहां स्ट्रोब दर पहिया की क्रांति की दर के करीब है। देखी गई धीमी दर क्रांति की वास्तविक दर का एक अन्य नाम है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.