गणना डेटा के लिए समय श्रृंखला, मायने रखता है <20 के साथ


23

मैंने हाल ही में एक तपेदिक क्लिनिक के लिए काम करना शुरू किया। हम समय-समय पर टीबी के उन मामलों की संख्या पर चर्चा करते हैं जिनसे हम वर्तमान में व्यवहार कर रहे हैं, परीक्षण किए गए परीक्षणों की संख्या आदि, मैं इन गणनाओं को शुरू करना चाहता हूं ताकि हम यह अनुमान नहीं लगा रहे हैं कि कुछ असामान्य है या नहीं। दुर्भाग्य से, मैंने समय श्रृंखला में बहुत कम प्रशिक्षण लिया है, और मेरा अधिकांश प्रदर्शन बहुत निरंतर डेटा (स्टॉक की कीमतों) या बहुत बड़ी संख्या में काउंट्स (इन्फ्लूएंजा) के लिए मॉडल के लिए हुआ है। लेकिन हम प्रति माह 0-18 मामलों (6.68, औसत 7, var 12.3) से निपटते हैं, जो इस तरह वितरित किए जाते हैं:

[छवि समय की मुट्ठी में खो गई]

[एक grue द्वारा खाया छवि]

मुझे कुछ लेख मिले हैं जो इस तरह के मॉडल को संबोधित करते हैं, लेकिन मैं आपके लिए सुनने के सुझावों की बहुत सराहना करूंगा - दोनों दृष्टिकोणों के लिए और आर पैकेजों के लिए जो मैं उन दृष्टिकोणों को लागू करने के लिए उपयोग कर सकता हूं।

संपादित करें: mbq के उत्तर ने मुझे यहाँ क्या पूछ रहा है के बारे में अधिक ध्यान से सोचने पर मजबूर कर दिया है; मैं मासिक काउंट्स पर भी लटका हुआ था और प्रश्न का वास्तविक ध्यान खो दिया था। जो मैं जानना चाहता हूं वह यह है: क्या (2008 में दिखाई देने वाली) गिरावट, 2008 के बाद के मामलों की समग्र संख्या में गिरावट को दर्शाती है? यह मुझे लगता है कि 2001-2007 से मासिक मामलों की संख्या एक स्थिर प्रक्रिया को दर्शाती है; शायद कुछ मौसमी, लेकिन कुल मिलाकर स्थिर। 2008 से वर्तमान तक, ऐसा लग रहा है कि यह प्रक्रिया बदल रही है: समग्र मामलों की संख्या में गिरावट आ रही है, भले ही मासिक गणना यादृच्छिकता और मौसमीता के कारण ऊपर और नीचे घूम सकती है। प्रक्रिया में वास्तविक परिवर्तन होने पर मैं कैसे परीक्षण कर सकता हूं? और अगर मैं एक गिरावट की पहचान कर सकता हूं,


2
लिंक मर गए हैं। यदि आप छवियों को पकड़ पाने में सक्षम हैं (या उन्हें पुनर्जीवित करते हैं), कृपया नई प्रणाली का उपयोग करें जो उन्हें imgur पर संग्रहीत करता है।
Glen_b -Reinstate Monica

दुर्भाग्य से, ये भूखंड कुछ नौकरियों से पहले थे। क्षमा याचना!
मैट पार्कर

1
इस पोस्ट को देखते हुए (# 173) उस समय से वापस आ गया है जब साइट बीटा में थी, यह कोई आश्चर्य की बात नहीं है - इस बिंदु पर कुछ लोग पोस्ट से एक प्लॉट को वापस ला सकते हैं। फिर भी धन्यवाद।
Glen_b -Reinstate मोनिका

जवाबों:


15

ऐतिहासिक प्रवृत्ति का आकलन करने के लिए, मैं ट्रेंड और मौसमी घटकों के साथ एक गम का उपयोग करूंगा। उदाहरण के लिए

require(mgcv)
require(forecast)
x <- ts(rpois(100,1+sin(seq(0,3*pi,l=100))),f=12)
tt <- 1:100
season <- seasonaldummy(x)
fit <- gam(x ~ s(tt,k=5) + season, family="poisson")
plot(fit)

फिर summary(fit)आपको प्रवृत्ति में परिवर्तन के महत्व का परीक्षण देगा और भूखंड आपको कुछ आत्मविश्वास अंतराल देगा। यहाँ धारणाएँ स्वतंत्र हैं और सशर्त वितरण पॉसों है। क्योंकि समय के साथ सुचारू रूप से बदलने की अनुमति है, ये विशेष रूप से मजबूत धारणा नहीं हैं।

भविष्य में प्रवृत्ति को प्रोजेक्ट करने के लिए पूर्वानुमान लगाना अधिक कठिन है। यदि आप डेटा के अंत में प्रवृत्ति के एक रैखिक एक्सट्रपलेशन को स्वीकार करने के लिए तैयार हैं (जो निश्चित रूप से सुस्त है, लेकिन शायद कुछ महीनों के लिए ठीक है), तो उपयोग करें

fcast <- predict(fit,se.fit=TRUE,
               newdata=list(tt=101:112,season=seasonaldummyf(x,h=12)))

समान ग्राफ़ पर पूर्वानुमान देखने के लिए:

plot(x,xlim=c(0,10.5))
lines(ts(exp(fcast$fit),f=12,s=112/12),col=2)
lines(ts(exp(fcast$fit-2*fcast$se),f=12,s=112/12),col=2,lty=2)
lines(ts(exp(fcast$fit+2*fcast$se),f=12,s=112/12),col=2,lty=2)

फिट के अवशिष्ट (अवशिष्ट) अवशिष्टों की तलाश में आप असामान्य महीनों को देख सकते हैं।


8

आप एक नज़र रखना चाहते हैं :

(रैखिक) प्रतिगमन मॉडल में संरचनात्मक परिवर्तनों का परीक्षण, निगरानी और डेटिंग। स्ट्रैचेंज सामान्यीकृत उतार-चढ़ाव परीक्षण ढांचे के साथ-साथ एफ टेस्ट (चाउ टेस्ट) ढांचे से परीक्षण / तरीके पेश करते हैं। इसमें क्रमशः फिट, प्लॉट और टेस्ट में उतार-चढ़ाव की प्रक्रिया (जैसे, CUSUM, MOSUM, पुनरावर्ती / मूविंग अनुमान) और F आँकड़े शामिल हैं। उतार-चढ़ाव प्रक्रियाओं का उपयोग करके आने वाले डेटा को ऑनलाइन मॉनिटर करना संभव है। अंत में, संरचनात्मक परिवर्तनों के साथ प्रतिगमन मॉडल में ब्रेकप्वाइंट को आत्मविश्वास अंतराल के साथ एक साथ अनुमान लगाया जा सकता है। डेटा को विज़ुअलाइज़ करने के लिए हमेशा जोर दिया जाता है। "

पुनश्च। अच्छा ग्राफिक्स;)


मुझे इसे बाद में और अधिक अच्छी तरह से पढ़ना होगा, लेकिन हाँ, यह पैकेज निश्चित रूप से उन समस्याओं का समाधान कर रहा है जो मैं यहाँ सामना कर रहा हूँ। धन्यवाद! और भी, भूखंडों के बारे में दयालु शब्दों के लिए धन्यवाद; पी
मैट पार्कर

6

क्या वास्तव में कुछ उन्नत मॉडल की आवश्यकता है? टीबी के बारे में जो मैं जानता हूं, उसके आधार पर, अगर कोई एपिडेम नहीं है, तो संक्रमण स्टोचैस्टिक कार्य हैं और इसलिए गिनती फॉर्म एन को महीने एन -1 से गिनती के साथ संबद्ध नहीं किया जाना चाहिए। (आप इस धारणा को आटोक्लेररेशन के साथ जाँच सकते हैं)। यदि ऐसा है, तो केवल मासिक गणना के वितरण का विश्लेषण यह तय करने के लिए पर्याप्त हो सकता है कि क्या कुछ गणना सामान्य से काफी अधिक है।
दूसरी ओर आप कुछ अन्य चर के साथ सहसंबंधों की तलाश कर सकते हैं, जैसे कि मौसम, यात्रा ट्रैफ़िक, या ऐसी कोई भी चीज़ जिसकी आप कल्पना कर सकते हैं जो सहसंबद्ध हो सकती है। यदि आपको ऐसा कुछ मिलता है, तो इसका उपयोग कुछ डेटा सामान्यीकरण के लिए किया जा सकता है।


1
माह एन की गिनती के बारे में आपकी बात जरूरी नहीं कि एन -1 के साथ संबद्ध हो। टीबी जैसी धीमी गति से बढ़ने वाली बीमारी के साथ, यह कुछ ऐसा है जिसे मुझे ध्यान से देखना होगा, लेकिन मुझे पूरा यकीन है कि मैं इस बात की पहचान कर सकता हूं कि जब हम किसी स्रोत के मामले की रिपोर्ट करते हैं और किसी माध्यमिक की रिपोर्ट करते हैं तो कितना अंतराल होता है मामलों।
मैट पार्कर

1
हालाँकि, यह आपके सवाल के मासिक काउंट के वितरण का विश्लेषण करने के बारे में है। अमेरिका और मेरे जिले में, राष्ट्रीय स्तर पर, टीबी में एक निश्चित गिरावट आई है। उदाहरण के लिए, जब मैं 2009 से पिछले वर्षों की तुलना करता हूं, तो निश्चित रूप से कम मामले होते हैं। 2010 अभी भी कम ट्रैक पर है। मैं जो पहचानने की कोशिश कर रहा हूं (जो मैंने प्रश्न में व्याख्या करने का घटिया काम किया था) क्या ये गिरावट चल रही गिरावट का हिस्सा है, या सिर्फ एक नीचे की ओर लहराती है। धन्यवाद - आपने मुझे समस्या के बारे में अधिक ध्यान से सोचने के लिए पा लिया है।
मैट पार्कर

5

अक्सर, इस तरह की बीमारी के डेटा को सामान्यीकृत रैखिक मॉडल के साथ किया जाता है, क्योंकि यह जरूरी नहीं कि समय श्रृंखला विश्लेषण का एक महान अनुप्रयोग है - महीने अक्सर एक दूसरे के साथ सहसंबद्ध नहीं होते हैं।

अगर मुझे यह डेटा दिया गया है, तो मैं यहाँ क्या करूँगा (और वास्तव में, इसके समान डेटा के साथ किया है):

एक "टाइम" वैरिएबल बनाएं जिसे "1/1/2000 के बाद के महीनों" के रूप में अधिक सटीक रूप से वर्णित किया गया है, अगर मैं आपके डेटा को सही ढंग से देख रहा हूं। तब मैं आर पॉसों वितरण (या नकारात्मक द्विपद) का उपयोग करके आर में एक सामान्य रैखिक मॉडल चलाता हूं और लगभग निम्नलिखित रूप के साथ एक लॉग लिंक:

log(Counts) = b0 + b1*t + b2*(t^2) + b3*cos(2pi*w*t) + b4*sin(2pi*w*t)

जहां टी ऊपर वर्णित समय है, और फ्लू जैसी वार्षिक बीमारी के लिए डब्ल्यू 1/365 है। आम तौर पर इसका 1 / n, जहां n आपके रोग के चक्र की लंबाई है। मुझे पता नहीं है कि यह टीबी के लिए क्या है।

दो समय के रुझान आपको दिखाएंगे - सामान्य मौसमी भिन्नता के बाहर - यदि आपके पास समय के साथ सार्थक भिन्नता है।


4

आप डेटा पर एक Tukey नियंत्रण चार्ट लगाने पर विचार कर सकते हैं ।


हेह - यह वास्तव में मेरे द्वारा बनाए गए भूखंडों में से एक था जिसने इसे पोस्ट में नहीं बनाया। मेरे पास समस्या यह थी कि सीमा की गणना कैसे की जाए - मेरा प्रारंभिक प्रयास पॉइसन सीमा के साथ था, लैंबडा के साथ मेरे डेटा के माध्यम से सेट किया गया था, लेकिन व्यवहार में पॉसिऑन होने के लिए विचरण बहुत अधिक है (व्यवहार में मामले के लिए पर्याप्त उच्च? मैं डॉन? 't पता है)।
मैट पार्कर

एक और समस्या यह है कि वितरण का केंद्र समय के साथ बदल सकता है - उदाहरण के लिए, 1900 की शुरुआत से डेटा का उपयोग करके उन सीमाओं को सेट करने का कोई मतलब नहीं होगा, जब कोलोराडो टीबी रोगियों के लिए एक आश्रय था। इसलिए जब तक विचलन की पहचान करने में सक्षम होने की प्रक्रिया में दीर्घकालिक परिवर्तन के साथ लाइनों को अद्यतित रखने का एक उपयुक्त तरीका क्या है?
मैट पार्कर

4

आप अपने डेटा को डायनामिक जनरलाइज्ड लीनियर मॉडल (DGLM) का उपयोग करके मॉडल बनाने की कोशिश कर सकते हैं। आर में, आप इस तरह के मॉडल पैकेज sspir और KFAS का उपयोग करके फिट कर सकते हैं। एक अर्थ में, यह रोब द्वारा सुझाए गए गम दृष्टिकोण के समान है, सिवाय इसके कि यह मानने के बजाय कि पॉइसन टिप्पणियों का लॉग माध्य समय का एक सुचारू कार्य हो सकता है, यह मानता है कि यह स्टोकेस्टिक गतिकी का अनुसरण करता है।


कूल - मुझे KFAS पैकेज के बारे में पता नहीं था। राज्य स्पेस-ईश एप्रोच के लिए dlm और dse भी है, और R उपयोगकर्ताओं के लिए एक सामान्य अवलोकन यहाँ: cran.r-project.org/web/views/TimeSeries.html
conjugateprior

2
मैं अत्यधिक dlmपैकेज की सिफारिश करूँगा । डीएलएम अन्य समाधानों के रूप में उपयोग करना आसान नहीं है, लेकिन dlmयह जितना संभव हो उतना आसान बनाता है और इस प्रक्रिया के माध्यम से आपको चलने का एक अच्छा विगनेट है।
वेन

2

मैं मुख्य प्रश्न को अकेले छोड़ने जा रहा हूं, क्योंकि मुझे लगता है कि मैं इसे गलत कर दूंगा (हालांकि मैं भी एक स्वास्थ्य सेवा प्रदाता के लिए डेटा का विश्लेषण करता हूं, और ईमानदार होने के लिए, अगर मेरे पास ये डेटा था, तो मैं बस मानक तकनीकों का उपयोग करके उनका विश्लेषण करूंगा और सर्वश्रेष्ठ के लिए आशा, वे मेरे लिए बहुत ठीक लग रहे हैं)।

आर संकुल के रूप में, मुझे टीएसए पुस्तकालय मिला है और यह वास्तव में बहुत उपयोगी पुस्तक के साथ है। armasubsetsआदेश, विशेष रूप से, मुझे लगता है कि एक महान समय बचाने है।


2

पारंपरिक विश्लेषणात्मक आंकड़ों से बचना चाहिए क्योंकि डेमिंग पारंपरिक विश्लेषणात्मक आंकड़ों में सुझाव और उद्यम करेगा - इस मामले में, नियंत्रण चार्ट। डोनाल्ड व्हीलर पीएचडी द्वारा कोई भी किताबें देखें, विशेष रूप से अधिक जानकारी के लिए "एसपीसी में उनके उन्नत विषय"।


किसी ने एसपी (उर्फ क्यूसी) चार्ट्स के बारे में R में आँकड़े.स्टैकएक्सचेंज . com/questions/15809/… के बारे में एक सवाल पूछा, जहां मैं कुछ पैकेज संकेत प्रदान करता हूं। मुझे खुद एसपीसी / क्यूसी पर यकीन नहीं है: मुझे आश्चर्य है कि क्या यह पूर्व-कंप्यूटर युग में और दुकान के फर्श पर श्रमिकों के लिए अधिक उपयोगी था, लेकिन यह विचार करने योग्य है।
वेन

दरअसल, क्या यह जवाब @ babelproofreader के साथ बेमानी है?
वेन

2

आपके प्रत्यक्ष प्रश्न के जवाब में "मैं कैसे परीक्षण कर सकता हूं यदि प्रक्रिया में वास्तविक परिवर्तन होता है? और अगर मैं गिरावट की पहचान कर सकता हूं, तो मैं उस प्रवृत्ति का उपयोग कैसे कर सकता हूं और जो भी मौसम हम देख सकते हैं उन मामलों की संख्या का अनुमान लगाने के लिए हो सकता है। आगामी महीने? " एक ट्रांसफर फंक्शन मॉडल (ARMAX) विकसित करें, जो आसानी से पीरियड-टू-पीरियड डिपेंडेंसी सहित और मौसमी ARIMA स्ट्रक्चर की व्याख्या करता है। किसी भी पहचानने योग्य स्तरीय बदलाव, मौसमी दलहन, स्थानीय समय के रुझान और PUlses को शामिल करें जो कि हस्तक्षेप का पता लगाने जैसे अनुभवजन्य / विश्लेषक तरीकों द्वारा सुझाए गए हों। यदि इस तरीके को एक मोडल / सीरीज़ में शामिल किया जाता है, जो "गिरावट" से मेल खाता है, तो आपकी प्रार्थनाओं का जवाब दिया गया है। वैकल्पिक रूप से बस एक हाइपोथिसाइज्ड संरचना जोड़ें जैसे कि बिंदु T1 पर दो बार डमीज X1 = 1,1,2,3 ,,,,, पर समय प्रवृत्ति परिवर्तन का परीक्षण करने के लिए T और X2 = 0,0,0,0,0,0,0,1,2,3,4,5, .... जहां शून्य END T1-1 पर अंत है। समय अवधि T1 में एक महत्वपूर्ण प्रवृत्ति परिवर्तन की परिकल्पना का परीक्षण X2 के लिए "टी मान" का उपयोग करके मूल्यांकन किया जाएगा।

संपादित 9/22/11

अक्सर, मौसम / तापमान के बाद से इस तरह के रोग के आंकड़ों का मासिक प्रभाव होता है। असली कॉडल श्रृंखला की चूक में ARIMA मॉडल सरोगेट के रूप में मेमोरी या मौसमी डमी का उपयोग करते हैं। इसके अतिरिक्त श्रृंखला में समय के साथ संरचनात्मक बदलाव को दर्शाते हुए स्तरीय बदलाव और / या स्थानीय समय रुझान हो सकते हैं। समय और समय वर्ग और समय क्यूबिक आदि जैसे विभिन्न कलाकृतियों को लगाने के बजाय डेटा में ऑटोरिएरेटिव संरचना को उजागर करना काफी उपयोगी और कम प्रकल्पित और तदर्थ पाया गया है। "असामान्य मूल्यों" की पहचान करने के लिए भी ध्यान रखा जाना चाहिए क्योंकि वे अक्सर अतिरिक्त कारण चर में और अन्य मॉडल मापदंडों के मजबूत अनुमानों के लिए न्यूनतम नेतृत्व में उपयोगी हो सकते हैं। अंत में हमने पाया है कि परिवर्तनशीलता / पराक्रम समय के साथ भिन्न हो सकते हैं, इस प्रकार ये मॉडल शोधन क्रम में हो सकते हैं।


T1 पोस्ट हॉक ( यानी , डेटा की समीक्षा करने के बाद इसे ध्यान में रखते हुए) की पहचान करने के लिए कोई पी-वैल्यू कैसे समायोजित करता है ?
whuber

सभी परिशोधन अर्थात डायग्नोस्टिक चेकिंग जो कि वृद्धि की ओर ले जाती है, को उसी संरचना के रूप में माना जाता है, जबकि डेटा दराज में था। डायग्नोस्टिक चेकिंग के आधार पर एक प्रेडिक्टर वेरिएबल में लैग को जोड़ने से सूची में एक और अशक्त परिकल्पना जुड़ जाती है। यह एक गैर-महत्वपूर्ण गुणांक को हटाने से अलग नहीं है।
आयरिशस्टैट

@ अगर मैं उस का पालन नहीं करता हूं। T1 एक अंतराल नहीं लगता है: यह एक बदलाव को निर्धारित करता है। क्या "महत्वपूर्ण" परिवर्तन ढूंढना आसान नहीं है यदि आपको यह चुनने के लिए पहले डेटा का निरीक्षण करने की अनुमति है कि परिवर्तन कहाँ है?
whuber

@ शुभकर्ता हाँ आप सही हैं। लेकिन प्रतिगमन में एक स्टेपवाइज फॉरवर्ड प्रक्रिया के बारे में सोचें जहां आप "संभावित निगमन" के लिए वैकल्पिक (छोड़े गए) चर की जांच करते हैं। यह इस मायने में अलग नहीं है कि आप यह तय कर रहे हैं कि परिणामी त्रुटि प्रक्रिया गौसियन को रेंडर करने के लिए मॉडल में कौन सा "छोड़ा गया रुझान" जोड़ा जाना चाहिए।
आयरिशस्टैट

@ इरीश एक रोशन सादृश्य है। अगर मुझे समझ में आता है, तो आप प्रत्येक अवधि के लिए एक संभावित परिवर्तनशील होने पर विचार करते हैं (उस अवधि में एक संभावित परिवर्तन को निर्दिष्ट करते हुए) और यह निर्धारित करने के लिए एक व्यवस्थित प्रक्रिया का आह्वान कर रहे हैं कि इनमें से किसको मॉडल में शामिल किया जाना चाहिए। इससे पता चलता है कि कुछ मानक पी-स्तरीय समायोजन प्रक्रियाएं, जैसे बोनफेरोनी, यथोचित रूप से लागू हो सकती हैं। क्या यह मान्य होगा?
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.