एक समय श्रृंखला का निर्माण जिसमें प्रत्येक तिथि के लिए कई अवलोकन शामिल हैं


11

मैं 3 साल प्रति तिमाही के साथ 10 साल की अवधि में त्रैमासिक नमूने डेटा (पशु बायोमास) के लिए एक समय श्रृंखला लागू करने की कोशिश कर रहा हूं। तो 40 दिनांक लेकिन 120 कुल अवलोकन।

मैं Shumway और Stoffer के टाइम सीरीज़ विश्लेषण में SARIMA'a तक पढ़ चुका हूं और यह एप्लीकेशन और साथ ही स्काईम्ड वुडवर्ड, et है। अल। एप्लाइड टाइम सीरीज विश्लेषण, और मेरी समझ प्रत्येक मॉडल समय श्रृंखला में प्रत्येक बिंदु पर एक अवलोकन पर आधारित है।

प्रश्न: मैं अपने मॉडल में प्रत्येक अवलोकन में भिन्नता कैसे शामिल कर सकता हूं? मैं माध्य पर एक श्रृंखला का निर्माण कर सकता था, लेकिन मैं प्रत्येक अवलोकन में भिन्नता को ढीला कर दूंगा और मुझे लगता है कि मेरी समझ के लिए महत्वपूर्ण है कि क्या हो रहा है।


SARIMA को बहुभिन्नरूपी मामले में बढ़ाया जा सकता है, जो आपके लिए उपयुक्त हो सकता है। इस मामले में कीवर्ड VAR है। इसका मतलब है कि आप प्रत्येक समयावधि के लिए एक संख्या के बजाय संख्याओं के वेक्टर का निरीक्षण करते हैं।
एमपिकेटस

जवाबों:


4

एक पैनल डेटा ( विकिपीडिया ) मॉडल "3 रेप्स प्रति तिमाही" से वास्तव में क्या मतलब है इसके आधार पर आप समझ सकते हैं। इसका मतलब यह होगा कि आप तीन चौथाई माप ले रहे हैं, प्रत्येक तीन अलग-अलग स्रोतों में से एक है जो समय के साथ समान रहते हैं। आपका डेटा कुछ इस तरह दिखाई देगा:

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5 

यदि यह वही है जो आप देख रहे हैं, तो पैनल डेटा के साथ काम करने के लिए कई मॉडल हैं। यहाँ एक अच्छी प्रस्तुति दी गई है जिसमें कुछ बुनियादी आर शामिल हैं जिन्हें आप पैनल डेटा को देखने के लिए उपयोग करेंगे। यह दस्तावेज़ एक अधिक गहराई में चला जाता है, एक अर्थमिति के दृष्टिकोण से।

हालाँकि, यदि आपका डेटा पैनल डेटा कार्यप्रणालियों के साथ बिल्कुल फिट नहीं है, तो "पूल किए गए डेटा" के लिए अन्य उपकरण उपलब्ध हैं। इस पत्र (पीडीएफ) से एक परिभाषा :

डेटा के पूलिंग का अर्थ है कई आबादी से संबंधित कई डेटा स्रोतों का उपयोग करके सांख्यिकीय विश्लेषण। इसमें सूचना की औसत, तुलना और सामान्य व्याख्या शामिल है। अलग-अलग परिदृश्य और समस्याएं भी इस बात पर निर्भर करती हैं कि इसमें शामिल डेटा स्रोत और आबादी समान / समान या अलग हैं।

जैसा कि आप देख सकते हैं, उस परिभाषा से, आप जिन तकनीकों का उपयोग करने जा रहे हैं, वे उस पर निर्भर होने जा रहे हैं जो आप वास्तव में अपने डेटा से सीखने की उम्मीद करते हैं।

अगर मैं आपको शुरू करने के लिए एक जगह का सुझाव दे रहा था, तो यह मानते हुए कि प्रत्येक तिमाही के लिए आपके तीन ड्रॉ समय के अनुरूप हैं, मैं कहूंगा कि एक निश्चित प्रभाव अनुमानक (जिसे अनुमानक के रूप में भी जाना जाता है) का उपयोग करके आपके पैनल डेटा मॉडल के साथ शुरुआत करें। डेटा।

ऊपर मेरे उदाहरण के लिए, कोड कुछ इस तरह दिखाई देगा:

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

जो हमें निम्न आउटपुट देता है:

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06 

यहां हम तिमाही चर पर गुणांक में समय के प्रभाव को स्पष्ट रूप से देख सकते हैं, साथ ही समूह बी या समूह सी में होने (समूह ए के विपरीत) के प्रभाव को भी देख सकते हैं।

आशा है कि यह आपको कहीं सही दिशा में इंगित करता है।


3

मुझे लगता है कि यह दिलचस्प है। मेरा सुझाव फिट होने के लिए एक चिकनी समय श्रृंखला प्राप्त करने के लिए तीन डेटा बिंदुओं को औसत करने के लिए होगा। जैसा कि आप इंगित करते हैं कि यदि आप यह अनदेखी करते हैं कि आपने तीन सूचनाओं का औसत निकाला है जो आप जानकारी फेंक रहे हैं। लेकिन हर बार बिंदु के लिए आप माध्य से वर्ग विचलन को जोड़ सकते हैं। सभी समयावधि में वर्गों के उन योगों को पूल करें और एन -1 से विभाजित करें जहां एन गणना में उपयोग किए जाने वाले अंकों की कुल संख्या है। यदि आपके पास समय श्रृंखला संरचना (उदाहरण के रुझान, मौसमी घटक, एआर निर्भरता संरचना) के साथ एक मॉडल है, तो यह गणना मॉडल में त्रुटि अवधि के विचरण का एक स्वतंत्र और निष्पक्ष अनुमान हो सकता है।


1
एक उपयोगी विचार के लिए +1 जो आसानी से निष्पादित और सैद्धांतिक रूप से मान्य है। एक छोटा सुधार, हालांकि: समय अवधि में मनाया गया मान होगा । विचरण का एक निष्पक्ष अनुमान या बजाय द्वारा सभी वर्ग विचलन के योग को विभाजित करेगा (या तो एक काफी अलग है और गलत है)। शायद एक व्यक्ति को समय के साथ अलग-अलग विचरण अनुमानों (एक समय अवधि) की साजिश करनी चाहिए, यह भी मूल्यांकन करने के लिए कि क्या यह उन सभी को इस तरह से पूल करने के लिए वैध है। एन 3 एन 2 एन एन - 1 3 एन - 13nn3n2nn13n1
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.