समय श्रृंखला सेट की तुलना


10

मेरे पास समय-श्रृंखला डेटा के तीन सेट हैं जिनकी मैं तुलना करना चाहता हूं। उन्हें लगभग 12 दिनों के 3 अलग-अलग समय पर लिया गया है। वे फाइनल हफ़्ते के दौरान एक कॉलेज की लाइब्रेरी में लिए गए हेड काउंट्स का औसत, अधिकतम और न्यूनतम हैं। मुझे औसत, अधिकतम और मिनट करना पड़ा क्योंकि प्रति घंटा सिर की गिनती निरंतर नहीं थी ( एक समय श्रृंखला में नियमित डेटा अंतराल देखें )।

अब डेटा सेट इस तरह दिखता है। प्रति शाम एक डेटा बिंदु (औसत, अधिकतम या मिनट) 12 शाम के लिए होता है। 3 सेमेस्टर हैं जिनके लिए डेटा लिया गया था, केवल 12-दिनों की अवधि में चिंता का विषय था। उदाहरण के लिए, स्प्रिंग 2010, फॉल 2010 और मई 2011 में प्रत्येक में 12 अंकों का एक सेट है। यहां एक उदाहरण चार्ट दिया गया है:

यहां छवि विवरण दर्ज करें

मैंने सेमेस्टर पर काबू पा लिया है क्योंकि मैं देखना चाहता हूं कि सेमेस्टर से सेमेस्टर में पैटर्न कैसे बदलते हैं। हालांकि, जैसा कि मुझे लिंक किए गए धागे में बताया गया है , यह सेमेस्टर टेल-टू-हेड को थप्पड़ मारने के लिए एक अच्छा विचार नहीं है क्योंकि बीच में कोई डेटा नहीं है।

सवाल यह है: प्रत्येक सेमेस्टर के लिए उपस्थिति के पैटर्न की तुलना करने के लिए मैं किस गणितीय तकनीक का उपयोग कर सकता हूं? क्या समय-श्रृंखला के लिए कुछ विशेष है जो मुझे करना चाहिए, या क्या मैं केवल प्रतिशत अंतर ले सकता हूं? मेरा लक्ष्य यह कहना है कि इन दिनों पुस्तकालय उपयोग ऊपर या नीचे जा रहा है; मुझे यकीन नहीं है कि मुझे इसे दिखाने के लिए किस तकनीक (ओं) का उपयोग करना चाहिए।

जवाबों:


8

फिक्स्ड-प्रभाव एनोवा (या इसके रैखिक प्रतिगमन समकक्ष) इन आंकड़ों का विश्लेषण करने के लिए तरीकों का एक शक्तिशाली परिवार प्रदान करता है। स्पष्ट करने के लिए, यहां एक माईक प्रति शाम एचसी के भूखंडों (रंग प्रति एक भूखंड) के अनुरूप है।)

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

इस तालिका का countविरोध dayऔर colorनिर्माण करता है:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

model0.0000 शो फिट की पी-मूल्य अत्यधिक महत्वपूर्ण है। day0.0000 के पी-मूल्य भी अत्यंत महत्वपूर्ण है: आप दिन परिवर्तन करने के लिए दिन पता लगा सकते हैं। हालाँकि, color0.2001 के (सेमेस्टर) पी-मूल्य को महत्वपूर्ण नहीं माना जाना चाहिए: आप तीन सेमेस्टर के बीच एक व्यवस्थित अंतर का पता नहीं लगा सकते हैं, यहां तक ​​कि दिन-प्रतिदिन के बदलाव के लिए नियंत्रित करने के बाद भी।

Tukey का HSD ("ईमानदार महत्वपूर्ण अंतर") परीक्षण 0.05 स्तर पर दिन-प्रतिदिन के साधनों (सेमेस्टर की परवाह किए बिना) में निम्नलिखित महत्वपूर्ण परिवर्तनों (दूसरों के बीच) की पहचान करता है:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

यह इस बात की पुष्टि करता है कि रेखांकन में आंख क्या देख सकती है।

क्योंकि रेखांकन काफी घूमता है, इसलिए दिन-प्रतिदिन के सहसंबंधों (क्रमिक सहसंबंध) का पता लगाने का कोई तरीका नहीं है, जो समय श्रृंखला विश्लेषण का संपूर्ण बिंदु है। दूसरे शब्दों में, समय श्रृंखला तकनीकों से परेशान न हों: किसी भी अधिक जानकारी प्रदान करने के लिए उनके लिए यहां पर्याप्त डेटा नहीं है।

किसी को हमेशा आश्चर्य होना चाहिए कि किसी सांख्यिकीय विश्लेषण के परिणामों पर कितना विश्वास करना चाहिए। विषमलैंगिकता के लिए विभिन्न निदान (जैसे कि ब्रेस्च-पैगन परीक्षण ) कुछ भी अप्रिय नहीं दिखाते हैं। अवशिष्ट बहुत सामान्य नहीं लगते हैं - वे कुछ समूहों में टकराते हैं - इसलिए सभी पी-वैल्यू को नमक के दाने के साथ लेना पड़ता है। फिर भी, वे उचित मार्गदर्शन प्रदान करते हैं और उन आंकड़ों की मात्रा निर्धारित करने में मदद करते हैं जो हम ग्राफ़ को देखकर प्राप्त कर सकते हैं।

आप दैनिक मिनिमा या दैनिक मैक्सिमा पर एक समानांतर विश्लेषण कर सकते हैं। एक गाइड के रूप में एक समान भूखंड से शुरू करना और सांख्यिकीय आउटपुट की जांच करना सुनिश्चित करें।


+1, सरल लेकिन शक्तिशाली तकनीकों के प्रदर्शन के लिए। मैं सबसे अधिक उत्सुक हूं, हालांकि आपने ग्राफ़ से मूल्यों को निकालने का प्रबंधन कैसे किया? कुछ सॉफ्टवेयर, या छात्र के साथ बुरा बर्ताव करने की सजा? :)
एमपिकेटस

1
@ मैं ग्राफिक के एक स्क्रीनशॉट के शीर्ष पर डिजिटाइज़ अंक, जीआईएस सॉफ्टवेयर के साथ अपने निर्देशांक निकाले, निर्देशांक को एक स्प्रेडशीट के साथ बदल दिया, फिर इसे एक आँकड़े पैकेज में आयात किया। इसमें कुछ ही मिनट लगते हैं। यह विधि तब आसान हो सकती है जब आपके पास एकमात्र डेटा चार्ट या मानचित्र के रूप में हो।
whuber

@ जब तक शांत! मुझे इसकी जानकारी नहीं थी।
सनकूलसु

@ जब मुझे आश्चर्य होता है कि 36 स्वतंत्र टिप्पणियों की तुलना में 12 आटोक्लेरेटेड रीडिंग के 3 सेटों का क्या प्रभाव है। मुझे लगता है कि वास्तव में हमारे पास पार्सल आउट करने की स्वतंत्रता की 35 डिग्री नहीं है। आप जिन संभावनाओं को दर्शाते हैं, वे एक गैर-केंद्रीय ची-वर्ग चर के अनुपात पर एक केंद्रीय ची-वर्ग चर पर आधारित हैं। क्या वहां कुछ ऐसा है, जिसकी कमी मुझे यहां खल रही है? प्लॉट से नंबर निकालने का अच्छा काम। क्या कोई विशेष कार्यक्रम है जिसे आप इस संबंध में हमारी सहायता करने के लिए संदर्भित कर सकते हैं।
आयरिशस्टैट

1
@Irish Let एक दिन और के लिए हो सकता है इसका मतलब (रंग के अलावा) किसी अन्य के लिए मतलब। मैं मानती हूं कि समलैंगिकता; वह है, ( अज्ञात)। वांछित तुलना ("उपयोग ... ऊपर या नीचे जा रहा है") परीक्षण करता है कि क्या । सहसंबंध के बिना, । और बीच सहसंबंध साथ , । जब , विचरण वास्तव में एनोवा मॉडल में ग्रहण किए जाने से कम है। नतीजतन, टी-सांख्यिकी, एफ-आँकड़े, और टुकी एचएसडी सभी अधिक होना चाहिएवाई वी एक आर ( एक्स ) = वी एक आर ( y ) = σ 2 σ एक्स - y = 0 वी एक आर ( एक्स - y ) = 2 σ 2 ρ एक्स वाई वी एक आर ( एक्स - y ) = 2 ( 1 - ρ ) σ 2 ρ > 0xyVar(x)=Var(y)=σ2σxy=0Var(xy)=2σ2ρxyVar(xy)=2(1ρ)σ2ρ>0महत्वपूर्ण से वे दिखाई देते हैं।
whuber

0

सारा, अपने 36 नंबर (चक्र प्रति 12 मान; 3 चक्र) लें और 11 संकेतकों के साथ एक प्रतिगमन मॉडल का निर्माण करें जो संभव सप्ताह-सेमेस्टर प्रभाव को दर्शाता है और फिर रेंडर करने के लिए आवश्यक किसी भी आवश्यक हस्तक्षेप श्रृंखला (दलहन, स्तर बदलाव) की पहचान करें। अवशिष्टों का अर्थ है 0.0 हर जगह या कम से कम सांख्यिकीय रूप से 0.0 से बहुत अलग नहीं है। उदाहरण के लिए, यदि आप 13 की अवधि में एक स्तर की शिफ्ट की पहचान करते हैं, तो यह पिछले दो सेमेस्टर (पिछले 24 मूल्यों) के माध्यम से पहले सेमेस्टर के अर्थ के बीच सांख्यिकीय रूप से महत्वपूर्ण अंतर हो सकता है। आप सेमेस्टर प्रभाव के सप्ताह के किसी भी सप्ताह की परिकल्पना पर निष्कर्ष निकालने या परीक्षण करने में सक्षम हो सकते हैं। एक अच्छा समय श्रृंखला पैकेज इस संबंध में आपके लिए उपयोगी हो सकता है। इस विश्लेषणात्मक क्षेत्र में सहायता प्रदान करने के लिए आपको किसी को खोजने की आवश्यकता हो सकती है।


1
यह दो-तरफ़ा एनोवा (चक्रों द्वारा दिन) के विवरण की तरह लगता है, इसके बाद 11 दिनों के जोड़े के नियोजित परीक्षण होते हैं। सादा पुराने आँकड़े सॉफ्टवेयर विशेष समय श्रृंखला सॉफ्टवेयर की तुलना में अधिक लचीला और शक्तिशाली होने की संभावना है; यह निश्चित रूप से आसान होगा। BTW, सूचकांक दिन हैं (परीक्षा अवधि में), सेमेस्टर का सप्ताह नहीं।
whuber

क्या मैं प्रति दिन अधिकतम और न्यूनतम की तुलना करने के लिए एनोवा का उपयोग कर सकता हूं? या यह केवल साधनों पर लागू होता है?
20-28 को induvidyul

@ सरहा यह मिनीमा और मैक्सिमा पर लागू हो सकता है। हालांकि, वे आंकड़े साधनों की तुलना में बहुत अधिक परिवर्तनशील होते हैं, इसलिए यह कम संभावना है कि आप समय के साथ या सेमेस्टर के बीच उनमें परिवर्तन का पता लगा पाएंगे। आप ग्राफ यह स्पष्ट करते हैं कि साधन काफी भिन्न होते हैं। यदि आप दिन के घंटे को शामिल करके और अपने दैनिक साधनों के बजाय मूल घंटे की गणना का उपयोग करके एनोवा को तीन-तरफा बना सकते हैं ।
whuber

@ वाउचर: मुझे बताया गया है कि प्रति घंटा डेटा को एक साथ जोड़ना संभव नहीं है, क्योंकि वे केवल सुबह 12 बजे से सुबह 6 बजे तक रिकॉर्ड किए गए हैं। मेरे पिछले प्रश्न को देखें टाइम श्रृंखला में नियमित डेटा अंतराल
induvidyul

@ सरहा मैं कुछ अलग बात कर रहा हूं: तीन कारकों के संदर्भ में निर्भरता को मॉडल करें: अवधि (उनमें से 3), दिन में अवधि (उनमें से 12), और दिन के घंटे (उनमें से 6)। आप घंटों के बीच सहसंबंधों का भी हिसाब लगा सकते हैं, लेकिन यह आपके उद्देश्यों के लिए आवश्यक नहीं हो सकता है। भले ही, मैं प्रत्येक अवधि को 12 * 24 काउंट की बाधित श्रृंखला के रूप में देखने की वकालत नहीं कर रहा हूं : बहुत अधिक लापता डेटा हैं।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.