मासिक, दैनिक और साप्ताहिक डेटा कैसे मर्ज करें?


11

Google रुझान साप्ताहिक डेटा लौटाता है इसलिए मुझे अपने दैनिक / मासिक डेटा के साथ उन्हें मर्ज करने का एक तरीका खोजना होगा।

मैंने अभी तक जो भी किया है वह प्रत्येक सीरी को दैनिक डेटा में तोड़ना है, उदाहरण के लिए:

से:

2013-03-03 - 2013-03-09 37

सेवा:

2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37

लेकिन यह मेरी समस्या में बहुत अधिक जटिलता जोड़ रहा है। मैं पिछले 6 महीनों के मूल्यों या मासिक डेटा में 6 मानों से Google खोज की भविष्यवाणी करने की कोशिश कर रहा था। दैनिक डेटा 180 अतीत के मूल्यों पर एक काम होगा। (मेरे पास 10 साल का डेटा है इसलिए मासिक डेटा में 120 अंक / साप्ताहिक डेटा में 500+ / दैनिक डेटा में 3500+)

अन्य दृष्टिकोण साप्ताहिक / मासिक डेटा में दैनिक डेटा "मर्ज" करना होगा। लेकिन इस प्रक्रिया से कुछ सवाल उठते हैं। कुछ डेटा को औसत किया जा सकता है क्योंकि उनकी राशि कुछ का प्रतिनिधित्व करती है। उदाहरण के लिए, किसी दिए गए सप्ताह में बारिश की मात्रा प्रत्येक सप्ताह के लिए राशियों की राशि होगी जो सप्ताह की रचना करती है।

मेरे मामले में मैं कीमतों, वित्तीय दरों और अन्य चीजों के साथ काम कर रहा हूं। कीमतों के लिए मेरे क्षेत्र में आम तौर पर एक्सचेंज किए गए वॉल्यूम को लेना आम है, इसलिए साप्ताहिक डेटा एक औसत भार होगा। वित्तीय दरों के लिए यह कुछ अधिक जटिल है, कुछ सूत्र दैनिक दरों से साप्ताहिक दरों का निर्माण करने के लिए शामिल हैं। अन्य बातों के लिए मुझे अंतर्निहित गुणों का पता नहीं है। मुझे लगता है कि अर्थहीन संकेतक से बचने के लिए वे गुण महत्वपूर्ण हैं (औसतन औसत दर एक गैर-उदाहरण के लिए होगा)।

तो तीन सवाल:

ज्ञात और अज्ञात गुणों के लिए, मुझे दैनिक से साप्ताहिक / मासिक डेटा पर जाने के लिए कैसे आगे बढ़ना चाहिए?

मुझे लगता है कि साप्ताहिक / मासिक डेटा को दैनिक डेटा में तोड़ देना जैसे मैंने किया है, कुछ हद तक गलत है क्योंकि मैं उन राशियों का परिचय दे रहा हूं जिनका वास्तविक जीवन में कोई मतलब नहीं है। तो लगभग एक ही सवाल:

ज्ञात और अज्ञात गुणों के लिए, मुझे साप्ताहिक / मासिक से दैनिक डेटा तक जाने के लिए कैसे आगे बढ़ना चाहिए?

अंतिम लेकिन कम से कम: जब अलग-अलग समय चरणों के साथ दो समय श्रृंखला दी जाए, तो क्या बेहतर है: सबसे कम या सबसे बड़े समय कदम का उपयोग करना? मुझे लगता है कि यह डेटा की संख्या और मॉडल की जटिलता के बीच एक समझौता है, लेकिन मैं उन विकल्पों के बीच चयन करने के लिए कोई मजबूत तर्क नहीं देख सकता।

संपादित करें: यदि आप आसानी से करने के लिए एक उपकरण (आर पायथन यहां तक ​​कि एक्सेल में) जानते हैं तो यह बहुत सराहनीय होगा।


अजगर के लिए, मानक उपकरण पांडा है। यह विशेष रूप से वित्तीय डेटा समय से निपटने के लिए डिज़ाइन किया गया था। पांडा
काल

"अज्ञात संपत्ति" से आपका क्या मतलब है, इस पर थोड़ा विस्तार करने की देखभाल करें?
द ग्रीमस्मिंटिस्ट

जवाबों:


8

जब अलग-अलग समय चरणों के साथ दो समय श्रृंखला दी जाती है, तो बेहतर क्या है: सबसे कम या सबसे बड़े समय का उपयोग करना?

अपने समय विश्लेषण के लिए आपको दोनों करना चाहिए: दैनिक डेटासेट के साथ उच्चतम संभवता प्राप्त करें, और मासिक डेटासेट के साथ विश्लेषण भी दोहराएं। मासिक डेटासेट के साथ आपके पास 120 डेटा पॉइंट होते हैं, जो आपके डेटा में सीज़निटी के साथ भी एक टाइमरीज़ मॉडल प्राप्त करने के लिए पर्याप्त है।

ज्ञात और अज्ञात गुणों के लिए, मुझे दैनिक से साप्ताहिक / मासिक डेटा पर जाने के लिए कैसे आगे बढ़ना चाहिए?

दैनिक डेटा से साप्ताहिक या मासिक डेटा प्राप्त करने के लिए, आप स्मूथिंग फ़ंक्शंस का उपयोग कर सकते हैं। वित्तीय डेटा के लिए, आप मूविंग एवरेज या एक्सपोनेंशियल स्मूथिंग का उपयोग कर सकते हैं, लेकिन यदि वे आपके डेटा के लिए काम नहीं करते हैं, तो आप R: https://stat.ethz.ch/R में स्पलाइन स्मूथिंग फंक्शन "smooth.spline" का उपयोग कर सकते हैं। -manual / आर-समझौता / पुस्तकालय / आँकड़े / html / smooth.spline.html

लौटाए गए मॉडल में मूल दैनिक डेटासेट की तुलना में कम शोर होगा, और आप वांछित समय बिंदुओं के लिए मान प्राप्त कर सकते हैं। अंत में, इन डेटा बिंदुओं का उपयोग आपके समय विश्लेषण में किया जा सकता है।

ज्ञात और अज्ञात गुणों के लिए, मुझे साप्ताहिक / मासिक से दैनिक डेटा तक जाने के लिए कैसे आगे बढ़ना चाहिए?

मासिक या साप्ताहिक डेटा होने पर दैनिक डेटा प्राप्त करने के लिए, आप प्रक्षेप का उपयोग कर सकते हैं। सबसे पहले, आपको डेटा का वर्णन करने के लिए एक समीकरण ढूंढना चाहिए। ऐसा करने के लिए आपको डेटा प्लॉट करना चाहिए (जैसे समय के साथ कीमत)। जब कारकों को आप के लिए जाना जाता है, तो यह समीकरण उन कारकों से प्रभावित होना चाहिए। जब कारक अज्ञात होते हैं, तो आप सबसे अच्छा फिट समीकरण का उपयोग कर सकते हैं। सबसे सरल एक रैखिक कार्य या टुकड़े-टुकड़े रैखिक कार्य होगा, लेकिन वित्तीय आंकड़ों के लिए यह अच्छी तरह से काम नहीं करेगा। उस मामले में, आपको टुकड़ा-टुकड़ा क्यूबलाइन अंतर प्रक्षेप पर विचार करना चाहिए। यह लिंक संभावित प्रक्षेप कार्यों पर अधिक विस्तार में जाता है: http://people.math.gatech.edu/~meyer/MA6635/chap2.pdf

आर में, टाइमसीज़ डेटा के प्रक्षेप करने के लिए एक विधि है। यहाँ आप दैनिक मानों के लिए अंतराल में साप्ताहिक मान और NA मान के साथ एक वेक्टर बनाएँगे, और फिर NA के लिए प्रक्षेपित मान प्राप्त करने के लिए "इंटरपना" फ़ंक्शन का उपयोग करेंगे। हालांकि, यह फ़ंक्शन प्रक्षेपित मान प्राप्त करने के लिए "लगभग" फ़ंक्शन का उपयोग करता है, जो कि एक रैखिक या निरंतर प्रक्षेप पर लागू होता है। R में क्यूब स्पिंक इंटरपोलेशन करने के लिए, आपको इसके बजाय "स्पलाइनफुन" फ़ंक्शन का उपयोग करना चाहिए।

कुछ के बारे में पता है कि समय मॉडल आमतौर पर भविष्य के मूल्यों का अनुमान लगाने के लिए औसत के कुछ प्रकार करते हैं चाहे आप घातीय चौरसाई या ऑटो-रिजेक्टिव इंटीग्रेटेड मूविंग एवरेज (एआरआईएमए) तरीकों को दूसरों के बीच देख रहे हों। इसलिए दैनिक मूल्यों का अनुमान लगाने का एक समय मॉडल सबसे अच्छा विकल्प नहीं हो सकता है, लेकिन साप्ताहिक या मासिक मॉडल बेहतर हो सकते हैं।


एक व्यावहारिक जवाब लगता है। निश्चित नहीं है कि यह मध्यस्थता के कारण वित्तीय समय श्रृंखला पर लागू होता है।
lcrmorin

मुझे लगता है कि आपके सवालों के जवाब अभी भी मान्य हैं। आने वाले समय के मॉडल के लिए आप ARCH (AutoRegressive Conditional Heteroskedasticity) मॉडल देखना चाह सकते हैं।

जब आप वित्तीय समय श्रृंखला में उदाहरण के तौर पर क्यूब स्पलाइन का उपयोग करते हुए प्रक्षेपित करते हैं, तो क्या आप फॉरवर्ड-लुक पूर्वाग्रह का परिचय नहीं देंगे? मुझे लगता है कि यह मशीन-सीखने वाले मॉडल के लिए लागू करने के लिए विशेष रूप से महत्वपूर्ण हो सकता है?
tsando

5

मैं इस क्षेत्र का विशेषज्ञ नहीं हूं, लेकिन मेरा मानना ​​है कि आपका सवाल समय श्रृंखला एकत्रीकरण और असहमति से जुड़ा है । अगर ऐसा है, तो यहां कुछ उम्मीद के मुताबिक प्रासंगिक संसाधन हैं, जो आपकी समस्या को हल करने में मददगार हो सकते हैं (पहले पांच आइटम मुख्य हैं, लेकिन प्रतिनिधि, और अंतिम दो पूरक हैं):


2

यह बहुत संतोषजनक जवाब नहीं होगा, लेकिन यहाँ मेरा लेना है ...

ज्ञात और अज्ञात गुणों के लिए, मुझे दैनिक से साप्ताहिक / मासिक डेटा पर जाने के लिए कैसे आगे बढ़ना चाहिए?

ज्ञात और अज्ञात गुणों के लिए, मुझे साप्ताहिक / मासिक से दैनिक डेटा तक जाने के लिए कैसे आगे बढ़ना चाहिए?

दोनों के लिए समान उत्तर: आप अज्ञात गुणों के लिए ऐसा नहीं कर सकते, और ज्ञात गुणों के लिए यह निर्भर करेगा कि मूल्यों की गणना कैसे की गई थी।

जैसा कि आपने बताया:

(औसत दर्जे की दर उदाहरण के लिए एक गैर-भावना होगी)

कोई एकल परिवर्तन नहीं है जो सभी मामलों में उचित होगा, चाहे गुण / मान ज्ञात हों या अज्ञात। ज्ञात गुणों के साथ भी, आपको प्रत्येक प्रकार के लिए एक अद्वितीय परिवर्तन की आवश्यकता होगी: माध्य, मोड, न्यूनतम, अधिकतम, बूलियन, आदि।

जब अलग-अलग समय चरणों के साथ दो समय श्रृंखला दी जाती है, तो बेहतर क्या है: सबसे कम या सबसे बड़े समय का उपयोग करना?

जब भी संभव हो, छोटे से छोटे संभव कदम की पूरी बारीकियों को संरक्षित करने का प्रयास करें। आप मान लेते हैं कि मूल्यों को कैसे बदलना है, आप हमेशा चरणों को रोल-अप कर सकते हैं (जैसे, दिन से महीने, महीने से साल तक) ... लेकिन आप जरूरी नहीं कि किसी छोटे रूपांतरण से बड़े कदमों को फिर से जोड़ सकें। ।


2

ज्ञात और अज्ञात गुणों के लिए, मुझे दैनिक से साप्ताहिक / मासिक डेटा पर जाने के लिए कैसे आगे बढ़ना चाहिए?

एकत्रीकरण।

उदाहरण के लिए, आपके पास हर दिन 'विजेट' के लिए खोजे जाने वाले लोगों की संख्या होती है। मासिक योग प्राप्त करने के लिए एक महीने के लिए दैनिक योग जोड़ें। आपको और अधिक पूर्ण संस्करण देने के लिए मुझे प्रत्येक ग्रेन्युलैरिटी में एकत्रित वास्तविक डेटा के बारे में अधिक विवरण देखने की आवश्यकता होगी।

ज्ञात और अज्ञात गुणों के लिए, मुझे साप्ताहिक / मासिक से दैनिक डेटा तक जाने के लिए कैसे आगे बढ़ना चाहिए?

आप नहीं कर सकते।

भौतिकी में, एक तुलनीय विचार Nyquist आवृत्ति है । सामान्य विचार यह है कि आप अधिक डेटा में लाए बिना अपने डेटा में पहले से मौजूद जानकारी से अधिक जानकारी नहीं जोड़ सकते। केवल उस दिन जब किसी ने एक क्वेरी चलाई, आप यह कैसे बता सकते हैं कि उस क्वेरी को किस दिन चलाया गया था? आप कुछ अनुमान लगाने में सक्षम हो सकते हैं, लेकिन सवाल का जवाब देने का एकमात्र तरीका प्रत्यक्ष या अप्रत्यक्ष रूप से सिस्टम में अधिक जानकारी लाना है। मासिक चर की दैनिक स्थिति (जैसा कि उल्लेख किया गया है, प्रक्षेप) के बारे में सूचित अनुमान लगाने के लिए आप कुछ चीजें कर सकते हैं, लेकिन दैनिक रूप से देखने के लिए आपका डेटा अभी भी मौलिक मासिक डेटा फैला हुआ है।

जब अलग-अलग समय चरणों के साथ दो समय श्रृंखला दी जाती है, तो बेहतर क्या है: सबसे कम या सबसे बड़े समय का उपयोग करना?

यह पूरी तरह से इस बात पर निर्भर करता है कि आप क्या जवाब देना चाहते हैं।

शोर और अन्य विसंगतियों के लिए छोटी ग्रेन्युलैरिटी अधिक संवेदनशील होगी। लेगर ग्रैन्युलैरिटी सवालों का जवाब अधिक आत्मविश्वास के साथ दे पाएगी, लेकिन इसकी उपयोगिता कुछ ढीली है। उदाहरण के लिए, यदि आप यह देखने की कोशिश कर रहे हैं कि नए नाइट क्लब के लिए मार्केटिंग अभियान कब शुरू करना है, यह जानने के लिए लोग सप्ताहांत की योजनाएं शुरू करना चाहते हैं, तो आप दैनिक डेटा को देखना चाहेंगे, यदि वह छोटा नहीं है। यदि आप नाइट क्लबों के सामान्य ट्रेंडिंग को देख रहे हैं, तो यह पता लगाने के लिए कि आप किस में निवेश करना चाहते हैं, तो मासिक बेहतर होगा।


2

डेट सेगमेंट के आधार पर डेटा को एकत्रित करने में सक्षम होने के नाते, तालबेऊ सॉफ्टवेयर का उपयोग करके केक का एक टुकड़ा है। आप बस अपने डेटा को टूल में प्लग करेंगे, और फिर आप रिपोर्ट बॉडी स्पेस पर मीट्रिक और दिनांक दोनों आयामों को खींच और छोड़ सकते हैं। झांकी तुरंत उड़ान पर समग्र दृश्यों और / या विस्तार डेटा टेबल कोड़ा जाएगा। आप वर्ष, तिमाही, महीने, सप्ताह, दिन, घंटे आदि द्वारा समूह / योग कर सकते हैं (मानक, उपकरण द्वारा दी गई बॉक्स कार्यक्षमता से बाहर बनाया गया)

इसके अलावा, यदि आप बाद में अतिरिक्त डेटा को शामिल करना चाहते थे (जो मुझे लगता है कि आप 'अज्ञात गुणों' से क्या मतलब है), तो आप एक और डेटा सेट आयात कर सकते हैं और आसानी से इसे पहले एक पर जोड़ सकते हैं, जब तक कि यह तारीखें भी प्रदान करता है।

मैं मुफ्त संस्करण की जांच करने की सलाह दूंगा, जो मुझे लगता है कि झांकी सार्वजनिक कहा जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.