/ Lags और समय श्रृंखला के साथ कई रैखिक प्रतिगमन के बीच "यांत्रिक" अंतर क्या है?


14

मैं व्यवसाय और अर्थशास्त्र से स्नातक हूं जो वर्तमान में डेटा इंजीनियरिंग में मास्टर डिग्री के लिए अध्ययन कर रहा है। रैखिक प्रतिगमन (LR) और फिर समय श्रृंखला विश्लेषण (TS) का अध्ययन करते समय, एक प्रश्न मेरे दिमाग में कौंध गया। एक से अधिक रैखिक प्रतिगमन का उपयोग करने के बजाय (ACF और PACF का उपयोग करके निर्धारित अंतराल के आदेश) को जोड़ने के बजाय, एक पूरी नई विधि, यानी, टाइम सीरीज़ (ARIMA) क्यों बनाएं? तो शिक्षक ने सुझाव दिया कि मैं इस मुद्दे के बारे में थोड़ा निबंध लिखता हूं। मैं खाली हाथ मदद की तलाश में नहीं आता, इसलिए मैंने इस विषय पर अपना शोध किया।

मुझे पहले से ही पता था कि एलआर का उपयोग करते समय, यदि गॉस-मार्कोव मान्यताओं का उल्लंघन किया जाता है, तो ओएलएस प्रतिगमन गलत है, और यह तब होता है जब समय सीरीज़ डेटा (ऑटोकैरेलेशन, आदि) का उपयोग किया जाता है। (इस पर एक और सवाल, एक जीएम धारणा यह है कि स्वतंत्र चर को सामान्य रूप से वितरित किया जाना चाहिए? या स्वतंत्र लोगों के लिए केवल निर्भर चर सशर्त?)

मुझे यह भी पता है कि वितरित लैग रिग्रेशन का उपयोग करते समय, जो कि मुझे लगता है कि मैं यहां प्रस्ताव कर रहा हूं, और मापदंडों का अनुमान लगाने के लिए ओएलएस का उपयोग कर रहा हूं, चर (स्पष्ट रूप से) के बीच मल्टीकोलिनरिटी उत्पन्न हो सकती है, इसलिए अनुमान गलत होगा।

एक में टीएस और एलआर के बारे में इसी तरह की पोस्ट यहाँ, @IrishStat ने कहा:

... एक प्रतिगमन मॉडल एक स्थानांतरण फ़ंक्शन मॉडल का एक विशेष मामला है जिसे डायनेमिक प्रतिगमन मॉडल या XARMAX मॉडल के रूप में भी जाना जाता है। मुख्य बिंदु यह है कि टाइम सीरीज़ में मॉडल की पहचान यानी उचित अंतर, एक्स के उपयुक्त लैग्स, उपयुक्त एआरआईएमए संरचना, अनिर्दिष्ट निर्धारक संरचना जैसे पल्सेस, लेवल शिफ्ट्स, लोकल टाइम ट्रेंड्स, सीज़नल पल्सेस, और निगमन की उपयुक्त पहचान मापदंडों या त्रुटि भिन्नता में परिवर्तन पर विचार किया जाना चाहिए।

(मैं बॉक्स जेनकींस बनाम एलआर के बारे में ऑटोबॉक्स में उनका पेपर भी पढ़ता हूं।) लेकिन यह अभी भी मेरे सवाल को हल नहीं करता है (या कम से कम यह मेरे लिए आरएल और टीएस के विभिन्न यांत्रिकी को स्पष्ट नहीं करता है)।

यह स्पष्ट है कि पिछड़े हुए चर के साथ भी ओएलएस की समस्याएँ उत्पन्न होती हैं और यह न तो कुशल है और न ही सही, लेकिन अधिकतम संभावना का उपयोग करते समय, क्या ये समस्याएं बनी रहती हैं? मैंने पढ़ा है कि ARIMA अधिकतम संभावना के माध्यम से अनुमानित है, इसलिए यदि OLS के बजाय ML के साथ lags का अनुमान है, तो क्या यह "सही" गुणांक उत्पन्न करता है (मान लें कि हम लैग्ड त्रुटि शर्तों के साथ-साथ एमए के आदेश भी शामिल हैं) क्यू)।

संक्षेप में, समस्या OLS है? क्या समस्या को हल करने में एमएल लागू है?


4
जॉन मेनार्ड कीन्स के साथ वहां का नाता।
निक कॉक्स

हाय @NickCox, हाँ, वह मेरे fav अर्थशास्त्री हैं, मुझे लगता है कि वह एक अद्भुत व्यक्ति थे और कई मायनों में बेहद प्रतिभाशाली थे ... मेरे सवाल पर कोई मदद? मैं यह पता लगाने की कोशिश कर रहा हूं कि ओएलएस आकलन के साथ लैग्ड मॉडल काम क्यों नहीं है, और अगर यह अधिकतम संभावना अनुमान के साथ सही ढंग से अनुमान लगाएगा। मैं समझता हूं कि सबसे अच्छा मॉडल एक ट्रांसफर फ़ंक्शन है, और इस समय मैं इसका अध्ययन कर रहा हूं। लेकिन सैद्धांतिक सवाल अभी भी OLS के बारे में है। यदि कोई ऑटोकैरेलेशन मौजूद नहीं था, तो लैग्स इसे खत्म कर देता है (यह भी मान लें कि मल्टीकोल मौजूद नहीं है), क्या यह काम करेगा? या अभी भी और अंतर्निहित है
मिगुएल एम।

@ नाइकॉक्स ... गॉसियन मान्यताओं का प्रभाव / उल्लंघन जो ओएलएस के साथ काम नहीं कर सकता है और जिसे इस पद्धति से फिट नहीं किया जा सकता है? जैसा कि आप देख सकते हैं कि मैं इसके साथ थोड़ा सा खो गया हूं, अगर इसका उत्तर देने के लिए बहुत लंबा है, तो कृपया अगर आप कुछ व्याख्यान दे सकते हैं जो मुझे पसंद आ सकता है, तो मैं भी सराहना करूंगा
मिगेल एम।

1
यांत्रिकी के संदर्भ में मुझे सुझाव देते हैं कि उपयोगकर्ता द्वारा सुझाए गए ARMA मॉडल (उचित रूप से भिन्न) X चर गैर-स्थिरता को दर्शाता है। यदि फ़िल्टर BOTH के लिए उचित रूप से भिन्न श्रृंखला में लागू होता है, तो श्रृंखला के परिणामी युग्म को अक्सर क्रॉस-सहसंबंध प्रक्रियाओं के माध्यम से अध्ययन किया जा सकता है। एक सुझाए गए अंतराल संरचना (समझ) की उपज। इस अंतराल संरचना को तब अनिर्दिष्ट / पृष्ठभूमि श्रृंखला (अस्थायी त्रुटि प्रक्रिया) के बारे में सुझाव देने के लिए उचित रूप से भिन्न मूल श्रृंखला पर लागू किया जा सकता है। इस त्रुटि प्रक्रिया के बाद उपयुक्त ARMA उपज के लिए अध्ययन किया जा सकता है।
आयरिशस्टैट

@IrishStat तो कृपया मुझे वही बताएं जो आपने अभी कहा है। हमारे पास निर्भर चर Yt और स्वतंत्र चर Xt है, हम दोनों Yt और Xt में अंतर करते हैं जब तक कि हम दोनों में स्थिरता नहीं है, और फिर हम अंतराल संरचना का पता लगाने के लिए क्रॉस सहसंबंध समारोह लागू कर सकते हैं। बाद में हम Yt को Xt में पुनः प्राप्त करते हैं और हम एरर टर्म का अध्ययन करते हैं। यदि हमें त्रुटि अवधि में ARMA संरचना मिलती है, तो हम इसे तब तक मॉडल में लागू करते हैं जब तक कि हमारे पास सफेद शोर नहीं है, सही है? लेकिन, मेरा सवाल अभी भी है कि क्या ओएलएस के माध्यम से अंतिम मॉडल फिट किया गया है? यदि नहीं, तो क्यों नहीं, और हम किस विधि का उपयोग करते हैं?
मिगुएल एम।

जवाबों:


9

कई लीनियर रिग्रेशन का उपयोग करने और इसमें लैग्ड वैरिएबल्स को जोड़ने के बजाय (ACF और PACF के उपयोग से निर्धारित लैग के आदेश के साथ) एक पूरी नई विधि, यानी, टाइम सीरीज़ (ARIMA) का निर्माण क्यों करें?

एक तात्कालिक बिंदु यह है कि एक रेखीय प्रतिगमन केवल अवलोकन किए गए चर के साथ काम करता है जबकि एआरआईएमए चलती औसत भाग में अप्रयुक्त चर शामिल करता है; इस प्रकार, ARIMA एक तरह से अधिक लचीला या अधिक सामान्य है। एआर मॉडल को रेखीय प्रतिगमन मॉडल के रूप में देखा जा सकता है और इसके गुणांक का अनुमान ओएलएस का उपयोग करके लगाया जा सकता है; Β हे एल एस = ( एक्स ' एक्स ) - 1 एक्स ' y जहां एक्स निर्भर चर कि कर रहे हैं के अंतराल के होते मनाया । इस बीच, एमए या एआरएमए मॉडल ओएलएस फ्रेमवर्क में फिट नहीं होते हैं क्योंकि कुछ चर, जैसे कि त्रुटि त्रुटि, अप्रतिबंधित हैंβ^OLS=(XX)1XyX, और इसलिए ओएलएस का अनुमान लगाने योग्य है।

एक जीएम धारणा यह है कि स्वतंत्र चर को सामान्य रूप से वितरित किया जाना चाहिए? या सिर्फ स्वतंत्र लोगों के लिए निर्भर चर सशर्त?

सामान्य धारणा को कभी-कभी मॉडल त्रुटियों के लिए आमंत्रित किया जाता है, न कि स्वतंत्र चर के लिए। हालांकि, ओएलएस अनुमानक की स्थिरता और दक्षता के लिए न तो सामान्यता की आवश्यकता होती है और न ही गॉस-मार्कोव प्रमेय को धारण करने की। गॉस-मार्कोव प्रमेय पर विकिपीडिया लेख स्पष्ट रूप से बताता है कि "त्रुटियों को सामान्य होने की आवश्यकता नहीं है"।

चर (स्पष्ट रूप से) के बीच बहुरंगीता उत्पन्न हो सकती है, इसलिए अनुमान गलत होगा।

मल्टीकोलिनरिटी की एक उच्च डिग्री का अर्थ है ओएलएस अनुमानक का फुलाया हुआ विचरण। हालाँकि, जब तक मल्टीकोलिनरिटी सही नहीं होती है, तब तक OLS आकलनकर्ता BLUE होता है। इस प्रकार आपका कथन सही नहीं लगता है।

यह स्पष्ट है कि पिछड़े हुए चर के साथ भी ओएलएस की समस्याएँ उत्पन्न होती हैं और यह न तो कुशल है और न ही सही, लेकिन अधिकतम संभावना का उपयोग करते समय, क्या ये समस्याएं बनी रहती हैं?

एक एआर मॉडल का अनुमान ओएलएस और एमएल दोनों का उपयोग करके लगाया जा सकता है; ये दोनों विधियाँ सुसंगत अनुमानक देती हैं। एमएएस और एआरएमए मॉडल का अनुमान ओएलएस द्वारा नहीं लगाया जा सकता है, इसलिए एमएल मुख्य विकल्प है; फिर से, यह सुसंगत है। अन्य दिलचस्प संपत्ति दक्षता है, और यहां मैं पूरी तरह से निश्चित नहीं हूं (लेकिन स्पष्ट रूप से जानकारी कहीं उपलब्ध होनी चाहिए क्योंकि सवाल बहुत मानक है)। मैं "शुद्धता" पर टिप्पणी करने की कोशिश करूंगा, लेकिन मुझे यकीन नहीं है कि आप इसका क्या मतलब है।


हाय श्री हार्डी, उत्तर के लिए बहुत बहुत धन्यवाद। मनाया बनाम गैर-मनाया मूल्यों के संबंध में, बस संक्षेप में। ARIMA और समय श्रृंखला (अधिक विशेष रूप से XARIMAX) में, हम एक "डायनेमिक" दृष्टिकोण को नियोजित करते हैं, क्योंकि हम भविष्यवाणी त्रुटि का उपयोग करते हैं, और रैखिक प्रतिगमन में हम उनका उपयोग नहीं करते हैं - लेकिन हम फिर भी उनका उपयोग कर सकते हैं। मुझे समझ में नहीं आता है तो यहां मुद्दा। या जैसा कि @IrishStat कहता है, एकमात्र अंतर पहचान करने और संशोधन की रणनीतियों का मार्ग है?
मिगुएल एम।

और अनुमान के बारे में क्या, मॉडल में अंतराल त्रुटियों को शामिल करते समय ओएलएस (फिर से) सही है? मल्टीकोलिनरिटी के बारे में, मेरा मतलब था कि अनुमानित गुणांक सही नहीं हो सकता है, क्योंकि उनके अनुमान में एक बड़ा परिवर्तन है। सही विधि से मेरा मतलब था, यदि प्रस्तावित लैग्ड मॉडल का उपयोग करते समय ओएलएस का उपयोग एमएल की तुलना में निष्पक्ष और कुशल अनुमान देता है।
मिगेल एम।

@ मिगुएलएम, मैं अभी यात्रा कर रहा हूं, बाद में वापस आने की कोशिश करूंगा।
रिचर्ड हार्डी

1
"रैखिक प्रतिगमन में हम इनका उपयोग नहीं करते हैं - लेकिन फिर भी हम इनका उपयोग कर सकते हैं" के बारे में: हम इन चरों का निरीक्षण नहीं करते हैं, और इसलिए उन्हें वहां यांत्रिकी के कारण रैखिक प्रतिगमन ढांचे में उपयोग नहीं किया जा सकता है (जैसा कि मैंने उत्तर में उल्लेख किया है; अनुमानक अनम्य है); हालाँकि, उनका उपयोग ARIMA फ्रेमवर्क में किया जा सकता है। "ओएलएस (दोबारा) सही होने के बारे में जब मॉडल में पिछड़ी त्रुटियों को शामिल किया गया?", हां, यह सच होना चाहिए। "शुद्धता" के बारे में, यदि मॉडल सही ढंग से निर्दिष्ट है और दोनों ओएलएस और एमएल संभव हैं, तो दोनों को ठीक काम करना चाहिए। गलत वर्तनी के तहत चीजें गलत हो जाती हैं।
रिचर्ड हार्डी

1
y=β0+β1x+εxy=β0+β1x+εx

5

यह बहुत अच्छा सवाल है। ARIMA मॉडल और कई रैखिक प्रतिगमन के बीच वास्तविक अंतर आपकी त्रुटि संरचना में निहित है। आप कई चर प्रतिगमन मॉडल में स्वतंत्र चर को हेरफेर कर सकते हैं ताकि वे आपके समय श्रृंखला डेटा को फिट कर सकें, जो @IrishStat कह रहा है। हालांकि, उसके बाद, आपको सही गुणांक और परीक्षण के परिणाम प्राप्त करने के लिए अपने कई प्रतिगमन मॉडल में ARIMA त्रुटियों को शामिल करना होगा। इस पर एक महान मुफ्त पुस्तक है: https://www.otexts.org/fpp/9/1 । मैंने उस अनुभाग को लिंक किया है जो ARIMA और कई प्रतिगमन मॉडल के संयोजन पर चर्चा करता है।


1

अच्छा सवाल है, मैंने वास्तव में अपने दिन की नौकरी में डेटा साइंटिस्ट के रूप में काम किया है। टाइम सीरीज़ मॉडल बनाना आसान है (आर पैकेज में पूर्वानुमान पैकेज आपको 5 सेकंड में कम में एक बनाने की अनुमति देता है), प्रतिगमन मॉडल की तुलना में समान या अधिक सटीक, आदि। आम तौर पर, एक को हमेशा समय श्रृंखला, फिर प्रतिगमन का निर्माण करना चाहिए। टाइम सीरीज़ के दार्शनिक निहितार्थ भी हैं, यदि आप कुछ भी जाने बिना भविष्यवाणी कर सकते हैं, तो इसका क्या मतलब है?

मेरी डार्लिंगटन ले। 1) "प्रतिगमन कहीं अधिक लचीला और शक्तिशाली है, बेहतर मॉडल का निर्माण करता है। यह बिंदु पूरे काम के दौरान कई स्थानों में विकसित होता है।"

नहीं, बिलकुल विपरीत। प्रतिगमन मॉडल समय श्रृंखला के मॉडल की तुलना में कहीं अधिक धारणा बनाते हैं। कम मान्यताओं, भूकंप (शासन परिवर्तन) का सामना करने की क्षमता जितनी अधिक होगी। इसके अलावा, समय श्रृंखला मॉडल अचानक बदलाव के लिए तेजी से प्रतिक्रिया करते हैं।

2) "प्रतिगमन एआरआईएमए की तुलना में मास्टर करना बहुत आसान है, कम से कम उन लोगों के लिए जो पहले से ही अन्य क्षेत्रों में प्रतिगमन के उपयोग से परिचित हैं।" यह परिपत्र तर्क है।

3) "प्रतिगमन एक" बंद "कम्प्यूटेशनल एल्गोरिथ्म का उपयोग करता है जो अनिवार्य रूप से परिणाम प्राप्त करने की गारंटी देता है यदि सभी संभव हो, जबकि एआरआईएमए और कई अन्य तरीके पुनरावृत्ति एल्गोरिदम का उपयोग करते हैं जो अक्सर एक समाधान तक पहुंचने में विफल होते हैं। मैंने अक्सर एआरआईएमए विधि को देखा है - जो कि लटका हुआ है। "डेटा पर जिसने प्रतिगमन विधि को कोई समस्या नहीं दी।"

प्रतिगमन आपको एक उत्तर देता है, लेकिन क्या यह सही उत्तर है? अगर मैं रैखिक प्रतिगमन और मशीन लर्निंग मॉडल का निर्माण करता हूं और वे सभी एक ही निष्कर्ष पर आते हैं, तो इसका क्या मतलब है?

इसलिए सारांश में, हाँ प्रतिगमन और समय श्रृंखला दोनों एक ही प्रश्न और तकनीकी रूप से उत्तर दे सकते हैं, समय श्रृंखला तकनीकी रूप से प्रतिगमन (यद्यपि ऑटो-प्रतिगमन) है। समय श्रृंखला मॉडल कम जटिल हैं और इसलिए प्रतिगमन मॉडल की तुलना में अधिक मजबूत हैं। यदि आप विशेषज्ञता के बारे में सोचते हैं, तो TS मॉडल पूर्वानुमान के विशेषज्ञ होते हैं जबकि प्रतिगमन समझने में विशेषज्ञ होते हैं। यह उबलता है कि क्या आप समझाना चाहते हैं या भविष्यवाणी करना चाहते हैं।


1
"समय श्रृंखला मॉडल कम जटिल हैं और इसलिए प्रतिगमन मॉडल की तुलना में अधिक मजबूत हैं" .... आपके कहने का मतलब "ARIMA मॉडल कम जटिल हैं और इसलिए प्रतिगमन मॉडल की तुलना में अधिक मजबूत हैं"। ARIMA को शामिल करना और प्रतिगमन को ट्रांसफर फ़ंक्शन मॉडल के रूप में संदर्भित किया जाता है ... जो इस प्रकार समझ (प्रतिगमन) और अज्ञात / अनिर्दिष्ट पृष्ठभूमि कारकों (ARIMA) दोनों को मिलाकर बुद्धिमान विकल्प है।
आयरिशस्टैट

2
@IrishStat हाय मिस्टर रीली, मैं कई पोस्टों के जवाब आपके यहाँ पढ़ रहा हूँ, स्टेक्सएक्सचेंज में, और मैंने ऑटोबॉक्स में बहुत से पेपर भी पढ़े हैं, साथ ही पीएसयू टाइम सीरीज़ कोर्स के लिए लिंक भी, लेकिन मैं अभी भी नहीं समझें कि (या यदि) एक रेखीय प्रतिगमन (ओएलएस का उपयोग करके), यदि आवश्यक नहीं तो लैग्ड वैरिएबल और लैग्ड एरर शब्दों के उपयोग के साथ
मिगुएल एम।

@ इरिस्टैट यह ओएलएस विधि है जो काम नहीं करती है?
मिगुएल एम।

1
अपनी बात पर विस्तार करने के लिए आयरिशस्टैट, लक्ष्य ग्रेंजर कारण होगा। उदाहरण के लिए, भले ही एक गुणांक सांख्यिकीय रूप से महत्वपूर्ण हो, लेकिन पूर्वानुमान सटीकता में सुधार के लिए यह जरूरी नहीं हो सकता है। मेरे शोध में, मैंने पाया है कि प्रतिगमन मॉडल (लीनियर, लासो, आदि), यह कहने की प्रवृत्ति रखते हैं कि चीजें वास्तव में उनकी तुलना में महत्वपूर्ण हैं, जबकि यादृच्छिक वन उन्हें डाउनग्रेड करते हैं और सच्चे लीवर की पहचान करते हैं। इसके अलावा, यादृच्छिक वन में रैखिक मॉडल के समान नमूना सटीकता है। एकमात्र दोष यह है कि आप यह नहीं बता सकते हैं कि वास्तव में गुणांक क्या हैं।
छिपे हुए मार्कोव मॉडल

2
@MiguelM। यह निश्चित रूप से काम कर सकता है क्योंकि ट्रांसफर फंक्शन एक बहुपद वितरित वितरित मॉडल है, जिसमें संभवतया समान रूप से ज्ञात स्तर की शिफ्ट / समय के रुझान / मौसमी दालों को शामिल किया गया है, जबकि दालों के लिए समायोजन (एक समय की विसंगतियाँ) मुझे लगता है कि प्राथमिक अंतर पहचान और मॉडल संशोधन रणनीतियों का मार्ग है
आयरिशस्टैट

0

सोचिए कि ट्रांसफर फ़ंक्शंस और मल्टीएप लीनियर रिग्रेशन (अपने सामान्य उपयोग में) के बीच सबसे गहरा अंतर उनके उद्देश्यों में निहित है, मल्टीपल रिग्रेस्सेशन आश्रित चर के मुख्य कारण अवलोकन पर्यवेक्षकों को खोजने के लिए उन्मुख है, जबकि ट्रांसफ़र फ़ंक्शंस सिर्फ एक आश्रित पर प्रभाव का पूर्वानुमान करना चाहते हैं। एक विशिष्ट बहिर्जात चर की भिन्नता का चर ... सारांश में, एकाधिक प्रतिगमन बहुत विशिष्ट प्रभावों का पूर्वानुमान लगाने के लिए संपूर्ण विवरण और स्थानांतरण समारोह के लिए उन्मुख है ...


मुझे नहीं लगता कि यह काफी सटीक है, क्योंकि दोनों तरीकों से गुणांक प्राप्त होता है जो वास्तव में व्याख्या की जा सकती है। इसके अलावा, स्थानांतरण फ़ंक्शन DO कारण विश्लेषण पर बहुत अधिक भरोसा करते हैं, और वास्तव में ऐसे कई रैखिक प्रतिगमन की तुलना में बेहतर हैं। इसके अलावा, यह पोस्ट ऐसे दो तरीकों के बीच यांत्रिक / पद्धतिगत अंतर के लिए पूछता है
मिगुएल एम।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.