वैरिएबल भिन्न होने पर सामान्य प्रतिगमन बनाम प्रतिगमन


13

मैं बस यह समझने की कोशिश कर रहा हूं कि चर के अंतर होने पर सामान्य बहु / सरल प्रतिगमन बनाम एकाधिक / सरल प्रतिगमन के बीच क्या संबंध है।

उदाहरण के लिए, मैं जमा शेष राशि ( ) बनाम बाजार दरों ( R T ) के बीच संबंधों का विश्लेषण कर रहा हूं यदि मैं एक सरल रैखिक प्रतिगमन चलाता हूं, तो सहसंबंध नकारात्मक है और बहुत महत्वपूर्ण है (-.74) हालांकि, अगर मैं इसे ले जाऊं लॉग और आश्रित चर का अंतर और स्वतंत्र चर का अंतर, इसलिए मेरा समीकरण अब d हैYTRTd से पुन: प्रभावित हो रहा हैdln(YT) , मेरे सहसंबंध और R ^ 2 महत्वपूर्ण नहीं हैं ( R 2 = .004 )।dR(T)R2=.004

मैं सोच रहा था कि क्या यह कम भी कुछ मतलब है? क्या इसका मतलब है कि मेरा मॉडल एक अच्छा फिट नहीं है, या जब मैं विभेदित डेटा को देख रहा हूं, तो क्या मैं आर 2 को अनदेखा करता हूं? मुझे पता है कि डेटा से मूल दो चर के बीच एक महत्वपूर्ण संबंध है, फिर भी मेरे मॉडल के लिए मुझे अलग-अलग चर को देखने की जरूरत है, इसलिए बस सोच रहा था कि इस बारे में कैसे जाना जाए।R2R2

जवाबों:


16

सरल संस्करण यह है कि समय के साथ एक दिशा में बदलने की प्रवृत्ति रखने वाले किसी भी दो चर परस्पर संबंधित प्रतीत होंगे, चाहे उनके बीच कोई संबंध हो या न हो। निम्नलिखित चर पर विचार करें:

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

xy1y2xxy2xy1

यहाँ छवि विवरण दर्ज करें

R2xy1R2xy2xy1xy2, तो हम वास्तविक को मात्र उपस्थिति से कैसे अलग करते हैं? यहीं से विभेद आता है। किन्हीं भी दो चरों के लिए, क्योंकि वे दोनों समय के साथ चलते हैं, यह बहुत जानकारीपूर्ण नहीं है, लेकिन यह देखते हुए कि कुछ विशिष्ट राशि से ऊपर जाता है, क्या यह बताता है कि दूसरा कितना ऊपर जाता है? भिन्नता हमें उस प्रश्न का उत्तर देने की अनुमति देती है। निम्नलिखित तीन आंकड़े पर ध्यान दें, सभी तीन चर अलग-अलग करने के बाद मैंने जो स्कैल्पलॉट बनाए।

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

xy2R2=.43xy1R2=.07R2

कुछ अन्य बिंदु: आंकड़ों में, मैं यह ध्यान देने योग्य बिंदु बनाता हूं कि ये एक साथ परिवर्तन हैं। इसमें कुछ भी गलत नहीं है, और यह उस तरह से है जिस तरह से मैंने समस्या को स्थापित किया है, लेकिन आमतौर पर लोग कुछ अंतराल पर प्रभाव में रुचि रखते हैं। (अर्थात, एक समय में एक चीज में बदलाव से बाद में किसी और चीज में परिवर्तन होता है।) दूसरा, आप अपनी किसी एक श्रृंखला का लॉग लेने का उल्लेख करते हैं। लॉग लेना बस आपके डेटा को स्तरों से दरों पर स्विच करता है। और इस प्रकार, जब आप अंतर करते हैं, तो आप स्तरों में बदलाव के बजाय दरों में बदलाव देख रहे हैं। यह बहुत आम है, लेकिन मैंने अपने प्रदर्शन में उस तत्व को शामिल नहीं किया; मैंने जिन मुद्दों पर चर्चा की है, वह ओर्थोगोनल है। अंत में, मैं यह स्वीकार करना चाहता हूं कि मेरे प्रदर्शन की अनुमति से समय श्रृंखला डेटा अक्सर अधिक जटिल होते हैं।


10

@ गुंग एक अच्छा जवाब देता है, लेकिन मैं आपको जो सुझाव दे रहा हूं, उसमें कुछ बातें बताना चाहता हूं।

विभेदक का उपयोग ज्यादातर यूनिट की जड़ों की समस्या से निपटने के लिए किया जाता है, उदाहरण के लिए, जब प्रक्रिया एआर (1) के सहसंबंध गुणांक के साथ होती है 1. त्रुटि अवधि के सफेद शोर होने पर रेखीय समय की प्रवृत्ति को दूर करने के लिए अंतर का प्रभावी ढंग से उपयोग किया जा सकता है (में विशेष रूप से, यह कोई सीरियल संबंध नहीं दिखाता है), जैसा कि @gung ऊपर दिखाता है। लेकिन, यदि त्रुटि शब्द का सहसंबंध एक सहसंबंध गुणांक के साथ निरपेक्ष मान में 1 से कम है, तो रेखीय समय की प्रवृत्ति को हटाने के लिए विभेदन का उपयोग करने से बहुत जटिल संरचना के साथ त्रुटियां पैदा होती हैं। इस मामले में सटीक मानक त्रुटियां प्राप्त करना और वैध निष्कर्ष निकालना मुश्किल है।

नतीजतन, पहले एक इकाई रूट के लिए परीक्षण करना सबसे अच्छा है और, अगर किसी का पता लगाया जाता है, तो इसे अलग-अलग करने के माध्यम से ठीक करना है। अगला, एक रेखीय समय प्रवृत्ति के लिए जाँच करें। इस समस्या को हल करके ठीक करें। बाद में किए बिना, आप लोप किए गए चर-प्रकार की समस्या के लिए खुले हैं जो @gung अच्छी तरह से दिखाता है।


1
+1 यह मेरे उत्तर का एक अच्छा पूरक है। मैंने अपना उत्तर सरल और सहज रखने की कोशिश की। हालांकि, यह निश्चित रूप से सच है कि मेरे द्वारा चर्चा किए जाने की तुलना में अधिक जटिलताएं हैं, और यह कि वे बहुत महत्वपूर्ण हो सकते हैं। मुझे यह स्वीकार करना चाहिए था कि मेरे अंतिम पैराग्राफ में। मुझे ईमानदार रखने के लिए धन्यवाद।
गंग -

1

जब उद्देश्य दो या दो से अधिक श्रृंखलाओं के बीच संबंधों को बनाना / पहचानना है, तो किसी को शोर में बदलने के लिए स्थिर एक्स चर को फ़िल्टर करने की आवश्यकता हो सकती है। यह एक दो कदम प्रक्रिया है, अलग-अलग आवश्यक है और ARMA संरचना है। निष्पक्षता बनाए रखने के लिए और मॉडल स्पेसिफिकेशन बायस से बचने के लिए किसी को फिल्टर को ग्रहण नहीं करना चाहिए, बल्कि स्थिर एक्स सीरीज के ऑटोकरेक्चुअल प्रकृति का उपयोग करके उस फिल्टर का निर्माण करना चाहिए। फिर एक वाई श्रृंखला लेता है और इसे अलग करने के लिए जो भी अलग-अलग ऑपरेटर आवश्यक होते हैं उन्हें लागू करते हैं और फिर स्टेशनरी वाई के लिए पहले से विकसित फ़िल्टर लागू करते हैं। इस प्रक्रिया का एक और केवल एक ही उद्देश्य है और वह यह है कि Y और X के बीच के रिश्ते की पहचान करना चाहिए। किसी को भी अलग-अलग विभेदकों के बारे में निष्कर्ष पर नहीं जाना चाहिए, ARMA फ़िल्टर और चर के बीच का संबंध जब तक कि एक अर्थशास्त्री नहीं है जो डेटा को देखने से पहले मॉडल को जानता है या यदि आप सीधे सर्वशक्तिमान से बात करते हैं। किसी भी सांख्यिकीय परीक्षा की गणना करने के लिए त्रुटियों की आवश्यकता की सामान्यता के बारे में सावधानीपूर्वक विश्लेषण आवश्यक है। एफ परीक्षणों / टी परीक्षणों की गणना आवश्यक है लेकिन पर्याप्त नहीं है। सारांश में, मेरा सुझाव है कि आप "ट्रांसफर फंक्शन मॉडल की पहचान कैसे करें" के विषय को आगे बढ़ाते हैं। अन्य और मैंने इस विषय को कई बार संबोधित किया है। यदि आप चाहते हैं कि आप उन सवालों के जवाबों में से कुछ को टाल दें, जिनके साथ टैग "टाइम सीरीज़" जुड़ी हुई है। जैसा कि योगी ने कहा "आप केवल पढ़ने / देखने के द्वारा बहुत कुछ देख सकते हैं"। कभी-कभी अच्छा और सरल उत्तर आपको भटका सकता है और संभावित रूप से अतिव्याप्त / रूढ़िवादी जवाब जैसे मेरा आपको मॉडलिंग समय श्रृंखला डेटा की बेहतर समझ विकसित करने की आवश्यकता हो सकती है। जैसा कि एक बार कहा गया था, "टोटो, हम कंसास में नहीं हैं (यानी पार के अनुभागीय डेटा) अब और नहीं!"

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.