औसत डेटा के बीच अंतर फिर फिटिंग और डेटा फिटिंग फिर औसत


10

यदि कोई है, तो कई अलग-अलग "प्रयोगों" के लिए एक लाइन फिटिंग के बीच फिट बैठता है, या अलग-अलग प्रयोगों से डेटा का औसत तो औसत डेटा फिटिंग। मुझे विस्तार से बताएं:

मैं कंप्यूटर सिमुलेशन करता हूं जो एक वक्र उत्पन्न करता है, जो नीचे दिखाया गया है। हम एक मात्रा निकालते हैं, इसे भूखंड के रैखिक क्षेत्र (लंबे समय) को फिट करके "ए" कहते हैं। मूल्य केवल रैखिक क्षेत्र का ढलान है। निश्चित रूप से इस रैखिक प्रतिगमन से जुड़ी एक त्रुटि है।

हम आमतौर पर "ए" के औसत मूल्य की गणना करने के लिए विभिन्न प्रारंभिक स्थितियों के साथ 100 या तो इन सिमुलेशनों को चलाते हैं। मुझे बताया गया है कि कहना 10 के समूहों में कच्चे डेटा (नीचे के प्लॉट) का औसतन करना बेहतर है, फिर "ए" के लिए फिट है और उन 10 "ए" के एक साथ औसत करें।

मुझे इस बात का कोई अंतर्ज्ञान नहीं है कि क्या इसमें कोई योग्यता है या यदि यह 100 व्यक्तिगत "ए" मूल्यों और उन लोगों की औसत फिटिंग से बेहतर है।

डेटा


मुझे यकीन नहीं है कि मैं समझता हूं: आप समय में अलग-अलग बिंदुओं पर ए को मापते हैं और फिर आप अनुमान ? फिर आप ऐसा कई बार करते हैं और आप सभी का औसत ? β 1A=β0+β1tβ1

नहीं, माफ करिए। ऊपर दिया गया कथानक एक एकल अनुकार का परिणाम है (चलो इसे प्रयोग कहते हैं)। प्रारंभिक गैर-रेखीय क्षेत्र को छोड़ दिया जाता है, हम फिर रैखिक हिस्से में एक रेखा फिट करते हैं और ढलान प्राप्त करते हैं, "ए"। तो एक पूरे सिमुलेशन "ए" का एक अनुमान लगाता है। बेशक मेरा सवाल घूमता है कि क्या कई भूखंडों का औसत तो ए की गणना प्लॉटों के झुंड के लिए ए की गणना करने की तुलना में अलग है और उन्हें औसतन। आशा है कि स्पष्ट करता है।
प्रागमतिस्ट 1

1
मैं यह नहीं देखता कि इससे क्या फर्क पड़ेगा? (यदि रेखीय प्रतिगमन के लिए धारणाएं पूरी होती हैं)

मुझे लगता है कि फिटिंग कभी गलत नहीं होती है / प्रत्येक छोटे होने के प्रयोगों के कारण अभिसरण / हास्यास्पद रूप से खड़ी अनुमान नहीं देता है? यह कुछ ऐसा होगा जो पहले (या पदानुक्रमित मॉडल) के संयोजन से मदद कर सकता है।
ब्योर्न

1
आप सभी डेटा को एक साथ फिट भी कर सकते हैं, लेकिन प्रयोगों के बीच अंतर करने के लिए कुछ प्रकार के घटक को शामिल करें (प्रत्येक प्रयोग के लिए अलग-अलग अंतराल, या अलग-अलग ढलान भी), एक रेखीय मिश्रित मॉडल दृष्टिकोण की तरह कुछ। इस तरह आप एक समग्र ढलान का अनुमान लगा सकते हैं, लेकिन प्रयोगों के बीच किसी भी "बैच" प्रभाव या अंतर की पहचान करने में सक्षम होंगे
बीडोनोविच

जवाबों:


2

tit

  • समय श्रृंखला औसत में पार-अनुभागीय भिन्नता।
  • पार-अनुभागीय भिन्नता का समय श्रृंखला औसत।

सामान्य रूप से उत्तर नहीं है।

स्थापित करना:

t

Tn(Xt,yt)

Y=[y1y2yn]X=[X1X2Xn]

फिट बैठता है की औसत:

1Ttbt=1Tt(XtXt)1Xtyt=1TtSt1(1nixt,iyt,i)where St=1nixt,ixt,i

औसत फिट:

यह सामान्य रूप से समय श्रृंखला औसत (यानी अनुमानक के बीच) के पार-अनुभागीय भिन्नता के आधार पर अनुमान के बराबर नहीं है।

(1nix¯ix¯i)11nix¯iy¯i

x¯i=1Ttxt,i

अनुमानित OLS अनुमान:

b^=(XX)1XY=(1nTtXtXt)1(1nTtXtyi)
bt=(XtXt)1Xtyi
=(1nTtXtXt)1(1nTtXtXtbt)

S=1nTiXXSt=1nXtXtE[xx]t

b^=1Tt(S1St)bt

bt

विशेष मामला: दाहिने हाथ की ओर चर समय अपरिवर्तनीय और फर्म विशिष्ट हैं

iXt1=Xt2t1t2S=Stt

b^=1Ttbt

मजेदार टिप्पणी:

यह मामला फामा और मैकबेथ का है, जहां जब उन्होंने औसत मानक त्रुटियों को प्राप्त करने के लिए औसत-पार अनुभागीय अनुमानों की इस तकनीक को लागू किया था, जब यह अनुमान लगाया गया था कि बाजार के साथ फर्मों के सहसंयोजन (या अन्य कारक लोडिंग) में अपेक्षित रिटर्न कैसे भिन्न होता है।

फ़ामा-मैकबेथ प्रक्रिया पैनल के संदर्भ में लगातार मानक त्रुटियों को प्राप्त करने के लिए एक सहज तरीका है जब त्रुटि शब्द क्रॉस-सेक्शनल रूप से सहसंबद्ध होते हैं लेकिन समय के साथ स्वतंत्र होते हैं। एक अधिक आधुनिक तकनीक जो समान परिणाम देती है, वह समय पर क्लस्टरिंग है।


1

(नोट: मेरे पास टिप्पणी करने के लिए पर्याप्त प्रतिष्ठा नहीं है, इसलिए मैं इसे उत्तर के रूप में पोस्ट कर रहा हूं।)

y¯[x]=y[x]yxy1[x1]=y2[x1]=2y1[x2]=1y1[x2]=3y¯[x1]=y¯[x2]=2x1x2

ध्यान दें कि अधिकांश वैज्ञानिक सॉफ़्टवेयर प्लेटफ़ॉर्म में एक सच्चे "ऑनलाइन" कम से कम वर्ग फिट (जिसे पुनरावर्ती न्यूनतम वर्ग के रूप में जाना जाता है ) की गणना / अद्यतन करने के लिए उपकरण होने चाहिए । तो सभी डेटा का उपयोग किया जा सकता है (यदि यह वांछनीय है)।


1
Fcop द्वारा पोस्ट किया गया उत्तर हटा दिया गया था। आप अपने उत्तर को थोड़ा संशोधित करना चाह सकते हैं
Glen_b -Reinstate Monica
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.