विषमलैंगिक डेटा के विचरण का पूर्वानुमान


15

मैं विषमलैंगिक डेटा पर एक प्रतिगमन करने की कोशिश कर रहा हूं, जहां मैं त्रुटि के रूप में और साथ ही रैखिक मॉडल के संदर्भ में औसत मानों की भविष्यवाणी करने की कोशिश कर रहा हूं । कुछ इस तरह:

y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.

शब्दों में, डेटा में x और t के विभिन्न मूल्यों पर के बार-बार माप होते हैं । मुझे लगता है इन मापों "सही" औसत मान से मिलकर बनता है ˉ y ( एक्स , टी ) रैखिक कार्य है जो एक्स और टी , additive गाऊसी शोर के साथ ξ ( एक्स , टी ) जिसका मानक विचलन (या विचरण, मैं नहीं है निर्णय लिया गया) x , t पर रैखिक रूप से भी निर्भर करता है । (मैं x और पर अधिक जटिल निर्भरता की अनुमति दे सकता हूंy(x,t)xty¯(x,t)xtξ(x,t)x,tx - एक रैखिक रूप के लिए एक मजबूत सैद्धांतिक प्रेरणा नहीं है - लेकिन मैं इस चरण में चीजों को ओवरप्ले नहीं करूंगा।)t

मैं जानता हूँ कि खोज यहाँ शब्द है "heteroscedasticity," लेकिन मैं खोजने के लिए अब तक कैसे कम / बेहतर भविष्यवाणी करने के लिए इसे हटाने के लिए की चर्चा कर रहे हैं कर लिया है , लेकिन कोशिश कर के मामले में कुछ भी नहीं करने के लिए अनुमान है σ के मामले में स्वतंत्र चर। मैं अनुमान लगाने के लिए चाहते हैं y 0 , एक , , σ 0 , और विश्वास के अंतराल (या बायेसियन समकक्ष) के साथ, और अगर वहाँ इतना SPSS में यह करने के लिए बेहतर एक आसान तरीका है! मुझे क्या करना चाहिए? धन्यवाद।y¯ σy0,a,b,σ0,cd


कुछ संदर्भों के लिए इस संबंधित प्रश्न को देखें, मानदंड के एक कार्य के रूप में वेरियन
एंडी डब्ल्यू

क्या आपने GARCH की कोशिश की?
अक्कल

सामान्यीकृत रैखिक मॉडल वह शाखा है जो आपकी समस्या से निपटती है। एक ही शीर्षक के साथ एक पुस्तक है, बहुत अनुशंसित है।
डिएगो

जवाबों:


1

मुझे लगता है कि आपकी पहली समस्या यह है कि लंबे समय तक नहीं एक सामान्य वितरण है, और कैसे डेटा की जरूरत है homoscedastic होने के लिए तब्दील किया जा करने के लिए पर निर्भर करता है कि वास्तव में क्या σ ( एक्स , टी ) है। उदाहरण के लिए, यदि σ ( एक्स , टी ) = एक एक्स + टी , तो त्रुटि आनुपातिक प्रकार है और y डेटा के लघुगणक प्रतिगमन साधारण कम से कम वर्गों (OLS) भारित करने से समायोजित प्रतिगमन से पहले लिया जाना चाहिए, या, 1 के साथ कम से कम वर्गN(0,σ(x,t))σ(x,t)σ(x,t)=ax+bt वजन (जो आनुपातिक प्रकार की त्रुटि को प्रतिगमन बदल देता है)। इसी प्रकार, यदि σ ( एक्स , टी ) = एक एक्स + टी , एक लघुगणक और वापसी कि के लघुगणक लेने के लिए होगा।1/y2σ(x,t)=eax+bt

मुझे लगता है कि त्रुटि के प्रकारों का पूर्वानुमान खराब तरीके से कवर किया गया है, इसका कारण यह है कि पहले कोई भी पुराना प्रतिगमन (कराहना, आम तौर पर कम से कम वर्ग, OLS) करता है। और अवशिष्ट भूखंड से, यानी, , एक अवशिष्ट आकार का निरीक्षण करता है, और एक डेटा की आवृत्ति हिस्टोग्राम प्लॉट करता है, और उस पर दिखता है। फिर, यदि अवशेष दाईं ओर खुलने वाले पंखे की बीम हैं, तो एक आनुपातिक डेटा मॉडलिंग की कोशिश करता है, अगर हिस्टोग्राम एक घातीय क्षय की तरह दिखता है, तो एक प्रतिग्रहण, 1 / y , और इसी तरह वर्ग जड़ों, स्क्वेरिंग, घातांक के लिए आगे की कोशिश कर सकता है , घातांक- ymodely1/y

अब, यह केवल लघुकथा है। लंबे समय तक संस्करण में थाइल मीडियन रिग्रेशन, डिमिंग बिवरिएट रिग्रेशन सहित रिग्रेसिव और अधिक प्रकार के रिग्रेशन शामिल हैं, और खराब पोजिटिव एरर को कम करने के लिए रिग्रेशन जिसमें प्रोपेगेटेड एरर का कोई विशेष अच्छाई-से-क्यूर-फिट रिलेशन नहीं है। पिछले एक एक whopper है यही कारण है, लेकिन, देखते हैं इसउदाहरण के तौर पे। ताकि यह एक बड़ा फर्क पड़ता है कि उत्तर क्या प्राप्त करने की कोशिश कर रहा है। आमतौर पर, यदि कोई वैरिएबल के बीच संबंध स्थापित करना चाहता है, तो नियमित OLS पसंद का तरीका नहीं है, और Theil regression उस पर एक त्वरित और गंदा सुधार होगा। ओएलएस केवल वाई-दिशा में कम से कम होता है, इसलिए ढलान बहुत उथला है, और वैरिएबल के बीच अंतर्निहित संबंध स्थापित करने के लिए अवरोधन बहुत बड़ा है। इसे दूसरे तरीके से कहने के लिए, ओएलएस एक एक्स दिए गए ऐ के कम से कम त्रुटि का अनुमान देता है, यह अनुमान नहीं लगाता है कि एक्स कैसे वाई के साथ बदलता है। जब r-मान बहुत अधिक होते हैं (0.99999+) इससे बहुत कम फर्क पड़ता है कि कोई प्रतिगमन क्या उपयोग करता है और y में OLS लगभग OLS के समान है, लेकिन, जब r-मान कम होते हैं, तो OLS y से बहुत भिन्न होता है एक्स में ओएलएस।

सारांश में, बहुत कुछ इस बात पर निर्भर करता है कि तर्क क्या है जो पहले स्थान पर प्रतिगमन विश्लेषण करने के लिए प्रेरित है। यह आवश्यक संख्यात्मक विधियों को निर्धारित करता है। उसके बाद चुनाव किया जाता है, अवशिष्टों के बाद एक संरचना होती है जो प्रतिगमन के उद्देश्य से संबंधित होती है, और उस बड़े संदर्भ में विश्लेषण करने की आवश्यकता होती है।


0

STATS BREUSCH PAGAN एक्सटेंशन कमांड दोनों को विषमता के लिए अवशिष्ट का परीक्षण कर सकती है और इसे कुछ या सभी रजिस्टरों के कार्य के रूप में अनुमान लगा सकती है।


0

इस तरह की समस्याओं के लिए सामान्य दृष्टिकोण आपके डेटा की संभावना (नियमित) को अधिकतम करना है।

आपके मामले में, लॉग-संभावना कैसा दिखेगा जहां φ ( एक्स ,

LL(y0,a,b,σ0,c,d)=i=1nlogϕ(yi,y0+axi+bti,σ0+cxi+dti)
ϕ(x,μ,σ)=12πσe(xμ)22σ2

θ^θ=(y0,a,b,σ0,c,d)

यदि आपको आत्मविश्वास अंतराल की आवश्यकता है, तो यह आशावादी हेसियन मैट्रिक्स अनुमान भी लगा सकता हैH का हैθ(दूसरा डेरिवेटिव) इष्टतम के आसपास। अधिकतम संभावना अनुमान का सिद्धांत कहता है कि बड़े के लिएn के covariance मैट्रिक्स θ^ के रूप में अनुमान लगाया जा सकता है एच-1

यहाँ पायथन में एक उदाहरण कोड है:

import scipy
import numpy as np

# generate toy data for the problem
np.random.seed(1) # fix random seed
n = 1000 # fix problem size
x = np.random.normal(size=n)
t = np.random.normal(size=n)
mean = 1 + x * 2 + t * 3
std = 4 + x * 0.5 + t * 0.6
y = np.random.normal(size=n, loc=mean, scale=std)

# create negative log likelihood
def neg_log_lik(theta):
    est_mean = theta[0] + x * theta[1] + t * theta[2]
    est_std = np.maximum(theta[3] + x * theta[4] + t * theta[5], 1e-10)
    return -sum(scipy.stats.norm.logpdf(y, loc=est_mean, scale=est_std))

# maximize
initial = np.array([0,0,0,1,0,0])
result = scipy.optimize.minimize(neg_log_lik, initial)
# extract point estimation
param = result.x
print(param)
# extract standard error for confidence intervals
std_error = np.sqrt(np.diag(result.hess_inv))
print(std_error)

ध्यान दें कि आपकी समस्या का निर्माण नकारात्मक उत्पन्न कर सकता है σ, और मुझे बहुत छोटे से बल द्वारा प्रतिस्थापन से खुद का बचाव करना पड़ा σ साथ में 10-10

कोड द्वारा उत्पादित परिणाम (पैरामीटर अनुमान और उनकी मानक त्रुटियों) है:

[ 0.8724218   1.75510897  2.87661843  3.88917283  0.63696726  0.5788625 ]
[ 0.15073344  0.07351353  0.09515104  0.08086239  0.08422978  0.0853192 ]

आप देख सकते हैं कि अनुमान उनके वास्तविक मूल्यों के करीब हैं, जो इस अनुकरण की शुद्धता की पुष्टि करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.