विशाल कर्टोसिस?


10

मैं स्टॉक इंडेक्स पर दैनिक रिटर्न के कुछ वर्णनात्मक आंकड़े कर रहा हूं। Ie यदि और क्रमशः 1 और दिन 2 पर सूचकांक के स्तर हैं, तो वह रिटर्न है जिसका मैं उपयोग कर रहा हूं (साहित्य में पूरी तरह से मानक)।पी1पी2एलजी(पी2पी1)

तो कुर्तोसिस इनमें से कुछ में विशाल है। मैं लगभग 15 वर्षों के दैनिक डेटा को देख रहा हूं (इसलिए लगभग समय श्रृंखला अवलोकन)260*15

                      means     sds     mins    maxs     skews     kurts
ARGENTINA          -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA             0.00003 0.00640 -0.03845 0.04621   0.19614   2.36104
CZECH.REPUBLIC      0.00008 0.00800 -0.08289 0.05236  -0.16920   5.73205
FINLAND             0.00005 0.00639 -0.03845 0.04622   0.19038   2.37008
HUNGARY            -0.00019 0.00880 -0.06301 0.05208  -0.10580   4.20463
IRELAND             0.00003 0.00641 -0.03842 0.04621   0.18937   2.35043
ROMANIA            -0.00041 0.00789 -0.14877 0.09353  -1.73314  44.87401
SWEDEN              0.00004 0.00766 -0.03552 0.05537   0.22299   3.52373
UNITED.KINGDOM      0.00001 0.00587 -0.03918 0.04473  -0.03052   4.23236
                   -0.00007 0.00745 -0.09124 0.06405  -1.82381  63.20596
AUSTRALIA           0.00009 0.00861 -0.08831 0.06702  -0.74937  11.80784
CHINA              -0.00002 0.00072 -0.40623 0.02031   6.26896 175.49667
HONG.KONG           0.00000 0.00031 -0.00237 0.00627   2.73415  56.18331
INDIA              -0.00011 0.00336 -0.03613 0.03063  -0.22301  10.12893
INDONESIA          -0.00031 0.01672 -0.24295 0.19268  -2.09577  54.57710
JAPAN               0.00008 0.00709 -0.03563 0.06591   0.57126   5.16182
MALAYSIA           -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665

मेरा सवाल है: क्या कोई समस्या है?

मैं इस डेटा पर व्यापक समय श्रृंखला विश्लेषण करना चाहता हूं - ओएलएस और क्वांटाइल रिग्रेशन विश्लेषण, और ग्रेंजर कॉजेलिटी भी।

मेरी प्रतिक्रिया (आश्रित) और भविष्यवक्ता (रजिस्ट्रार) दोनों के पास विशाल कर्टोसिस की यह संपत्ति होगी। इसलिए मेरे पास प्रतिगमन समीकरण के दोनों ओर ये वापसी प्रक्रियाएँ होंगी। यदि गैर-सामान्यता उन गड़बड़ियों में फैल जाती है जो केवल मेरे मानक त्रुटियों को उच्च विचरण करेंगे?

(शायद मुझे तिरछा मजबूत बूटस्ट्रैप चाहिए?)


3
1) आप इसे quant.stackexchange.com साइट पर ले जाना चाह सकते हैं। 2) समस्या से आपका क्या अभिप्राय है? क्षणों पर आउटलेयर के प्रभाव पर एक संपूर्ण साहित्य है। यह अक्सर एक विज्ञान की तुलना में एक कला का अधिक हो सकता है।
जॉन

2
"कोई दिक़्क़त है क्या?" बहुत अस्पष्ट है। आप इन आंकड़ों के साथ क्या करना चाहते हैं? आपके विशाल कुर्तोज़ विशाल बाएँ तिरछा से जुड़े हुए हैं। चूंकि लॉग (पी 2 / पी 1) = लॉग पी 2 - लॉग पी 1, एक विशाल बाएं तिरछा इंगित करता है कि कुछ समय थे जब यह सामान्य मामले की तुलना में पी 2 से बहुत कम था, यानी पी 1 बहुत अधिक था। दिवालिया होने वाली कंपनी या ऐसा कुछ हो सकता है।
पीटर Flom

इस बारे में क्षमा करें - मैंने अपने ओपी में संशोधन किया है।

1
लॉग-रिटर्न आमतौर पर तिरछा और भारी पूंछ वाले होते हैं। इस कारण से लचीला वितरण पर विचार करना पसंद किया जाता है जो इस व्यवहार को पकड़ सकता है। उदाहरण 1 और 2 के लिए देखें ।

आपको L-क्षणों के आधार पर कुटोसिस के उपायों पर एक नजर डालनी चाहिए
kjetil b halvorsen

जवाबों:


2

भारी पूंछ वाले लैम्बर्ट डब्ल्यू एक्स एफ या तिरछे लैम्बर्ट डब्ल्यू एक्स एफ वितरण पर एक नज़र डालें (अस्वीकरण: मैं लेखक हूं)। आर में उन्हें लैंबर्टडब्ल्यू पैकेज में लागू किया जाता है।

संबंधित पोस्ट:

yएक्स

यहां इक्विटी फंड रिटर्न पर लागू लैम्बर्ट डब्ल्यू एक्स गौसियन अनुमानों का एक उदाहरण है।

library(fEcofin)
ret <- ts(equityFunds[, -1] * 100)
plot(ret)

समय श्रृंखला प्लॉट इक्विटी फंड

रिटर्न के सारांश मैट्रिक्स ओपी के पद के समान ही हैं (चरम के रूप में नहीं)।

data_metrics <- function(x) {
  c(mean = mean(x), sd = sd(x), min = min(x), max = max(x), 
    skewness = skewness(x), kurtosis = kurtosis(x))
}
ret.metrics <- t(apply(ret, 2, data_metrics))
ret.metrics

##          mean    sd    min   max skewness kurtosis
## EASTEU 0.1300 1.538 -18.42 12.38   -1.855    28.95
## LATAM  0.1206 1.468  -6.06  5.66   -0.434     4.21
## CHINA  0.0864 0.911  -4.71  4.27   -0.322     5.42
## INDIA  0.1515 1.502 -12.72 14.05   -0.505    15.22
## ENERGY 0.0997 1.187  -5.00  5.02   -0.271     4.48
## MINING 0.1315 1.394  -7.72  5.69   -0.692     5.64
## GOLD   0.1098 1.855 -10.14  6.99   -0.350     5.11
## WATER  0.0628 0.748  -5.07  3.72   -0.405     6.08

अधिकांश श्रृंखला स्पष्ट रूप से गैर-सामान्य विशेषताओं (मजबूत तिरछापन और / या बड़े कुर्तोसिस) दिखाती है। चलो प्रत्येक श्रृंखला को एक भारी पूंछ वाले लैंबर्ट डब्ल्यू एक्स गॉसियन वितरण (= टुके के एच) का उपयोग करते हुए क्षणों के आकलनकर्ता ( IGMM) के तरीकों का उपयोग करते हैं ।

library(LambertW)
ret.gauss <- Gaussianize(ret, type = "h", method = "IGMM")
colnames(ret.gauss) <- gsub(".X", "", colnames(ret.gauss))

plot(ts(ret.gauss))

गौसीअनाइज़्ड रिटर्न का टाइम सीरीज़ प्लॉट

समय श्रृंखला के भूखंड बहुत कम पूंछ दिखाते हैं और समय के साथ अधिक स्थिर भिन्नता (हालांकि स्थिर नहीं है)। गॉसिसाइज्ड टाइम सीरीज़ की पैदावार पर फिर से मेट्रिक्स की गणना:

ret.gauss.metrics <- t(apply(ret.gauss, 2, data_metrics))
ret.gauss.metrics

##          mean    sd   min  max skewness kurtosis
## EASTEU 0.1663 0.962 -3.50 3.46   -0.193        3
## LATAM  0.1371 1.279 -3.91 3.93   -0.253        3
## CHINA  0.0933 0.734 -2.32 2.36   -0.102        3
## INDIA  0.1819 1.002 -3.35 3.78   -0.193        3
## ENERGY 0.1088 1.006 -3.03 3.18   -0.144        3
## MINING 0.1610 1.109 -3.55 3.34   -0.298        3
## GOLD   0.1241 1.537 -5.15 4.48   -0.123        3
## WATER  0.0704 0.607 -2.17 2.02   -0.157        3

IGMM3Gaussianize()scale()

सिंपल बिवरिएट रिग्रेशन

आरएसटीयू,टीआरमैंएनडीमैं,टी

layout(matrix(1:2, ncol = 2, byrow = TRUE))
plot(ret[, "INDIA"], ret[, "EASTEU"])
grid()
plot(ret.gauss[, "INDIA"], ret.gauss[, "EASTEU"])
grid()

बिखरा हुआ भारत और EASTEU

मूल श्रृंखला के बाएं स्कैल्प्लॉट से पता चलता है कि मजबूत आउटलेर एक ही दिन में नहीं थे, लेकिन भारत और यूरोप में अलग-अलग समय पर; इसके अलावा यह स्पष्ट नहीं है कि यदि केंद्र में डेटा क्लाउड कोई सहसंबंध या नकारात्मक / सकारात्मक निर्भरता का समर्थन नहीं करता है। चूंकि आउटलेर्स दृढ़ता से विचरण और सहसंबंध के अनुमानों को प्रभावित करते हैं, इसलिए यह निर्भरता को देखने के लिए है कि हटाए गए भारी पूंछ (सही स्कैटरप्लॉट) के साथ निर्भरता है। यहां पैटर्न बहुत अधिक स्पष्ट हैं और भारत और पूर्वी यूरोप के बाजार के बीच सकारात्मक संबंध स्पष्ट हो जाता है।

# try these models on your own
mod <- lm(EASTEU ~ INDIA * CHINA, data = ret)
mod.robust <- rlm(EASTEU ~ INDIA, data = ret)
mod.gauss <- lm(EASTEU ~ INDIA, data = ret.gauss)

summary(mod)
summary(mod.robust)
summary(mod.gauss)

दानेदार करणीयता

वीआर(5)पी=5

library(vars)  
mod.vars <- vars::VAR(ret[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars, "INDIA")$Granger


## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars
## F-Test = 3, df1 = 5, df2 = 3000, p-value = 0.02

causality(mod.vars, "EASTEU")$Granger
## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars
## F-Test = 4, df1 = 5, df2 = 3000, p-value = 0.003

हालांकि, गाऊसीकृत डेटा के लिए जवाब अलग है! यहां परीक्षण H0 को अस्वीकार नहीं कर सकता है कि "INDIA ग्रेंजर-कारण EASTEU नहीं करता है ", लेकिन फिर भी यह अस्वीकार करता है कि "EASTEU Granger- कारण INDIA नहीं है"। इसलिए गाऊसीकृत डेटा परिकल्पना का समर्थन करता है कि यूरोपीय बाजार अगले दिन भारत में बाजार चलाते हैं।

mod.vars.gauss <- vars::VAR(ret.gauss[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars.gauss, "INDIA")$Granger

## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars.gauss
## F-Test = 0.8, df1 = 5, df2 = 3000, p-value = 0.5

causality(mod.vars.gauss, "EASTEU")$Granger

## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars.gauss
## F-Test = 2, df1 = 5, df2 = 3000, p-value = 0.06

वीआर(5)


1

क्या जरूरत है एक संभावना वितरण मॉडल है जो डेटा को बेहतर ढंग से फिट करता है। कभी-कभी, कोई परिभाषित क्षण नहीं होते हैं। ऐसा ही एक वितरण कॉची वितरण है। हालांकि कॉची वितरण में अपेक्षित मूल्य के रूप में एक माध्य है, कोई स्थिर औसत मूल्य नहीं है, और कोई स्थिर उच्च क्षण नहीं है। इसका मतलब यह है कि जब कोई डेटा इकट्ठा करता है, तो वास्तविक मापें फसल होती हैं जो आउटलेर की तरह दिखती हैं, लेकिन वास्तविक माप हैं। उदाहरण के लिए, यदि किसी का दो सामान्य वितरण F और G है, जिसका अर्थ शून्य है, और एक F / G को विभाजित करता है, तो परिणाम का कोई पहला क्षण नहीं होगा और एक काउची वितरण होगा। इसलिए हम ख़ुशी से डेटा इकट्ठा करते हैं, और यह 5,3,9,6,2,4 की तरह ठीक दिखता है और हम एक मतलब की गणना करते हैं जो स्थिर दिखता है, फिर, अचानक हमें एक -32739876 मूल्य मिलता है और हमारा औसत मूल्य अर्थहीन हो जाता है। लेकिन ध्यान दें, माध्य 4, स्थिर है। ऐसा लंबी-लंबी वितरण के साथ है।

संपादित करें: आप आज़ादी के 2 डिग्री के साथ छात्र के टी-वितरण की कोशिश कर सकते हैं। यह वितरण सामान्य वितरण की तुलना में अधिक लंबा है, तिरछापन और कुर्तोसिस अस्थिर हैं ( सिस , मौजूद नहीं हैं), लेकिन माध्य और विचरण परिभाषित हैं, अर्थात, स्थिर हैं।

अगला संपादित करें: एक संभावना हो सकता है कि Theil रिग्रेशन का उपयोग किया जाए। वैसे भी, यह एक विचार है, क्योंकि थिल अच्छा काम करेगा चाहे पूंछ कैसी दिखे। आईएलएल एमएलआर किया जा सकता है (माध्य ढलानों का उपयोग करके कई रैखिक प्रतिगमन)। मैंने कभी भी हिस्टोग्राम डेटा फिटिंग के लिए Theil नहीं किया है। लेकिन, मैंने आत्मविश्वास के अंतराल को स्थापित करने के लिए एक जैकनाइफ संस्करण के साथ Theil किया है। ऐसा करने का फायदा यह है कि Theil को इस बात की परवाह नहीं है कि वितरण आकार क्या हैं, और, उत्तर आम तौर पर OLS की तुलना में कम पक्षपाती होते हैं क्योंकि आमतौर पर OLS का उपयोग तब किया जाता है जब समस्याग्रस्त स्वतंत्र अक्ष संस्करण होता है। ऐसा नहीं है कि थिल पूरी तरह से असंतुलित है, यह मध्य ढलान है। उत्तरों का एक अलग अर्थ है, यह आश्रित और स्वतंत्र चर के बीच एक बेहतर समझौता करता है जहां OLS आश्रित चर के कम से कम त्रुटि पूर्वसूचक पाता है


2
अच्छी जानकारी, धन्यवाद। क्या आप आगे पढ़ने के लिए कुछ (काफी कॉम्पैक्ट) स्रोतों को जानते हैं? मुझे लंबी पूंछ के साथ एक पूरी तरह से अलग समस्या है, लेकिन मुझे लगता है कि मेरा डेटा विभिन्न परिदृश्यों का मिश्रण वितरण है।
flaschenpost

मैं गणितज्ञ और फिटिंग वितरण का उपयोग करता हूं और साथ ही वितरण के टुकड़े को परिभाषित करना उस भाषा में मुश्किल नहीं है। उदाहरण के लिए, इसे देखें । सामान्य तौर पर, यादृच्छिक चर कनवल्शन द्वारा जोड़ते हैं, लेकिन व्यवहार में घनत्व कार्यों का दृढ़ संकल्प चुनौतीपूर्ण है। कुछ लोग सिर्फ टुकड़ा-वार परिभाषित घनत्वों के लिए घनत्व कार्यों को परिभाषित करते हैं, उदाहरण के लिए एक भूकंप के लिए एक भारी घाघरा वितरण के लिए एक प्रकाश घातीय पूंछ को जोड़ने के लिए मॉडल भूकंप आवृत्ति के लिए अधिकतम मूल्य के बाद। @flaschenpost
कार्ल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.