क्या मैं तिरछा सामान्य डेटा के लिए परिकल्पना परीक्षण कर सकता हूं?


11

मेरे पास डेटा का एक संग्रह है, जिसे मैंने मूल रूप से सोचा था कि सामान्य रूप से वितरित किया गया था। तब मैंने वास्तव में इसे देखा, और महसूस किया कि यह नहीं था, ज्यादातर इसलिए क्योंकि डेटा तिरछा है, और मैंने एक शॉपीरो-विकक्स टेस्ट भी किया।

मैं अभी भी सांख्यिकीय तरीकों का उपयोग करके इसका विश्लेषण करना चाहता हूं, और इसलिए मैं तिरछा-सामान्यता के लिए परिकल्पना परीक्षण करना चाहता हूं।

इसलिए मैं जानना चाहता हूं कि क्या तिरछी सामान्यता के लिए परीक्षण करने का एक तरीका है, और यदि संभव हो तो, मेरे लिए परीक्षण करने के लिए एक पुस्तकालय।

जवाबों:


8

एक तिरछा-सामान्य वितरण के लिए डेटा को कैसे फिट किया जाए, इसके बारे में आप पहले सिद्धांतों से अधिकतम संभावना अनुमानक की गणना कर सकते हैं। सबसे पहले ध्यान दें कि स्थान पैरामीटर के साथ तिरछा सामान्य वितरण के लिए प्रायिकता घनत्व समारोह , पैमाने पैरामीटर और आकार पैरामीटर हैω अल्फाξωα

2ωϕ(xξω)Φ(α(xξω))

जहां मानक सामान्य घनत्व फ़ंक्शन है और मानक सामान्य CDF है। ध्यान दें कि यह घनत्व इस प्रश्न के उत्तर में वर्णित वर्ग का सदस्य है ।Φ ( )ϕ()Φ()

इस वितरण से स्वतंत्र टिप्पणियों के नमूने के आधार पर लॉग-लाइबिलिटी है:n

nlog(ω)+i=1nlogϕ(xξω)+logΦ(α(xξω))

यह एक तथ्य है कि इस MLE के लिए कोई बंद फॉर्म समाधान नहीं है। लेकिन, इसे संख्यात्मक रूप से हल किया जा सकता है। उदाहरण के लिए, में R, आप संभावना फ़ंक्शन को कोड कर सकते हैं (नोट के रूप में, मैंने इसे पूरी तरह से पारदर्शी बनाने के लिए संभव से कम कॉम्पैक्ट / कुशल बना दिया है कि यह ऊपर दिए गए संभावना फ़ंक्शन की गणना कैसे करता है):

set.seed(2345)

# generate standard normal data, which is a special case
n = 100 
X = rnorm(n) 

# Calculate (negative) log likelihood for minimization
# P[1] is omega, P[2] is xi and P[3] is alpha
L = function(P)
{

    # positivity constraint on omega
    if( P[1] <= 0 ) return(Inf)

    S = 0
    for(i in 1:n) 
    {
        S = S - log( dnorm( (X[i] - P[2])/P[1] ) ) 
        S = S - log( pnorm( P[3]*(X[i] - P[2])/P[1] ) ) 
    }


    return(S + n*log(P[1]))
}

अब हम केवल इस फ़ंक्शन को कम से कम करते हैं (अर्थात संभावना को अधिकतम करते हैं)। आप सिम्पलेक्स एल्गोरिथम का उपयोग करके डेरिवेटिव की गणना किए बिना ऐसा कर सकते हैं , जो optim()पैकेज में डिफ़ॉल्ट कार्यान्वयन है R

तिरछेपन के लिए परीक्षण कैसे करें के बारे में: हम स्पष्ट रूप से तिरछा-सामान्य बनाम सामान्य के लिए परीक्षण कर सकते हैं (क्योंकि सामान्य एक सबमॉडल है) को विवश करके और संभावना अनुपात परीक्षण करकेα=0

# log likelihood constraining alpha=0. 
L2 = function(Q) L(c(Q[1],Q[2],0))

# log likelihood from the constrained model
-optim(c(1,1),L2)$value
[1] -202.8816

# log likelihood from the full model
-optim(c(1,1,1),L)$value
[1] -202.0064

# likelihood ratio test statistic
LRT = 2*(202.8816-202.0064)

# p-value under the null distribution (chi square 1)
1-pchisq(LRT,1)
[1] 0.1858265

इसलिए हम अशक्त परिकल्पना को अस्वीकार नहीं करते हैं कि (यानी कोई तिरछा नहीं)।α=0

यहाँ तुलना सरल थी, क्योंकि सामान्य वितरण एक सबमॉडल था। अन्य, अधिक सामान्य मामलों में, आप तिरछे-सामान्य की तुलना अन्य संदर्भ वितरणों से कर सकते हैं, उदाहरण के लिए, AIC s (जैसा कि यहां किया गया ) यदि आप सभी प्रतियोगी फिट में अधिकतम संभावना अनुमानकों का उपयोग कर रहे हैं। उदाहरण के लिए, आप एक गामा वितरण के तहत और तिरछा सामान्य के तहत अधिकतम संभावना द्वारा डेटा को फिट कर सकते हैं और देख सकते हैं कि क्या जोड़ा संभावना तिरछी-सामान्य की गयी जटिलता (2 के बजाय 3 पैरामीटर) को सही ठहराती है। आप तिरछा-सामान्य परिवार से सर्वश्रेष्ठ फिटिंग अनुमान के साथ अपने डेटा की तुलना करने के लिए एक नमूना Kolmogorov Smirnov परीक्षण का उपयोग करने पर भी विचार कर सकते हैं ।


1
+1, मुझे लगता है कि यह एक स्पष्ट, गहन और रचनात्मक उत्तर है। मेरे पास अंतिम पैराग्राफ में 1 नाइटपिक / चिंता है, एआईसी का उपयोग फिर से करें। एक समस्या जो मेरे पास है / विभिन्न सूचना मानदंड हैं वे मान लेते हैं कि सभी पैरामीटर डेटा को फिट करने के लिए मॉडल की क्षमता में समान रूप से योगदान करते हैं। अलग-अलग कई प्रतिगमन मॉडल का मूल्यांकन करते समय, मुझे लगता है कि यह ठीक है; हालाँकि यदि विभिन्न प्रकार के वितरणों की जांच की जाती है, तो यह मेरे लिए प्राथमिकता नहीं है कि सभी मापदंडों में समान लचीलापन हो। इस प्रकार, मैं असहज हूँ w / कि। इस मुद्दे पर आपकी क्या स्थिति है?
गुंग - को पुनः स्थापित मोनिका

+1 मैं अज़्ज़लिनी तिरछी सामान्य के साथ कुछ मुद्दों के बारे में थोड़ा चिंतित हूँ: (1) फ़िशर सूचना मैट्रिक्स ऑफ़ द , स्केवनेस पैरामीटर, विलक्षण है जो इस बिंदु पर ह्रास संबंधी समस्याओं को इंगित करता है, विशेष रूप से जब संभावना अनुपात सांख्यिकीय का उपयोग करना; (2) की प्रोफाइल संभावना आमतौर पर बहुत सपाट है ; (3) इसके दो विभक्ति बिंदु हैं और कुछ डेटा सेट के लिए का संयुक्त MLE मौजूद नहीं है। अल्फा = 0 अल्फा ( μ , σ , अल्फा )αα=0α(μ,σ,α)

@ गुंग, यह एक अच्छी बात है। मैं एआईसी का उपयोग किसी भी चीज़ से अधिक एक उदाहरण के रूप में कर रहा था - कुछ और इस्तेमाल किया जा सकता है - लेकिन मैंने देखा है कि लोग एआईसी का उपयोग विभिन्न त्रुटि वितरण वाले मॉडल की तुलना करने के लिए करते हैं, जो प्रभावी रूप से यह एक ही धारणा बना रहा है कि सभी पैरामीटर "समान बनाए गए" हैं। क्या आपने इस विषय पर कोई साहित्य देखा है? मुझे दिलचस्पी होगी।
मैक्रों

@Procrastinator, जब , आपके पास उप-मॉडल के रूप में नियमित सामान्य वितरण है। फिशर जानकारी प्राप्त किए बिना यह तुलना करना सीधा है। पुन: (2), हाँ यह सच है, यह भी सच है कि इस वितरण के साथ प्राप्त होने वाला तिरछापन का स्तर बहुत मामूली है (लगभग होता है जो कि डाइवर्जेस टू ) के रूप में होता है , इसलिए कभी भी। डेटा सेट तिरछा के उस स्तर को प्रदर्शित करता है, की संभावना बहुत सपाट होगी (यानी धीरे-धीरे डायवर्जेस के रूप में बढ़ रही है )। मुझे लगता है कि अंतिम टिप्पणी भी (3) से संबंधित थी± .9 अल्फा ± अल्फा अल्फाα=0±.9α±αα
मैक्रो

1
@ मैक्रो इसके लिए धन्यवाद। यह इस बात पर भी निर्भर करता है कि आप तिरछा कैसे मापते हैं, पल-पल के उपाय आजकल बहुत इस्तेमाल नहीं किए जाते हैं क्योंकि वे केवल लिग्थ टेंट के वितरण के लिए मौजूद हैं। समस्या यह भी है कि के प्रोफाइल संभावना में दो विभक्ति बिंदु हैं (जैसा कि मेरी पहली लिंक में दिखाया गया है)। अज़ज़लिनी की वेबसाइट में, उन्होंने यह भी उल्लेख किया है कि MLE कुछ डेटा सेटों के लिए मौजूद नहीं है जो कि वे भी विशेषता रखते हैं। यह इस वितरण के बारे में एक नाजुक बिंदु है जिसने बहुत सारी आलोचनाओं का उत्पादन किया है। चर्चा के लिए धन्यवाद। α

5

मैं एक सांख्यिकीविद् हूं जो 30 से अधिक वर्षों से इस पेशे में काम कर रहा है और इस पोस्ट को पढ़ने से पहले मैंने तिरछा सामान्य वितरण के बारे में कभी नहीं सुना था। यदि आपके पास अत्यधिक तिरछा डेटा है, तो विशेष रूप से तिरछा सामान्य देखने के लिए क्यों चाहते हैं, तो लॉगानॉर्मल या गामा के विपरीत? जब भी आपके पास वितरण का एक पैरामीट्रिक परिवार होता है जैसे कि गामा, लॉगनॉर्मल या तिरछा सामान्य तो आप फिट टेस्ट की अच्छाई लागू कर सकते हैं जैसे ची-स्क्वायर या कोलमोगोरोव-स्मिरनोव।


5
अज़ज़लिनी तिरछा सामान्य 1985 में प्रस्तावित एक लोकप्रिय वितरण है। इसमें पूरी वास्तविक रेखा पर समर्थन है।

1
@Procrastinator मुझे पता है कि अब और शायद पहले इसके बारे में सुना होना चाहिए। लेकिन मुझे लगता है कि मेरी बात यह है कि जब से मैंने इसके बारे में नहीं सुना था, शायद यह अन्य तिरछे वितरणों की तुलना में थोड़ा अधिक अस्पष्ट है। मुझे पूरी वास्तविक रेखा पर समर्थन के बारे में बात मिलती है, क्योंकि मेरे उदाहरणों के विपरीत, जिनके पास एक शिफ्ट पैरामीटर जोड़ा जाता है, केवल [0.∞) या {a, shift) पर समर्थन है। ये वितरण डेटा का वितरण कैसे किया जाता है, इसका वर्णन करने के लिए सभी सन्निकटन हैं। क्या हम वास्तव में जानते हैं कि सभी नकारात्मक मूल्य संभव हैं? व्यावहारिक मामलों में डेटा में संभवतः निचले और ऊपरी सीमा होते हैं।
माइकल आर। चेरिक

1
@Procrastinator का मेरी टिप्पणी से कोई लेना देना नहीं है। मैं यह कह रहा हूं कि वास्तविक डेटा अक्सर तब भी बंधे होते हैं, जब उन्हें बिना वितरण के अच्छी तरह से अनुमानित किया जा सकता है।
माइकल आर। चेरिक

1
@ प्रोक्रास्टिनेटर काफी नहीं। यदि आपको संख्या का एक निर्धारित सेट दिया जाता है, तो आप डेटा से नहीं बता सकते हैं कि वे असतत या निरंतर वितरण से आते हैं या नहीं। सीमा के लिए भी यही सच है। मैं यह कह रहा हूं कि डेटा के अलावा आप जो भी माप रहे हैं उसके आधार पर सख्ती से पता करेंगे कि क्या यह सीमाबद्ध और निरंतर या असतत है या नहीं। यदि उदाहरण के लिए आप किसी ऐसे व्यक्ति का वजन माप रहे हैं जिसे आप जानते हैं कि वजन 0 से अधिक है और शारीरिक सीमाओं से ऊपर है तो 5000 पाउंड कहते हैं।
माइकल आर। चेरिक

1
इसके अलावा, भले ही वजन माप केवल दशमलव स्थानों की एक निश्चित संख्या के लिए निर्धारित किया जा सकता है, यह उचित है कि वजन को निरंतर माना जाए। अब यदि आप 10 बार एक सिक्का फ्लिप करने जा रहे हैं, तो आप जानते हैं कि आपके सिर की संख्या 0 और 10 के बीच पूर्णांक होनी चाहिए (इसलिए असतत और बाध्य)। मेरा कहना है कि वितरण पर सीमा आमतौर पर बहुत स्पष्ट है। निरंतर और असतत वितरणों के बीच निर्णय लेते समय यह उतना स्पष्ट नहीं है।
माइकल आर। चेरिक

1

तो अंत में मेरा समाधान fGarch पैकेज को डाउनलोड करना था , और snormFitFGarch द्वारा Skewed-Normal के मापदंडों के लिए MLE प्राप्त करना था।

फिर मैंने उन मापदंडों को प्लग किया, dsnormजो फोगार्क द्वारा प्रदान किए गए फ़ंक्शन के साथ , एक कोलमोगोरोव-स्मिरनोव परीक्षण में।


आप MLE और Kolmogorov-Smirnov परीक्षण को कैसे जोड़ सकते हैं, जो एक गैर-परीक्षणात्मक परीक्षण है?

मैं यह बताना चाहता हूं कि मुझे कुछ भी पता नहीं है कि मैं क्या कर रहा हूं, और बस आँख बंद करके भटक रहा हूं। मैंने यह मान लिया कि केएस ची-स्क्वेड की तरह काम करता है, और यह मेरे द्वारा किए गए नमूना डेटा के बीच अंतरों पर ध्यान देता है, और वितरण स्वयं क्या होना चाहिए। R का ks.test सबसे पहले नमूना डेटा, और फिर उस वितरण के मापदंडों के साथ एक वितरण स्वीकार करता है। मैंने MLEs को मापदंडों के रूप में उपयोग किया। इसके अलावा, ची-चुकता के काम करने की मेरी धारणा / पुनर्विचार भी गलत हो सकता था ...
1927

मुझे लगता है कि आपको इस दृष्टिकोण से सावधान रहना होगा। सबसे पहले, आपको जवाब देना होगा: क्या आप अपने डेटा की तिरछी सामान्यता के लिए फिट टेस्ट की अच्छाई का संचालन करना चाहते हैं? या, क्या आप जाँचना चाहते हैं कि डेटा सामान्य है या तिरछा सामान्य है, अर्थात ? H0:λ=0

दूसरा एक मैं मान रहा था कि यदि फिट काफी खराब था, तो मुझे एक छोटा पी मान मिलेगा, और मैं खुशी से को अस्वीकार कर सकता हूं । जो मैंने किया। एच H0=λ=0H0
Squidly

1
@ प्रोक्रेस्टिनेटर अनुभवजन्य सीएफडी पर आधारित फिट परीक्षणों की कई अच्छाईयां हैं। कोलमोगोरोव स्मिरनोव एक है। इन परीक्षण का उपयोग किसी भी विशिष्ट वितरण के लिए अनुभवजन्य सीएफडी की तुलना करने के लिए किया जा सकता है (और समायोजन के साथ जब अज्ञात मापदंडों का परीक्षण करने से पहले अनुमान लगाया जाता है। आप बिल्कुल सही हैं कि उदाहरण के लिए सामान्यता के लिए एक वितरण को अस्वीकार करना यह नहीं बताता है कि वितरण कैसे भिन्न होते हैं। लेकिन Mrs.ones) यह औपचारिक रूप से वह महत्वपूर्ण तिरछापन के लिए परीक्षण कर सकते हैं करने के लिए और फिर कर एक एस या तिरछा सामान्य के लिए ची वर्ग परीक्षण चाहता समायोजन कई परीक्षण के लिए बनाया जा सकता है क्यों ओ पी के साथ आत्मसंतुष्ट हो।।?
माइकल आर Chernick

0

की जाँच करें http://www.egyankosh.ac.in/bitstream/123456789/25807/1/Unit6.pdf और http://en.wikipedia.org/wiki/Skewness

आप तिरछापन के लिए कार्ल पियर्सन परीक्षण का उपयोग कर सकते हैं। मानक विचलन के घन के तीसरे क्षण के अनुपात को तिरछापन का गुणांक कहा जाता है। सममित वितरण में तिरछा = 0 होगा


2
मैं अपने डेटा के तिरछा काम नहीं करना चाहता। मुझे पता है कि यह तिरछा है। मैं जानना चाहता हूं कि क्या मेरा डेटा एक तिरछा-सामान्य वितरण का अनुसरण करता है।
Squidly

2
आप किस सॉफ्टवेयर का उपयोग कर रहे हैं, आर में एक पैकेज 'एसएन' (तिरछा सामान्य) है जिसमें ऐसे कार्य होते हैं जो एमएल अनुमानों की गणना करते हैं। मैं हालांकि सटीक कार्यों के बारे में सुनिश्चित नहीं हूँ - इस साइट की जाँच करें R पैकेज पर विवरण के लिए azzalini.stat.unipd.it/SN
NaN

0

SPSS में आप तिरछापन का अनुमान प्राप्त कर सकते हैं (विश्लेषण और फिर वर्णनात्मक और फिर तिरछा को चिह्नित करके) तब आपको तिरछापन और एसई (मानक त्रुटि) का स्कोर प्राप्त होता है। इसके एसई द्वारा तिरछा भाग करें और यदि आपका स्कोर + -1.96 के बीच सामान्य रूप से तिरछा है। यदि इसका तिरछा नहीं है, तो वहाँ कई गैर पैरामीट्रिक परीक्षण हैं! भाग्य आपका साथ दे और ढेर सारी शुभकामनाएं!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.