परिमित विचरण के लिए परीक्षण?


29

क्या किसी नमूने को दिए गए यादृच्छिक चर के भिन्नता के परिमितता (या अस्तित्व) के लिए परीक्षण करना संभव है? एक अशक्त के रूप में, या तो {विचरण मौजूद है और परिमित है} या {विचरण मौजूद नहीं है / अनंत है} स्वीकार्य होगा। दार्शनिक रूप से (और कम्प्यूटेशनल रूप से), यह बहुत अजीब लगता है क्योंकि परिमित विचरण के बिना आबादी के बीच कोई अंतर नहीं होना चाहिए, और एक बहुत बड़े विचरण के साथ (जैसे कि> 10400 ), इसलिए मुझे उम्मीद नहीं है कि इस समस्या को हल किया जा सकता है।

एक दृष्टिकोण जो मुझे सुझाया गया था, वह केंद्रीय सीमा प्रमेय के माध्यम से था: यह मानते हुए कि नमूने आईआईडी हैं, और जनसंख्या का एक छोटा सा अर्थ है, कोई भी, किसी भी तरह से जांच कर सकता है कि नमूना का नमूना आकार बढ़ाने के साथ सही मानक त्रुटि है या नहीं। मुझे यकीन नहीं है कि मुझे विश्वास है कि यह विधि काम करेगी, हालांकि। (विशेष रूप से, मैं यह नहीं देखता कि इसे एक उचित परीक्षा में कैसे बनाया जाए।)


1
प्रासंगिक: आंकड़े.stackexchange.com/questions/94402/… यदि थोड़ी सी भी संभावना है कि विचरण मौजूद नहीं है, तो आप एक मॉडल का उपयोग करके बेहतर हैं जो परिमित विचरण को नहीं मानता है। इसके परीक्षण के बारे में भी मत सोचो।
kjetil b halvorsen

जवाबों:


13

नहीं, यह संभव नहीं है, क्योंकि आकार का एक परिमित नमूना nमज़बूती से उन लोगों के बीच अंतर नहीं कर सकता है, जो कहते हैं, एक सामान्य जनसंख्या और एक सामान्य आबादी जो कि एक संचय वितरण के 1/N राशि से दूषित होती है जहां N >> n । (निश्चित रूप से पूर्व में परिमित विचरण है और उत्तरार्द्ध में अनंत विचरण है।) इस प्रकार किसी भी पूर्णतया अपारदर्शी परीक्षण में ऐसे विकल्पों के प्रति मनमाने ढंग से कम शक्ति होगी।


4
यह बहुत अच्छी बात है। हालाँकि, अधिकांश परिकल्पना परीक्षणों में कुछ विकल्प के मुकाबले मनमाने ढंग से कम शक्ति नहीं होती है? जैसे शून्य मतलब के लिए एक परीक्षण जब मतलब के साथ एक जनसंख्या से एक नमूना दिया बहुत कम बिजली होगा के लिए 0 < | ϵ | छोटे। मुझे अब भी आश्चर्य हो रहा है कि क्या इस तरह के परीक्षण का निर्माण बिल्कुल भी किया जा सकता है, क्या यह कुछ मामलों में कम शक्ति वाला है। ϵ0<|ϵ|
शब्बीशेफ

2
इसके अलावा, 'प्रदूषित' वितरण जैसे कि आप हमेशा मुझे पहचानते हैं 'पहचान वितरित' होने के विचार के साथ बाधाओं का सामना करना पड़ता है। शायद आप सहमत होंगे। ऐसा लगता है कि यह कहते हुए कि नमूने वितरण के बिना कुछ वितरण से नमूने खींचे गए हैं , व्यर्थ है (ठीक है,) स्वतंत्र रूप से आईआईडी का हिस्सा सार्थक है ’)।
शब्बीशेफ

2
(1) आप कम शक्ति के बारे में सही हैं, लेकिन यहाँ समस्या (यह मुझे प्रतीत होती है) यह है कि "परिमित" से "अनंत" तक कोई क्रमिक कदम नहीं है: समस्या हमें बताने के लिए एक प्राकृतिक पैमाना नहीं है "बड़े" प्रस्थान की तुलना में अशक्त से "छोटा" प्रस्थान होता है। (२) वितरण का स्वरूप विचारधारा से स्वतंत्र है। मेरा यह मतलब नहीं है कि, 1% डेटा कॉची से आएगा और 99% एक नॉर्मल से। मेरा मतलब है कि 100% डेटा एक वितरण से आता है जो लगभग सामान्य है लेकिन कैची पूंछ है। इस अर्थ में एक दूषित वितरण के लिए डेटा iid हो सकता है।
whuber

2
क्या किसी ने इस पेपर को पढ़ा है? sciencedirect.com/science/article/pii/S0304407615002596
क्रिस्टोफ Hanck

3
यदि हर अवलोकन सटीक रूप से उसी मिश्रण प्रक्रिया से उत्पन्न होता है, जो वे समान रूप से वितरित की जाती हैं, तो प्रत्येक एक समान मिश्रण वितरण से ड्रा के रूप में आता है। यदि कुछ प्रक्रियाएं एक प्रक्रिया से आवश्यक हैं और अन्य आवश्यक रूप से एक अलग प्रक्रिया से हैं (अवलोकन 1 से 990 सामान्य हैं और 991 से 1000 तक अवलोकन हैं कॉची, कहते हैं), तो वे पहचान के रूप में वितरित नहीं किए जाते हैं (भले ही संयुक्त नमूना अप्रभेद्य हो सकता है 99% -1% मिश्रण से)। यह अनिवार्य रूप से आपके द्वारा उपयोग की जाने वाली प्रक्रिया के मॉडल के लिए नीचे आता है।
Glen_b -Reinstate मोनिका

16

आप वितरण को जाने बिना निश्चित नहीं हो सकते। लेकिन कुछ चीजें हैं जो आप कर सकते हैं, जैसे कि "आंशिक विचरण" कहा जा सकता है, यानी यदि आपके पास आकार का एक नमूना है , तो आप पहले n शब्दों से अनुमानित विचरण आकर्षित करते हैं, जिसमें n 2 से चल रहा है एनNnnN

एक परिमित जनसंख्या विचरण के साथ, आप आशा करते हैं कि आंशिक विचरण जल्द ही जनसंख्या विचरण के करीब हो जाएगा।

एक अनंत जनसंख्या विचरण के साथ, आप आंशिक विचरण में छलांग लगाते हैं, उसके बाद धीमी गति से गिरावट आती है जब तक कि नमूना में बहुत बड़ा मूल्य दिखाई नहीं देता।

यह सामान्य और कॉची यादृच्छिक चर (और एक लॉग स्केल) के साथ एक चित्रण है आंशिक रूप से भिन्न

हो सकता है कि यह आपके वितरण का आकार ऐसा न हो, जो आपके लिए एक बहुत बड़े नमूने के आकार की आवश्यकता हो, जो इसे पर्याप्त आत्मविश्वास के साथ पहचानने के लिए आवश्यक हो, यानी जहां परिमित विचरण के साथ वितरण के लिए बहुत बड़े मूल्य निष्पक्ष (लेकिन अत्यंत नहीं) दुर्लभ हैं, या अनंत विचरण के साथ वितरण के लिए अत्यंत दुर्लभ हैं। दिए गए वितरण के लिए नमूना आकार होंगे जो इसकी प्रकृति को प्रकट नहीं करने की तुलना में अधिक संभावना रखते हैं; इसके विपरीत, किसी दिए गए नमूने के आकार के लिए, ऐसे वितरण होते हैं जो नमूना के उस आकार के लिए अपने जालों को छिपाने के लिए नहीं की तुलना में अधिक होते हैं।


4
+1 मुझे यह पसंद है क्योंकि (ए) एक ग्राफिक आमतौर पर एक परीक्षण से बहुत अधिक पता चलता है और (बी) यह व्यावहारिक है। मैं थोड़ा चिंतित हूं कि इसका एक मनमाना पहलू है: इसका स्वरूप उस क्रम पर (जोरदार, शायद) निर्भर करेगा जिसमें डेटा दिया गया है। जब "आंशिक विचरण" एक या दो चरम मूल्यों के कारण होता है, और वे शुरुआत के करीब आते हैं, तो यह ग्राफिक भ्रामक हो सकता है। मुझे आश्चर्य है कि क्या इस समस्या का कोई अच्छा समाधान है।
whuber

1
महान ग्राफिक के लिए +1। वास्तव में कॉची वितरण में "कोई विचरण" की अवधारणा को ठोस नहीं करता है। @ व्हाइटर: सभी संभावित क्रमपरिवर्तन में डेटा को छाँटना, प्रत्येक के लिए परीक्षण चलाना और किसी तरह का औसत लेना? बहुत कम्प्यूटेशनल रूप से कुशल नहीं है, मैं आपको अनुदान दूंगा :) लेकिन हो सकता है कि आप बस कुछ ही यादृच्छिक क्रमांकन चुन सकें?
n

2
@ naught101 सभी क्रमपरिवर्तन पर एवरेजिंग आपको कुछ भी नहीं बताएगा, क्योंकि आपको पूरी तरह से क्षैतिज रेखा मिलेगी। शायद मुझे गलतफहमी है कि आपका क्या मतलब है?
whuber

1
@ वाउचर: मैं वास्तव में अभिसरण के लिए किसी प्रकार के परीक्षण का औसत लेना चाहता था, न कि ग्राफ का। लेकिन मैं इसे एक बहुत अस्पष्ट विचार प्रदान करूंगा, और यह काफी हद तक इसलिए है क्योंकि मुझे पता नहीं है कि मैं किस बारे में बात कर रहा हूं :)
naught101

7

यहाँ एक और जवाब है। मान लीजिए कि आप समस्या को हल कर सकते हैं, कुछ इस तरह से:

H0: Xt(df=3) versus H1: Xt(df=1).

तब आप एच 0 बनाम एच 1 के एक साधारण नेमन-पीयरसन संभावना अनुपात परीक्षण कर सकते थे । ध्यान दें कि एच 1 है कॉची (अनंत विचरण) और एच 0 सामान्य है छात्र टी : स्वतंत्रता के 3 डिग्री (परिमित विचरण) जो पीडीएफ के साथ ( एक्स | ν ) = Γ ( ν + 1H0H1H1H0 t

f(x|ν)=Γ(ν+12)νπΓ(ν2)(1+x2ν)ν+12,

के लिए । यह देखते हुए सरल यादृच्छिक नमूना डेटा एक्स 1 , x 2 , ... , x n , संभावना अनुपात परीक्षण को खारिज कर दिया एच 0 जब Λ ( एक्स ) = Π n मैं = 1( एक्स मैं | ν = 1 )<x<x1,x2,,xnH0 जहांकश्मीर0चुना जाता है ऐसा है कि पी(Λ(एक्स)>कश्मीर

Λ(x)=i=1nf(xi|ν=1)i=1nf(xi|ν=3)>k,
k0
P(Λ(X)>k|ν=3)=α.

यह bra ( x ) = ( al ) को सरल बनाने के लिए बीजगणित का एक छोटा सा है

Λ(x)=(32)ni=1n(1+xi2/3)21+xi2.

तो, फिर से, हमें एक सरल यादृच्छिक नमूना मिलता है, गणना करें , और H 0 को अस्वीकार करें यदि Λ ( x ) बहुत बड़ा है। कितना बड़ा? यह मजेदार हिस्सा है! यह महत्वपूर्ण मूल्य के लिए एक बंद रूप पाने के लिए कठिन (असंभव?) होने जा रहा है, लेकिन हम इसे करीब से पसंद कर सकते हैं, जैसे कि हम सुनिश्चित करते हैं। यहाँ ऐसा करने का एक तरीका है, R. Suppose α = 0.05 के साथ , और हंसी के लिए, n = 13 कहते हैं ।Λ(x)H0Λ(x)α=0.05n=13

हम के तहत नमूने के एक झुंड उत्पन्न , calculate Λ प्रत्येक नमूने के लिए, और फिर 95 वें quantile पाते हैं।H0Λ

set.seed(1)
x <- matrix(rt(1000000*13, df = 3), ncol = 13)
y <- apply(x, 1, function(z) prod((1 + z^2/3)^2)/prod(1 + z^2))
quantile(y, probs = 0.95)

12.8842(3/2)13k1.9859

H0H1α

अस्वीकरण: यह एक खिलौना उदाहरण है। मेरे पास कोई वास्तविक दुनिया की स्थिति नहीं है जिसमें मैं यह जानने के लिए उत्सुक था कि क्या मेरा डेटा कॉची से आया है जैसा कि 3 डीएफ के साथ छात्र के टी के विपरीत है। और मूल प्रश्न में पैराट्राइज्ड समस्याओं के बारे में कुछ भी नहीं कहा गया था, ऐसा लगता था कि यह एक गैर-पैरामीटर दृष्टिकोण की तलाश में था, जो मुझे लगता है कि दूसरों द्वारा अच्छी तरह से संबोधित किया गया था। इस उत्तर का उद्देश्य भविष्य के पाठकों के लिए है जो प्रश्न के शीर्षक के पार ठोकर खाते हैं और शास्त्रीय धूल भरी पाठ्यपुस्तक के दृष्टिकोण की तलाश में हैं।

H1:ν1


2
α

1
H1:ν2ν>2

2
α

1
αα=2

6

DY1,Y2,,YN

  1. H0:YiNormal(μ,σ)
  2. HA:YiCauchy(ν,τ)

एक परिकल्पना में परिमित विचरण है, एक में अनंत विचरण है। बस बाधाओं की गणना करें:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)P(D,μ,σ|H0,I)dμdσP(D,ν,τ|HA,I)dνdτ

P(H0|I)P(HA|I)

P(D,μ,σ|H0,I)=P(μ,σ|H0,I)P(D|μ,σ,H0,I)
P(D,ν,τ|HA,I)=P(ν,τ|HA,I)P(D|ν,τ,HA,I)

L1<μ,τ<U1L2<σ,τ<U2

(2π)N2(U1L1)log(U2L2)L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσ

s2=N1i=1N(YiY¯)2Y¯=N1i=1NYi

πN(U1L1)log(U2L2)L2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

और अब अनुपात लेते हुए हम पाते हैं कि सामान्य करने वाले स्थिरांक के महत्वपूर्ण हिस्से रद्द हो जाते हैं और हमें मिलते हैं:

P(D|H0,I)P(D|HA,I)=(π2)N2L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσL2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

और सभी इंटीग्रल अभी भी सीमा में उचित हैं ताकि हम प्राप्त कर सकें:

P(D|H0,I)P(D|HA,I)=(2π)N20σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

0σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ=2Nπ0σNexp(Ns22σ2)dσ

अब चर का परिवर्तन करेंλ=σ2dσ=12λ32dλ

2Nπ0λN121exp(λNs22)dλ=2Nπ(2Ns2)N12Γ(N12)

और हम संख्यात्मक कार्य के लिए बाधाओं के लिए एक अंतिम विश्लेषणात्मक रूप में प्राप्त करते हैं:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)×πN+12NN2s(N1)Γ(N12)0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

तो यह परिमित बनाम अनंत विचरण के विशिष्ट परीक्षण के रूप में सोचा जा सकता है। हम इस फ्रेमवर्क में एक और परीक्षण करने के लिए एक टी वितरण भी कर सकते हैं (परिकल्पना का परीक्षण करें कि स्वतंत्रता की डिग्री 2 से अधिक है)।


1
s2

2
ss2=N1i=1N(YiY¯)2Y¯x¯

5

काउंटरएक्सप्लिमेंट पूछे गए प्रश्न के लिए प्रासंगिक नहीं है। आप अशक्त परिकल्पना का परीक्षण करना चाहते हैं कि आईआईडी रैंडम वैरिएबल का एक सैंपल एक डिलेवरी स्तर पर परिमित विचरण वाले वितरण से खींचा गया है । मैं कैसैला द्वारा "सांख्यिकीय इंजेक्शन" जैसे एक अच्छे संदर्भ पाठ का उपयोग करने और परिकल्पना परीक्षण की सीमा को समझने की सलाह देता हूं। परिमित विचलन पर ht के बारे में, मेरे पास संदर्भ संदर्भ नहीं है, लेकिन निम्नलिखित पेपर एक समान, लेकिन मजबूत, समस्या का संस्करण है, अर्थात, यदि वितरण पूंछ एक शक्ति कानून का पालन करती है।

बिजली के आंकड़ों में बिजली के आंकड़ों की समीक्षा सियाम 51 (2009): 661--703।


1

एक दृष्टिकोण जो मुझे सुझाया गया था, वह केंद्रीय सीमा प्रमेय था।

यह एक पुराना प्रश्न है, लेकिन मैं बड़ी पूंछों के परीक्षण के लिए CLT का उपयोग करने का एक तरीका प्रस्तावित करना चाहता हूं।

X={X1,,Xn}Y={Y1,,Yn}X

Z=n×mean(Y)mean(X)sd(Y),

एन (0,1) वितरण फ़ंक्शन के करीब भी है।

अब हमें बस इतना करना है कि बड़ी संख्या में बूटस्ट्रैप करें और एन (0,1) के एड के साथ देखे गए जेड के अनुभवजन्य वितरण समारोह की तुलना करें। यह तुलना करने का एक प्राकृतिक तरीका है कोलमोगोरोव-स्मिरनोव परीक्षण

निम्नलिखित चित्र मुख्य विचार को चित्रित करते हैं। दोनों चित्रों में प्रत्येक रंगीन रेखा का निर्माण विशेष वितरण से 1000 अवलोकनों के आईड बोध से होता है, इसके बाद Z इक्वेड के सन्निकटन के लिए आकार 500 के 200 बूटस्ट्रैप आकार के होते हैं। काली निरंतर रेखा N (0,1) cdf है।

enter image description here enter image description here


2
मेरे जवाब में मेरे द्वारा उठाए गए समस्या के खिलाफ बूटस्ट्रैपिंग की कोई भी राशि आपको कहीं भी नहीं मिलेगी। ऐसा इसलिए है क्योंकि अधिकांश नमूनों में भारी पूंछ का कोई सबूत नहीं दिया जाएगा - और बूटस्ट्रैपिंग, परिभाषा के अनुसार, नमूने से केवल डेटा का उपयोग करता है।
व्हिबर

1
@ वाउचर यदि एक्स मान एक सममित बिजली कानून से लिया जाता है, तो सामान्यीकृत सीएलटी लागू होता है और केएस परीक्षण अंतर का पता लगाएगा। मेरा मानना ​​है कि आपका अवलोकन सही ढंग से वर्णन नहीं करता है कि आप जो कहते हैं वह "परिमित" से "अनंत" तक एक क्रमिक कदम है
211:39 पर Mur1lo

1
CLT कभी भी किसी परिमित नमूने पर "लागू नहीं" होता है। यह एक सीमा के बारे में प्रमेय है।
whuber

1
जब मैं कहता हूं कि यह "लागू होता है" तो मैं केवल यह कह रहा हूं कि अगर हमारे पास एक बड़ा नमूना है तो यह एक अच्छा अनुमान प्रदान करता है।
मुरलो ०

1
"अच्छे सन्निकटन" और "बड़े" की अस्पष्टता दुर्भाग्य से परिकल्पना परीक्षणों के तर्क को पकड़ने में विफल रहती है। अपने बयान में निहित है जब तक आप भारी-पूंछता का पता लगाने में सक्षम होते हैं, तब तक एक बड़ा नमूना एकत्र करने की संभावना है: लेकिन यह नहीं है कि आमतौर पर परिकल्पना परीक्षण कैसे काम करते हैं। मानक सेटिंग में आपके पास एक नमूना दिया गया है और आपका कार्य यह परीक्षण करना है कि क्या यह शून्य परिकल्पना में वितरण से है। इस मामले में, बूटस्ट्रैपिंग किसी भी अधिक सीधे परीक्षण से बेहतर नहीं होगा।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.