दो वितरणों के लिए सांख्यिकीय परीक्षण जहां केवल 5-संख्या सारांश को जाना जाता है


17

मेरे पास दो वितरण हैं जहां केवल 5-संख्या सारांश (न्यूनतम, 1 चतुर्थक, मध्य, तीसरा चतुर्थक, अधिकतम) और नमूना आकार ज्ञात हैं। यहां प्रश्न के विपरीत , सभी डेटा बिंदु उपलब्ध नहीं हैं।

क्या कोई गैर-पैरामीट्रिक सांख्यिकीय परीक्षण है जो मुझे यह जांचने की अनुमति देता है कि क्या दोनों के अंतर्निहित वितरण अलग-अलग हैं?

धन्यवाद!

जवाबों:


9

अशक्त परिकल्पना के तहत कि वितरण समान हैं और दोनों नमूने यादृच्छिक रूप से और सामान्य वितरण से स्वतंत्र रूप से प्राप्त किए जाते हैं, हम सभी (निर्धारक) परीक्षणों के आकार का काम कर सकते हैं जो एक अक्षर के मूल्य को दूसरे से तुलना करके बनाया जा सकता है । इन परीक्षणों में से कुछ में वितरण में अंतर का पता लगाने के लिए उचित शक्ति है।5×5


विश्लेषण

किसी भी बैच के - सारांश की मूल परिभाषा निम्नलिखित है [Tukey EDA 1977]:5x1x2xn

  • किसी भी संख्या के लिए in परिभाषित{ ( 1 + 2 ) / 2 , ( 2 + 3 ) / 2 , , ( n - 1 + n ) / 2 } x m = ( x i + x) i + 1 ) / 2।m=(i+(i+1))/2{(1+2)/2,(2+3)/2,,(n1+n)/2}xm=(xi+xi+1)/2.

  • Let ।i¯=n+1i

  • चलो और= ( मीटर + 1 ) / 2।m=(n+1)/2h=(m+1)/2.

  • 5 -letter सारांश सेट है {X=x1,H=xh,M=xm,H+=xh¯,X+=xn}. इसके तत्वों को क्रमशः न्यूनतम, निम्न काज, मध्य, ऊपरी काज और अधिकतम के रूप में जाना जाता है।

उदाहरण के लिए, डेटा के बैच में (3,1,1,2,3,5,5,5,7,13,21) हम गणना कर सकते हैं कि n=12 , m=13/2 , और h=7/2 , जहाँ

X=3,H=x7/2=(x3+x4)/2=(1+2)/2=3/2,M=x13/2=(x6+x7)/2=(5+5)/2=5,H+=x7/2¯=x19/2=(x9+x10)/2=(5+7)/2=6,X+=x12=21.

चौकड़ी के करीब (लेकिन आमतौर पर समान नहीं है)। यदि चतुर्थक का उपयोग किया जाता है, तो ध्यान दें कि सामान्य रूप से वे क्रम के दो में से अंकगणित साधन होंगे और इस तरह एक अंतराल के भीतर झूठ होगा [xi,xi+1] जहां n और एल्गोरिथ्म iसे निर्धारित किया जा सकता है चतुर्थक गणना करने के लिए। सामान्य तौर पर, जब क्ष अंतराल में है [ मैं , मैं + 1 ] मैं शिथिल लिखेंगे एक्स क्ष में से कुछ इस तरह के भारित मतलब का उल्लेख करने के एक्स मैं औरnq[i,i+1]xqxixi+1

डेटा के दो बैचों (xi,i=1,,n) और (yj,j=1,,m), दो अलग-अलग पांच-अक्षर सारांश हैं। हम शून्य परिकल्पना परीक्षण कर सकते हैं कि दोनों एक सामान्य वितरण की आईआईडी यादृच्छिक नमूने हैं F में से एक की तुलना द्वारा x -letters xq से एक के लिए y -letters yr । उदाहरण के लिए, हम x के ऊपरी काज की तुलना कर सकते हैंxयह देखने के लिए कि क्या x , y की तुलना में काफी कम है , के क्रम में का निचला काज । यह एक निश्चित प्रश्न की ओर जाता है: इस अवसर की गणना कैसे करें,yxy

PrF(xq<yr).

भिन्नात्मक और ज्ञात किए बिना यह संभव नहीं है । हालाँकि, क्योंकि और फिर एकआर एफ x क्षएक्स क्ष y आर y आर ,qrFxqxqyryr,

PrF(xq<yr)PrF(xq<yr).

हम जिससे प्राप्त कर सकते हैं सार्वभौमिक (स्वतंत्र कंप्यूटिंग दाहिने हाथ संभावना है, द्वारा) वांछित संभावनाओं पर ऊपरी सीमा जो अलग-अलग आदेश आंकड़ो की तुलना। हमारे सामने सामान्य प्रश्न हैF

क्या मौका है कि उच्चतम मान से कम होगा सामान्य मान से सबसे अधिक मान खींचा iid? n qthnrthm

यहां तक ​​कि इसका कोई सार्वभौमिक जवाब नहीं है जब तक कि हम इस संभावना को खारिज नहीं करते हैं कि संभावना व्यक्तिगत मूल्यों पर बहुत अधिक केंद्रित है: दूसरे शब्दों में, हमें यह मानने की आवश्यकता है कि संबंध संभव नहीं हैं। इसका मतलब है को एक निरंतर वितरण होना चाहिए। हालांकि यह एक धारणा है, यह एक कमजोर है और यह गैर-पैरामीट्रिक है।F


समाधान

वितरण गणना में कोई भूमिका नहीं निभाता है, क्योंकि प्रायिकता परिवर्तन माध्यम से सभी मूल्यों को फिर से व्यक्त करने पर , हम नए बैच प्राप्त करते हैंFF

X(F)=F(x1)F(x2)F(xn)

तथा

Y(F)=F(y1)F(y2)F(ym).

इसके अलावा, यह फिर से अभिव्यक्ति मोनोटोनिक और बढ़ती है: यह आदेश को संरक्षित करता है और ऐसा करने से घटना संरक्षित करता है क्योंकि निरंतर है, ये नए बैच एक समान वितरण से तैयार किए गए हैं । इस वितरण के तहत - और अब के अतिरेक " " को अंकन से - हमें आसानी से पता चलता है कि में बीटा = बीटा वितरण है:एफ [ 0 , 1 ] एफ x क्ष ( क्ष , n + 1 - क्यू ) ( क्ष , ˉ क्ष )xq<yr.F[0,1]Fxq(q,n+1q)(q,q¯)

Pr(xqx)=n!(nq)!(q1)!0xtq1(1t)nqdt.

इसी प्रकार का वितरण बीटा । इस क्षेत्र पर डबल एकीकरण करके हम वांछित संभाव्यता प्राप्त कर सकते हैं, ( r , m + 1 - r ) x q < y ryr(r,m+1r)xq<yr

Pr(xq<yr)=Γ(m+1)Γ(n+1)Γ(q+r)3F~2(q,qn,q+r; q+1,m+q+1; 1)Γ(r)Γ(nq+1)

क्योंकि सभी मान अभिन्न हैं, सभी मान वास्तव में सिर्फ भाज्य हैं: लिए इंटीग्रल अल्पज्ञात फ़ंक्शन एक नियमित रूप से हाइपरजोमेट्रिक फ़ंक्शन है । इस मामले में इसकी गणना सामान्य फैली हुई लंबाई बजाय एक साधारण वैकल्पिक योग के रूप में की जा सकती है।n,m,q,rΓΓ(k)=(k1)!=(k1)(k2)(2)(1)k0.3F~2nq+1

Γ(q+1)Γ(m+q+1) 3F~2(q,qn,q+r; q+1,m+q+1; 1)=i=0nq(1)i(nqi)q(q+r)(q+r+i1)(q+i)(1+m+q)(2+m+q)(i+m+q)=1(nq1)q(q+r)(1+q)(1+m+q)+(nq2)q(q+r)(1+q+r)(2+q)(1+m+q)(2+m+q).

इससे जोड़, घटाव, गुणा और भाग से अधिक जटिल कुछ भी नहीं होने की संभावना की गणना कम हो गई है। कम्प्यूटेशनल प्रयास रूप में तराजू समरूपता का शोषण करकेO((nq)2).

Pr(xq<yr)=1Pr(yr<xq)

रूप में नई गणना तराजू अगर हम चाहें तो दो रकमों का आसान लेने की अनुमति देते हैं। यह शायद ही कभी आवश्यक होगा, हालांकि, क्योंकि -सारांश सारांश केवल छोटे बैचों के लिए उपयोग किया जाता है, शायद ही कभीO((mr)2),5n,m300.


आवेदन

मान लीजिए कि दो बैचों के आकार और । के लिए प्रासंगिक आदेश आँकड़े और हैं और क्रमशः। यहाँ मौका है कि को अनुक्रमणिका और अनुक्रमणिका स्तंभों के साथ प्रस्तुत किया गया है:n=8m=12xy1,3,5,7,81,3,6,9,12,xq<yrqr

q\r 1       3       6       9       12
1   0.4      0.807  0.9762  0.9987  1.
3   0.0491  0.2962  0.7404  0.9601  0.9993
5   0.0036  0.0521  0.325   0.7492  0.9856
7   0.0001  0.0032  0.0542  0.3065  0.8526
8   0.      0.0004  0.0102  0.1022  0.6

एक मानक सामान्य वितरण से 10,000 आईआईडी नमूना जोड़े के अनुकरण ने इन के करीब परिणाम दिए।

यह निर्धारित करने के लिए कि बैच से काफी कम है या नहीं यह निर्धारित करने के लिए कि इस तालिका में मानों की तलाश करें या इसके लिए केवल अंतर्गत जैसे आकार पर एक तरफा परीक्षण का निर्माण करें । अच्छे विकल्प पर हैं जहां मौका है पर का एक मौका के साथ , और कम से का एक मौका के साथ जो एक का उपयोग करने के लिए वैकल्पिक परिकल्पना के बारे में आपके विचारों पर निर्भर करता है। उदाहरण के लिए, परीक्षण के सबसे छोटे मूल्य के निचले काज की तुलना करता हैα,α=5%,xyα(q,r)=(3,1),0.0491,(5,3)0.0521(7,6)0.0542.(3,1)xy और एक महत्वपूर्ण अंतर पाता है जब कि निचला काज छोटा होता है। यह परीक्षण एक चरम मूल्य के प्रति संवेदनशील है ; यदि आउटलाइंग डेटा के बारे में कुछ चिंता है, तो यह चुनने के लिए एक जोखिम भरा परीक्षण हो सकता है। दूसरी ओर परीक्षण के ऊपरी टिका की तुलना के माध्यिका से करता है । यह एक बैच में आउटलाइनिंग मूल्यों के लिए बहुत मजबूत है और में आउटलेर्स के लिए मध्यम रूप से मजबूत है । हालाँकि, यह के मध्य मानों की तुलना मध्य मानों से करता है । हालांकि यह संभवतः बनाने के लिए एक अच्छी तुलना है, यह केवल पूंछ में होने वाले वितरण में अंतर का पता नहीं लगाएगा।y(7,6)xyyxxy

इन महत्वपूर्ण मूल्यों की गणना करने में सक्षम होना विश्लेषणात्मक रूप से एक परीक्षण का चयन करने में मदद करता है। एक बार (या कई) परीक्षणों की पहचान करने के बाद, परिवर्तनों का पता लगाने की उनकी शक्ति का अनुकरण के माध्यम से सबसे अच्छा मूल्यांकन किया जाता है। शक्ति इस बात पर बहुत निर्भर करेगी कि वितरण कैसे भिन्न होते हैं। इन परीक्षणों में कोई शक्ति है या नहीं, यह जानने के लिए, मैंने एक सामान्य वितरण से तैयार iid के साथ परीक्षण किया : अर्थात, इसका माध्य एक मानक विचलन द्वारा स्थानांतरित किया गया था। एक सिमुलेशन में परीक्षण महत्वपूर्ण था : जो कि इस छोटे से डेटासेट के लिए सराहनीय शक्ति है।(5,3)yj(1,1)54.4%

बहुत अधिक कहा जा सकता है, लेकिन यह सब दो तरफा परीक्षणों के संचालन के बारे में नियमित सामान है, प्रभाव के आकार का आकलन कैसे करें, और इसी तरह। प्रमुख बिंदु प्रदर्शन किया गया है: दिए गए -letter सारांश (और आकार) डेटा के दो बैचों की, यह उनकी अंतर्निहित आबादी में अंतर का पता लगाने के लिए यथोचित शक्तिशाली गैर पैरामीट्रिक परीक्षण निर्माण संभव है5 और कई मामलों में हम भी कई हो सकता है से चुनने के लिए परीक्षण के विकल्प। यहां विकसित सिद्धांत में उनके नमूनों से उचित रूप से चयनित क्रम के आँकड़ों के माध्यम से दो आबादी की तुलना करने के लिए एक व्यापक आवेदन है (न कि केवल उन अक्षरों को सन्निकट करने वाले)।

इन परिणामों में अन्य उपयोगी अनुप्रयोग हैं। उदाहरण के लिए, एक बॉक्सप्लाट - समालोचक सारांश का एक चित्रमय चित्रण है । इस प्रकार, एक बॉक्सप्लॉट द्वारा दिखाए गए नमूने के आकार के ज्ञान के साथ, हमने उन भूखंडों में दृष्टिगत स्पष्ट अंतर के महत्व का आकलन करने के लिए कई सरल परीक्षण (एक बॉक्स के भागों की तुलना और एक दूसरे से व्हिस्कर करने के लिए) उपलब्ध हैं।5


7

मुझे पूरा विश्वास है कि साहित्य में पहले से ही एक नहीं होने जा रहा है, लेकिन यदि आप एक गैर-परीक्षणात्मक परीक्षा चाहते हैं, तो यह अंतर्निहित चर की निरंतरता की धारणा के तहत होगा - आप एक ईसीडीएफ जैसी चीज को देख सकते हैं -टाइप स्टेटिस्टिक - एक कोलमोगोरोव-स्मिरनोव-टाइप स्टेटिस्टिक के बराबर कुछ कहें या एंडरसन-डार्लिंग स्टेटिस्टिक के लिए कुछ समान (हालांकि निश्चित रूप से इस मामले में स्टैटिस्टिक का वितरण बहुत अलग होगा)।

छोटे नमूनों के लिए वितरण पांच नंबर सारांश में इस्तेमाल की जाने वाली मात्राओं की सटीक परिभाषा पर निर्भर करेगा।

उदाहरण के लिए, R (n = 10) में डिफ़ॉल्ट चतुर्थक और चरम मान पर विचार करें:

> summary(x)[-4]
    Min.  1st Qu.   Median  3rd Qu.     Max. 
-2.33500 -0.26450  0.07787  0.33740  0.94770 

पांच नंबर सारांश के लिए इसकी कमान से उत्पन्न लोगों की तुलना में:

> fivenum(x)
[1] -2.33458172 -0.34739104  0.07786866  0.38008143  0.94774213

ध्यान दें कि ऊपरी और निचले चतुर्थक fivenumकमान में संबंधित टिका से भिन्न होते हैं ।

इसके विपरीत, n = 9 पर दो परिणाम समान हैं (जब वे सभी टिप्पणियों में होते हैं)

(आर क्वांटाइल्स के लिए नौ अलग-अलग परिभाषाओं के साथ आता है ।)

टिप्पणियों में होने वाली सभी तीन चतुर्थकों के लिए मामला (जब n = 4k + 1, मेरा मानना ​​है, संभवतः उनमें से कुछ परिभाषाओं के तहत अधिक मामलों में) वास्तव में बीजगणितीय रूप से उल्लेखनीय हो सकता है और गैर-समरूप होना चाहिए, लेकिन सामान्य मामला (कई परिभाषाओं में) ऐसा करने योग्य नहीं है, और हो सकता है नॉनपेर्मेट्रिक (उस मामले पर विचार करें जहां आप औसतन नमूना लेने के लिए कम से कम एक नमूने में मात्रात्मक उत्पादन करने के लिए औसत हैं ... उस स्थिति में नमूना मात्रा के विभिन्न व्यवस्थाओं की संभावनाएं अप्रभावित नहीं रह सकती हैं। डेटा का वितरण)।

एक बार एक निश्चित परिभाषा चुने जाने के बाद, सिमुलेशन आगे बढ़ने का रास्ता प्रतीत होगा।

क्योंकि यह के संभावित मूल्यों के सबसेट पर गैर-समरूप होगा , यह तथ्य कि यह अब अन्य मूल्यों के लिए मुफ्त वितरण नहीं है, इतनी बड़ी चिंता नहीं हो सकती है; कोई कह सकता है कि इंटरमीडिएट सैंपल साइज़ में कम से कम डिस्ट्रीब्यूशन फ्री है , कम से कम अगर बहुत छोटा नहीं है।nn


आइए कुछ मामलों को देखें जो वितरण मुक्त होना चाहिए, और कुछ छोटे नमूना आकारों पर विचार करें। केएस-प्रकार के आंकड़े को सीधे पांच नंबर सारांश पर लागू करें, नमूना आकारों के लिए कहें जहां पांच नंबर सारांश मान व्यक्तिगत क्रम आँकड़े होंगे।

ध्यान दें कि यह वास्तव में केएस परीक्षण का 'अनुकरण' नहीं करता है, क्योंकि उदाहरण के लिए, केएस की तुलना में पूंछ में कूद बहुत बड़ी हैं। दूसरी ओर, यह दावा करना आसान नहीं है कि सारांश मानों में छलांग उनके बीच के सभी मूल्यों के लिए होनी चाहिए। वेट / जंप के विभिन्न सेटों में अलग-अलग प्रकार- I त्रुटि विशेषताएँ और अलग-अलग शक्ति विशेषताएँ होंगी और मुझे यकीन नहीं है कि क्या चुनना सबसे अच्छा है (समान मूल्यों से थोड़ा अलग चुनना महत्वपूर्ण स्तर का एक महीन सेट प्राप्त करने में मदद कर सकता है, हालांकि)। मेरा उद्देश्य तो बस यह दिखाना है कि सामान्य दृष्टिकोण संभव हो सकता है, किसी विशिष्ट प्रक्रिया की सिफारिश करने के लिए नहीं। सारांश में प्रत्येक मान के लिए वजन का एक मनमाना सेट अभी भी एक nonparametric परीक्षण देगा, जब तक कि उन्हें डेटा के संदर्भ में नहीं लिया जाता है।

वैसे भी, यहाँ जाता है:


अनुकरण के माध्यम से अशक्त वितरण / महत्वपूर्ण मूल्यों का पता लगाना

दो नमूनों में n = 5 और 5 पर, हमें कुछ विशेष करने की आवश्यकता नहीं है - यह एक सीधा केएस परीक्षण है।

N = 9 और 9 पर, हम एक समान अनुकरण कर सकते हैं:

 ks9.9 <- replicate(10000,ks.test(fivenum(runif(9)),fivenum(runif(9)))$statistic)
 plot(table(ks9.9)/10000,type="h"); abline(h=0,col=8)

यहाँ छवि विवरण दर्ज करें

  # Here's the empirical cdf:
 cumsum(table(ks9.9)/10000)
   0.2    0.4    0.6    0.8 
0.3730 0.9092 0.9966 1.0000 

इसलिए , आप मोटे तौर पर ( ) प्राप्त कर सकते हैं , और मोटे तौर पर ( )। (हमें अच्छे अल्फा स्टेप्स की उम्मीद नहीं करनी चाहिए। जब के मध्यम बड़े होते हैं तो हमें उम्मीद करनी चाहिए कि कुछ भी नहीं है, लेकिन लिए बहुत बड़े या बहुत छोटे विकल्प हैं )।n1=n2=9α=0.1Dcrit=0.6α=0.005Dcrit=0.8nα

n1=9,n2=13 पास एक अच्छा 5% महत्व स्तर ( ) हैD=0.6

n1=n2=13 पास एक अच्छा 2.5% महत्व स्तर ( ) हैD=0.6

इन के पास नमूना आकार में, यह दृष्टिकोण संभव होना चाहिए, लेकिन अगर दोनों s 21 ( और ) से अधिक हैं, तो यह बिल्कुल भी अच्छा काम नहीं करेगा।nα0.2α0.001

-

एक बहुत तेज 'निरीक्षण द्वारा' परीक्षण

हम जिन मामलों को देखते थे, अक्सर का अस्वीकृति नियम दिखाई देता है । नमूना व्यवस्थाएँ किसकी ओर ले जाती हैं? मुझे लगता है कि निम्नलिखित दो मामले हैं:D0.6

(i) जब पूरा एक नमूना दूसरे समूह के माध्यिका के एक तरफ होता है।

(ii) जब बक्से (चौकड़ी द्वारा कवर की गई सीमा) ओवरलैप नहीं होती है।

तो आपके लिए एक अच्छा सुपर-सिंपल नॉनपैरेट्रिक रिजेक्शन नियम है - लेकिन यह आमतौर पर 'अच्छे' महत्व के स्तर पर नहीं होगा जब तक कि नमूना आकार 9-13 से बहुत दूर न हो।


संभव स्तर का एक बेहतर सेट हो रही हैα

वैसे भी, समान मामलों के लिए उत्पादक तालिकाएं अपेक्षाकृत सरल होनी चाहिए। मध्यम से बड़े , इस परीक्षण में केवल बहुत छोटे संभव स्तर (या बहुत बड़े) होंगे और उन मामलों को छोड़कर व्यावहारिक उपयोग के नहीं होंगे जहां अंतर स्पष्ट है)।nα

दिलचस्प बात यह है कि प्राप्त करने योग्य स्तर को बढ़ाने के लिए एक दृष्टिकोण एक गोला -शासक के अनुसार 'fivenum' cdf में जंप सेट करना होगा । यदि cdf मान और , उदाहरण के लिए, तो cdf-values ​​की किसी भी जोड़ी के बीच का अंतर किसी भी अन्य जोड़ी से अलग हो। यह देखने लायक हो सकता है कि इसका शक्ति पर बहुत अधिक प्रभाव है (मेरा अनुमान: शायद बहुत अधिक नहीं)।α0,111,411,9111

इन केएस जैसे परीक्षणों की तुलना में, मुझे उम्मीद है कि एंडरसन-डार्लिंग की तरह कुछ और अधिक शक्तिशाली होगा, लेकिन सवाल यह है कि इस पांच-नंबर सारांश मामले के लिए वजन कैसे करें। मैं कल्पना करता हूं कि इससे निपटा जा सकता है, लेकिन मुझे यकीन नहीं है कि यह किस हद तक है।


शक्ति

आइए देखें कि यह पर अंतर कैसे । यह सामान्य डेटा के लिए एक पावर वक्र है, और प्रभाव, डेल, मानक विचलन की संख्या में है दूसरा नमूना ऊपर स्थानांतरित किया गया है:n1=9,n2=13

यहाँ छवि विवरण दर्ज करें

यह काफी प्रशंसनीय विद्युत वक्र जैसा लगता है। तो यह कम से कम इन छोटे नमूने आकारों में ठीक काम करने लगता है।


नॉनपामेट्रिक के बजाय मजबूत के बारे में क्या?

यदि गैर-परीक्षणात्मक परीक्षण इतने महत्वपूर्ण नहीं हैं, लेकिन मजबूत-परीक्षण इसके बजाय ठीक हैं, तो हम सारांश में तीन चतुर्थक मानों के कुछ और प्रत्यक्ष तुलना पर नज़र डाल सकते हैं, जैसे कि IQR और नमूना आकार के आधार पर मंझला के लिए एक अंतराल। (कुछ नाममात्र वितरण के आधार पर जिसके चारों ओर मजबूती वांछित है, जैसे कि सामान्य - यह उदाहरण के लिए नोट किए गए बॉक्स प्लॉट्स के पीछे तर्क है)। यह गैर-नमूना परीक्षण की तुलना में बड़े नमूना आकारों में बहुत बेहतर काम करना चाहिए जो उचित महत्व के स्तरों की कमी से ग्रस्त होगा।


1
बहुत अच्छा! मुझे आश्चर्य है कि यदि सारांश आँकड़े दिए गए हैं, तो आप वास्तव में केएस परीक्षण के लिए अधिकतम या न्यूनतम संभव डी आंकड़े की गणना कर सकते हैं। उदाहरण के लिए, आप सारांश आँकड़ों के आधार पर CDF आकर्षित कर सकते हैं, और फिर प्रत्येक नमूने CDF के लिए पी-बॉक्स विंडो होंगे। उन दो पी-बॉक्स खिड़कियों के आधार पर आप अधिकतम या न्यूनतम संभव डी सांख्यिकीय की गणना कर सकते हैं - और फिर सामान्य तालिकाओं में परीक्षण सांख्यिकीय देखें।
एंडी डब्ल्यू

2

मैं नहीं देखता कि कम से कम कुछ मान्यताओं के बिना ऐसा परीक्षण कैसे हो सकता है।

आपके पास दो अलग-अलग वितरण हो सकते हैं जिनमें समान 5 नंबर सारांश है:

यहां एक तुच्छ उदाहरण है, जहां मैं केवल 2 नंबर बदलता हूं, लेकिन स्पष्ट रूप से अधिक संख्याओं को बदला जा सकता है

set.seed(123)

#Create data
x <- rnorm(1000)

#Modify it without changing 5 number summary
x2 <- sort(x)
x2[100] <- x[100] - 1
x2[900] <- x[900] + 1

fivenum(x)
fivenum(x2)

यह उदाहरण केवल इस तरह की प्रक्रिया की शक्ति में एक सीमा को प्रदर्शित करता है, लेकिन अन्यथा इस पर अधिक प्रकाश डालना नहीं लगता है।
whuber

मुझे लगता है कि इसका मतलब है कि, कुछ मान्यताओं के बिना, इस तरह की परीक्षा की शक्ति अयोग्य होगी। इस तरह की परीक्षा क्या देख सकती है?
पीटर फ्लोम - मोनिका

1
शक्ति गणनाओं को हमेशा गैरपारंपरिक परीक्षणों के साथ मान्यताओं की आवश्यकता होगी। एक कोल्मगोरोव-स्मिरनोव के लिए पावर कर्व ढूंढने की कोशिश करें, ताकि आप खुद को परीक्षण से बाहर ले जा सकें।
Glen_b -Reinstate मोनिका

2
X>YXY

@ किसी भी त्रुटि या माप की सटीकता के बिना माप? या कि नमूना आकार द्वारा आपूर्ति की है? क्वांटिल्स, और इससे भी अधिक अधिकतम और न्यूनतम, इस तरह से काम करना मुश्किल है।
पीटर फ्लोम - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.