अशक्त परिकल्पना के तहत कि वितरण समान हैं और दोनों नमूने यादृच्छिक रूप से और सामान्य वितरण से स्वतंत्र रूप से प्राप्त किए जाते हैं, हम सभी (निर्धारक) परीक्षणों के आकार का काम कर सकते हैं जो एक अक्षर के मूल्य को दूसरे से तुलना करके बनाया जा सकता है । इन परीक्षणों में से कुछ में वितरण में अंतर का पता लगाने के लिए उचित शक्ति है।5×5
विश्लेषण
किसी भी बैच के - सारांश की मूल परिभाषा निम्नलिखित है [Tukey EDA 1977]:5x1≤x2≤⋯≤xn
किसी भी संख्या के लिए in परिभाषित{ ( 1 + 2 ) / 2 , ( 2 + 3 ) / 2 , … , ( n - 1 + n ) / 2 } x m = ( x i + x) i + 1 ) / 2।m=(i+(i+1))/2{(1+2)/2,(2+3)/2,…,(n−1+n)/2}xm=(xi+xi+1)/2.
Let ।i¯=n+1−i
चलो औरज = ( ⌊ मीटर ⌋ + 1 ) / 2।m=(n+1)/2h=(⌊m⌋+1)/2.
5 -letter सारांश सेट है {X−=x1,H−=xh,M=xm,H+=xh¯,X+=xn}. इसके तत्वों को क्रमशः न्यूनतम, निम्न काज, मध्य, ऊपरी काज और अधिकतम के रूप में जाना जाता है।
उदाहरण के लिए, डेटा के बैच में (−3,1,1,2,3,5,5,5,7,13,21) हम गणना कर सकते हैं कि n=12 , m=13/2 , और h=7/2 , जहाँ
X−H−MH+X+=−3,=x7/2=(x3+x4)/2=(1+2)/2=3/2,=x13/2=(x6+x7)/2=(5+5)/2=5,=x7/2¯¯¯¯¯¯¯¯=x19/2=(x9+x10)/2=(5+7)/2=6,=x12=21.
चौकड़ी के करीब (लेकिन आमतौर पर समान नहीं है)। यदि चतुर्थक का उपयोग किया जाता है, तो ध्यान दें कि सामान्य रूप से वे क्रम के दो में से अंकगणित साधन होंगे और इस तरह एक अंतराल के भीतर झूठ होगा [xi,xi+1] जहां n और एल्गोरिथ्म iसे निर्धारित किया जा सकता है चतुर्थक गणना करने के लिए। सामान्य तौर पर, जब क्ष अंतराल में है [ मैं , मैं + 1 ] मैं शिथिल लिखेंगे एक्स क्ष में से कुछ इस तरह के भारित मतलब का उल्लेख करने के एक्स मैं औरnq[i,i+1]xqxixi+1 ।
डेटा के दो बैचों (xi,i=1,…,n) और (yj,j=1,…,m), दो अलग-अलग पांच-अक्षर सारांश हैं। हम शून्य परिकल्पना परीक्षण कर सकते हैं कि दोनों एक सामान्य वितरण की आईआईडी यादृच्छिक नमूने हैं F में से एक की तुलना द्वारा x -letters xq से एक के लिए y -letters yr । उदाहरण के लिए, हम x के ऊपरी काज की तुलना कर सकते हैंxयह देखने के लिए कि क्या x , y की तुलना में काफी कम है , के क्रम में का निचला काज । यह एक निश्चित प्रश्न की ओर जाता है: इस अवसर की गणना कैसे करें,yxy
PrF(xq<yr).
भिन्नात्मक और ज्ञात किए बिना यह संभव नहीं है । हालाँकि, क्योंकि और फिर एकआर एफ x क्ष ≤ एक्स ⌈ क्ष ⌉ y ⌊ आर ⌋ ≤ y आर ,qrFxq≤x⌈q⌉y⌊r⌋≤yr,
PrF(xq<yr)≤PrF(x⌈q⌉<y⌊r⌋).
हम जिससे प्राप्त कर सकते हैं सार्वभौमिक (स्वतंत्र कंप्यूटिंग दाहिने हाथ संभावना है, द्वारा) वांछित संभावनाओं पर ऊपरी सीमा जो अलग-अलग आदेश आंकड़ो की तुलना। हमारे सामने सामान्य प्रश्न हैF
क्या मौका है कि उच्चतम मान से कम होगा सामान्य मान से सबसे अधिक मान खींचा iid? n र ध मqthnrthm
यहां तक कि इसका कोई सार्वभौमिक जवाब नहीं है जब तक कि हम इस संभावना को खारिज नहीं करते हैं कि संभावना व्यक्तिगत मूल्यों पर बहुत अधिक केंद्रित है: दूसरे शब्दों में, हमें यह मानने की आवश्यकता है कि संबंध संभव नहीं हैं। इसका मतलब है को एक निरंतर वितरण होना चाहिए। हालांकि यह एक धारणा है, यह एक कमजोर है और यह गैर-पैरामीट्रिक है।F
समाधान
वितरण गणना में कोई भूमिका नहीं निभाता है, क्योंकि प्रायिकता परिवर्तन माध्यम से सभी मूल्यों को फिर से व्यक्त करने पर , हम नए बैच प्राप्त करते हैंFF
X(F)=F(x1)≤F(x2)≤⋯≤F(xn)
तथा
Y( एफ)= एफ( y1) ≤ एफ( y2) ≤ ⋯ ≤ एफ( yम) का है ।
इसके अलावा, यह फिर से अभिव्यक्ति मोनोटोनिक और बढ़ती है: यह आदेश को संरक्षित करता है और ऐसा करने से घटना संरक्षित करता है क्योंकि निरंतर है, ये नए बैच एक समान वितरण से तैयार किए गए हैं । इस वितरण के तहत - और अब के अतिरेक " " को अंकन से - हमें आसानी से पता चलता है कि में बीटा = बीटा वितरण है:एफ [ 0 , 1 ] एफ x क्ष ( क्ष , n + 1 - क्यू ) ( क्ष , ˉ क्ष )एक्सक्ष< यआर।एफ[ ० , १ ]एफएक्सक्ष( क्यू, एन + 1 - क्यू)( क्यू, क्यू¯)
Pr(xq≤x)=n!(n−q)!(q−1)!∫x0tq−1(1−t)n−qdt.
इसी प्रकार का वितरण बीटा । इस क्षेत्र पर डबल एकीकरण करके हम वांछित संभाव्यता प्राप्त कर सकते हैं, ( r , m + 1 - r ) x q < y ryr(r,m+1−r)xq<yr
Pr(xq<yr)=Γ(m+1)Γ(n+1)Γ(q+r)3F~2(q,q−n,q+r; q+1,m+q+1; 1)Γ(r)Γ(n−q+1)
क्योंकि सभी मान अभिन्न हैं, सभी मान वास्तव में सिर्फ भाज्य हैं: लिए इंटीग्रल
अल्पज्ञात फ़ंक्शन एक नियमित रूप से हाइपरजोमेट्रिक फ़ंक्शन है । इस मामले में इसकी गणना सामान्य फैली हुई लंबाई बजाय एक साधारण वैकल्पिक योग के रूप में की जा सकती है।n,m,q,rΓΓ(k)=(k−1)!=(k−1)(k−2)⋯(2)(1)k≥0.3F~2n−q+1
Γ(q+1)Γ(m+q+1) 3F~2(q,q−n,q+r; q+1,m+q+1; 1)=∑i=0n−q(−1)i(n−qi)q(q+r)⋯(q+r+i−1)(q+i)(1+m+q)(2+m+q)⋯(i+m+q)=1−(n−q1)q(q+r)(1+q)(1+m+q)+(n−q2)q(q+r)(1+q+r)(2+q)(1+m+q)(2+m+q)−⋯.
इससे जोड़, घटाव, गुणा और भाग से अधिक जटिल कुछ भी नहीं होने की संभावना की गणना कम हो गई है। कम्प्यूटेशनल प्रयास रूप में तराजू समरूपता का शोषण करकेO((n−q)2).
Pr(xq<yr)=1−Pr(yr<xq)
रूप में नई गणना तराजू अगर हम चाहें तो दो रकमों का आसान लेने की अनुमति देते हैं। यह शायद ही कभी आवश्यक होगा, हालांकि, क्योंकि -सारांश सारांश केवल छोटे बैचों के लिए उपयोग किया जाता है, शायद ही कभीO((m−r)2),5n,m≈300.
आवेदन
मान लीजिए कि दो बैचों के आकार और । के लिए प्रासंगिक आदेश आँकड़े और हैं और क्रमशः। यहाँ मौका है कि को अनुक्रमणिका और अनुक्रमणिका स्तंभों के साथ प्रस्तुत किया गया है:n=8m=12xy1,3,5,7,81,3,6,9,12,xq<yrqr
q\r 1 3 6 9 12
1 0.4 0.807 0.9762 0.9987 1.
3 0.0491 0.2962 0.7404 0.9601 0.9993
5 0.0036 0.0521 0.325 0.7492 0.9856
7 0.0001 0.0032 0.0542 0.3065 0.8526
8 0. 0.0004 0.0102 0.1022 0.6
एक मानक सामान्य वितरण से 10,000 आईआईडी नमूना जोड़े के अनुकरण ने इन के करीब परिणाम दिए।
यह निर्धारित करने के लिए कि बैच से काफी कम है या नहीं यह निर्धारित करने के लिए कि इस तालिका में मानों की तलाश करें या इसके लिए केवल अंतर्गत जैसे आकार पर एक तरफा परीक्षण का निर्माण करें । अच्छे विकल्प पर हैं जहां मौका है पर का एक मौका के साथ , और कम से का एक मौका के साथ जो एक का उपयोग करने के लिए वैकल्पिक परिकल्पना के बारे में आपके विचारों पर निर्भर करता है। उदाहरण के लिए, परीक्षण के सबसे छोटे मूल्य के निचले काज की तुलना करता हैα,α=5%,xyα(q,r)=(3,1),0.0491,(5,3)0.0521(7,6)0.0542.(3,1)xy और एक महत्वपूर्ण अंतर पाता है जब कि निचला काज छोटा होता है। यह परीक्षण एक चरम मूल्य के प्रति संवेदनशील है ; यदि आउटलाइंग डेटा के बारे में कुछ चिंता है, तो यह चुनने के लिए एक जोखिम भरा परीक्षण हो सकता है। दूसरी ओर परीक्षण के ऊपरी टिका की तुलना के माध्यिका से करता है । यह एक बैच में आउटलाइनिंग मूल्यों के लिए बहुत मजबूत है और में आउटलेर्स के लिए मध्यम रूप से मजबूत है । हालाँकि, यह के मध्य मानों की तुलना मध्य मानों से करता है । हालांकि यह संभवतः बनाने के लिए एक अच्छी तुलना है, यह केवल पूंछ में होने वाले वितरण में अंतर का पता नहीं लगाएगा।y(7,6)xyyxxy
इन महत्वपूर्ण मूल्यों की गणना करने में सक्षम होना विश्लेषणात्मक रूप से एक परीक्षण का चयन करने में मदद करता है। एक बार (या कई) परीक्षणों की पहचान करने के बाद, परिवर्तनों का पता लगाने की उनकी शक्ति का अनुकरण के माध्यम से सबसे अच्छा मूल्यांकन किया जाता है। शक्ति इस बात पर बहुत निर्भर करेगी कि वितरण कैसे भिन्न होते हैं। इन परीक्षणों में कोई शक्ति है या नहीं, यह जानने के लिए, मैंने एक सामान्य वितरण से तैयार iid के साथ परीक्षण किया : अर्थात, इसका माध्य एक मानक विचलन द्वारा स्थानांतरित किया गया था। एक सिमुलेशन में परीक्षण महत्वपूर्ण था : जो कि इस छोटे से डेटासेट के लिए सराहनीय शक्ति है।(5,3)yj(1,1)54.4%
बहुत अधिक कहा जा सकता है, लेकिन यह सब दो तरफा परीक्षणों के संचालन के बारे में नियमित सामान है, प्रभाव के आकार का आकलन कैसे करें, और इसी तरह। प्रमुख बिंदु प्रदर्शन किया गया है: दिए गए -letter सारांश (और आकार) डेटा के दो बैचों की, यह उनकी अंतर्निहित आबादी में अंतर का पता लगाने के लिए यथोचित शक्तिशाली गैर पैरामीट्रिक परीक्षण निर्माण संभव है5 और कई मामलों में हम भी कई हो सकता है से चुनने के लिए परीक्षण के विकल्प। यहां विकसित सिद्धांत में उनके नमूनों से उचित रूप से चयनित क्रम के आँकड़ों के माध्यम से दो आबादी की तुलना करने के लिए एक व्यापक आवेदन है (न कि केवल उन अक्षरों को सन्निकट करने वाले)।
इन परिणामों में अन्य उपयोगी अनुप्रयोग हैं। उदाहरण के लिए, एक बॉक्सप्लाट - समालोचक सारांश का एक चित्रमय चित्रण है । इस प्रकार, एक बॉक्सप्लॉट द्वारा दिखाए गए नमूने के आकार के ज्ञान के साथ, हमने उन भूखंडों में दृष्टिगत स्पष्ट अंतर के महत्व का आकलन करने के लिए कई सरल परीक्षण (एक बॉक्स के भागों की तुलना और एक दूसरे से व्हिस्कर करने के लिए) उपलब्ध हैं।5