क्या यह एकल मान उस वितरण से मेल खाता है?


10

यह एक बहुत ही भोला सवाल है, लेकिन मुझे इसका उत्तर देखने में कठिनाई हो रही है।

मेरे पास 30 मानों का एक सेट है। स्वतंत्र रूप से मैंने 31 वाँ मूल्य प्राप्त किया। अशक्त परिकल्पना यह है कि 31 वां मूल्य समान वितरण का हिस्सा है। वैकल्पिक यह है कि इसकी अलग। मैं किसी प्रकार का पी-वैल्यू या संभावना मापना चाहता हूं।

कुछ विचार जो मैंने लिए हैं:

  • यह एक दो-नमूना टी-टेस्ट करने के लिए समान है - सिवाय इसके कि दूसरे नमूने के लिए मेरे पास केवल एक ही मूल्य है, और 30 मान आवश्यक रूप से सामान्य रूप से वितरित नहीं हैं।
  • यदि 30 माप के बजाय मेरे पास 10000 माप थे, तो एकल माप की रैंक कुछ उपयोगी जानकारी प्रदान कर सकती है।

मैं इस संभावना या पी-वैल्यू की गणना कैसे कर सकता हूं?

धन्यवाद! यानिक


4
आप एक भविष्यवाणी अंतराल के लिए पूछ रहे हैं । आपका दूसरा विचार गैर-पैरामीट्रिक भविष्यवाणी अंतराल की ओर जाता है (जो मुझे लगता है कि इस साइट पर पहले उल्लेख नहीं किया गया है)।
whuber

अपनी जनसंख्या के बारे में आप हमें और क्या बता सकते हैं? क्या सभी मूल्य सकारात्मक हैं? क्या आप इसे सममित होने की उम्मीद करेंगे? Unimodal?
सोखें

धन्यवाद और माफी मुझे अधिक जानकारी प्रदान करनी चाहिए थी। हम भविष्यवाणी अंतराल पर एक नज़र डाल रहे हैं। मूल रूप से हमारे पास एक फोकल जीन भविष्यवाणी की लंबाई है। और डेटाबेस में पाए जाने वाले समान जीन की लंबाई। तो सभी संख्या सकारात्मक पूर्णांक हैं। एक आसान मामले में, लंबाई का वितरण असमान है। वास्तव में वे अक्सर उत्पन्न होते हैं; इस स्तर पर हम यह मान सकते हैं कि वे हैं। डिस्ट्रीब्यूशन के कुछ प्लॉट यहां दिखाए गए हैं: github.com/monicadragan/gene_prediction/tree/master/…
Yannick Wurm

मुझे यकीन नहीं है कि हम "भविष्यवाणी अंतराल" चाहते हैं हम भविष्यवाणी नहीं करना चाहते हैं ... और हम एक अंतराल नहीं चाहते हैं ...?
यानिक जुर्म

1
तकनीकी शब्दों की अधिक व्याख्या न करें। परिभाषा के अनुसार, "भविष्यवाणी अंतराल"I से निर्मित है 30इस तरह से मान कि सभी के संयुक्त वितरण के तहत31मान देता है कि 31 वाँ मूल्य निहित हैIदिए गए लक्ष्य के बराबर है, जैसे कि 95%। यदि वास्तव में, 31 वाँ मूल्य भीतर नहीं हैI, आप यह निष्कर्ष निकाल सकते हैं कि या तो (i) आप अशुभ थे (जो आपके पास डेटा एकत्र करने से पहले होने का केवल 5% मौका था) या फिर (ii) यह वास्तव में ऐसा नहीं है कि 31 वें मूल्य का वितरण आपके द्वारा ग्रहण किया गया है। : और यही आप परीक्षण करना चाहते हैं।
व्हीबर

जवाबों:


7

असिमितल मामले में वैसोचैंकिस-पेटुनिन असमानता आपको एक मोटा पूर्वानुमान अंतराल दे सकती है। यहाँ विकिपीडिया साइट है: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

का उपयोग करते हुए λ=3 लगभग 95% भविष्यवाणी अंतराल के परिणामस्वरूप होगा।

तो आप अपनी जनसंख्या के औसत और मानक विचलन का अनुमान लगाते हैं और सिर्फ नमूना माध्य का उपयोग करते हैं x¯ फायदा या नुकसान 3s अपने अंतराल के रूप में।

इस दृष्टिकोण के साथ कुछ समस्याएं हैं। आप वास्तव में माध्य या मानक विचलन नहीं जानते हैं; आप अनुमान लगा रहे हैं। और सामान्य तौर पर आपको असमान वितरण नहीं होगा जिसका अर्थ है कि आपको चेबीशेव की असमानता के विशेष संस्करणों का उपयोग करना होगा। लेकिन कम से कम आपके पास एक शुरुआती बिंदु है।

सामान्य स्थिति के लिए, कोनिज़ेन (द अमेरिकन स्टेटिस्टिशियन, फरवरी 1987) का कहना है कि ऑर्डर के आँकड़ों का इस्तेमाल भविष्यवाणी के अंतराल के रूप में किया जा सकता है। इसलिए[x(i),x(j)] के लिए एक भविष्यवाणी अंतराल है X Konijn क्या आकार कहता है jin+1. आकार को "सबसे बड़ी निचली सीमा के रूप में परिभाषित किया गया है (संयुक्त वितरण के सेट के संबंध में जो स्वीकार किए जाते हैं) संभावना है कि अंतराल मूल्य को कवर करेगा X पर लेना है। "इस दृष्टिकोण के साथ 93.6% की भविष्यवाणी अंतराल होगी [x(1),x(30)].

वह सॉ, यांग और मो के लिए जिम्मेदार एक दृष्टिकोण भी देता है:

[x¯λ(1+1n)1/2s , x¯+λ(1+1n)1/2s],
लेख में दिए गए कवरेज के विवरण के साथ।

उदाहरण के लिए n=30, का उपयोग करते हुए λ=3.2 90% से अधिक की कवरेज देगा।


यह असमानता का एक गलत अनुप्रयोग प्रतीत होता है: यह मानता है और विचरण ज्ञात है , जहाँ इस संदर्भ में केवल आंकड़ों से विचरण का अनुमान लगाया जा सकता है। अंतर बहुत बड़ा हो सकता है, खासकर छोटे डेटासेट के साथ। चेबीशेव की असमानता के साथ इसी तरह के प्रस्तावों के मेरे सिमुलेशन अध्ययन में, मैंने आश्चर्यजनक रूप से खराब प्रदर्शन पाया। सहज रूप से, यह छात्र की अंतर्दृष्टि के समान है कि टी वितरण का उपयोग सीआई के निर्माण के लिए सामान्य वितरण के बजाय किया जाना चाहिए; क्योंकि पीआई पूंछ में "आगे वहाँ" है, अंतर को बढ़ाया जाता है।
whuber

2
एडिट (+1) को पुन: संपादित करें: nonparametric prediction interval को iid null परिकल्पना के तहत क्रमचय परीक्षण के रूप में समझा जा सकता है। उस मामले में, केवल एक है2/316.45% संभावना है कि 31 वां मूल्य सभी 31 मूल्यों में सबसे बड़ा या सबसे छोटा होगा। संबंधित परीक्षण यह निष्कर्ष निकालता है कि 31 वां मूल्य अन्य 30 के साथ असंगत है जब यह सबसे छोटा या सबसे बड़ा है। इस परीक्षण का आकार ( सामान्य अर्थों में ) है6.45%। यह सबसे छोटा आकार है जो 30 डेटा मूल्यों के साथ (दो तरफा) परीक्षण के लिए प्राप्त कर सकता है।
whuber

1

कुछ विचार जो मैंने लिए हैं:

यह एक दो-नमूना टी-टेस्ट करने के लिए समान है - सिवाय इसके कि दूसरे नमूने के लिए मेरे पास केवल एक ही मूल्य है, और 30 मान आवश्यक रूप से सामान्य रूप से वितरित नहीं हैं।

सही बात। विचार एक मूल्य के साथ एक टी-टेस्ट जैसा है। चूंकि वितरण ज्ञात नहीं है, और केवल 30 डेटा बिंदुओं के साथ सामान्यता को निगलने में थोड़ा मुश्किल हो सकता है, यह किसी प्रकार के गैर-पैरामीट्रिक परीक्षण के लिए कहता है।

यदि 30 माप के बजाय मेरे पास 10000 माप थे, तो एकल माप की रैंक कुछ उपयोगी जानकारी प्रदान कर सकती है।

30 मापों के साथ भी रैंक जानकारीपूर्ण हो सकता है।

जैसा कि @whuber ने बताया है, आप किसी प्रकार का पूर्वानुमान अंतराल चाहते हैं। गैर-पैरामीट्रिक मामले के लिए, आप जो पूछ रहे हैं, अनिवार्य रूप से, निम्नलिखित है: क्या संभावना है कि किसी दिए गए डेटा बिंदु के पास मौका होगा जिससे हम आपके 31 वें माप के लिए अवलोकन करते हैं?

यह एक सरल क्रमचय परीक्षण के माध्यम से संबोधित किया जा सकता है। यहां 15 मूल्यों और एक उपन्यास (16 वीं अवलोकन) के साथ एक उदाहरण दिया गया है जो वास्तव में पिछले किसी भी से बड़ा है:

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

हम एन क्रमपरिवर्तन करते हैं, जहां सूची में तत्वों के क्रम को फेरबदल किया जाता है, फिर सवाल पूछते हैं: सूची (फेरबदल) सूची में पहले तत्व के मूल्य के लिए रैंक क्या है?

N = 1,000 प्रदर्शन करने से हमें 608 मामले मिलते हैं जिसमें सूची में पहले तत्व की रैंक नए मूल्य के रैंक के बराबर या बेहतर होती है (वास्तव में बराबर है, क्योंकि नया मूल्य सबसे अच्छा है)। 1,000 क्रमोन्नति के लिए फिर से सिमुलेशन चल रहा है, हम 658 ऐसे मामले प्राप्त करते हैं, फिर 663 ...

यदि हम N = 1,000,000 क्रमपरिवर्तन करते हैं, तो हम 62825 मामले प्राप्त करते हैं जिसमें सूची में पहले तत्व की रैंक नए मूल्य के रैंक के बराबर या बेहतर होती है (आगे सिमुलेशन 62871 मामले देते हैं, फिर 62840 ...)। यदि उन मामलों के बीच का अनुपात लें, जिनमें स्थिति संतुष्ट है और क्रमपरिवर्तन की कुल संख्या है, तो हमें 0.062825, 0.062871, 0.06284 जैसे नंबर मिलते हैं ...

आप इन मूल्यों को १ / १६ = ०.०६२५ (६.२५%) के लिए अभिसरण करते हुए देख सकते हैं, जो @whuber नोट्स के रूप में, संभावना है कि यादृच्छिक पर दिए गए एक मूल्य (१६ में से) उनके बीच सबसे अच्छा संभव रैंक है।

नए डेटासेट के लिए, जहां नया मान दूसरा सर्वोत्तम मूल्य है (यानी रैंक 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

हम (एन = 1,000,000 क्रमपरिवर्तन के लिए) प्राप्त करते हैं: 125235, 124883 ... अनुकूल मामलों में, फिर से, संभावना है कि एक दिए गए मान (16 में से) यादृच्छिक पर उनके बीच दूसरा सबसे अच्छा संभव रैंक है: 2/16 = 0.125 (12.5%)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.