भारित नमूने पर मात्राओं को परिभाषित करना


12

मेरे पास एक भारित नमूना है, जिसके लिए मैं मात्राओं की गणना करना चाहता हूं। 1

आदर्श रूप से, जहां वजन बराबर है (चाहे = 1 या अन्यथा), परिणाम उन scipy.stats.scoreatpercentile()और आर के अनुरूप होंगे quantile(...,type=7)

एक सरल तरीका यह होगा कि दिए गए वज़न का उपयोग करके नमूने को "गुणा" किया जाए। यह प्रभावी रूप से वजन 1 के क्षेत्रों में स्थानीय रूप से "फ्लैट" पारिस्थितिक देता है, जो सहजता से गलत दृष्टिकोण की तरह लगता है जब नमूना वास्तव में एक उप-नमूना है। विशेष रूप से, इसका मतलब है कि 1 के बराबर वजन वाले एक नमूने में 2 के बराबर वजन वाले एक से अधिक मात्राएँ होती हैं, या 3. (ध्यान दें, हालांकि, [1] में संदर्भित पेपर इस दृष्टिकोण का उपयोग करता है।)

http://en.wikipedia.org/wiki/Percentile#Weighted_percentile वजन घटाने के लिए एक वैकल्पिक सूत्रीकरण देता है। इस फॉर्मूलेशन में यह स्पष्ट नहीं है कि समान मूल्यों वाले आसन्न नमूनों को पहले संयोजित किया जाना चाहिए और उनके भार को सम्‍मिलित किया जाना चाहिए, और किसी भी स्थिति में इसके परिणाम quantile()अनवीक्षित / समान रूप से भारित मामले में आर के डिफ़ॉल्ट प्रकार 7 के अनुरूप नहीं दिखाई देंगे । क्वांटाइल्स पर विकिपीडिया पृष्ठ भारित मामले का बिल्कुल उल्लेख नहीं करता है।

क्या आर के "टाइप 7" क्वांटाइल फ़ंक्शन का भारित सामान्यीकरण है?

[अजगर का उपयोग करना, लेकिन सिर्फ एक एल्गोरिथ्म की तलाश में, वास्तव में, इसलिए कोई भी भाषा करेगा]

[१] वज़न पूर्णांक हैं; वज़न उन बफ़र्स का है जो http://infolab.stanford.edu/~manku/papers/98sigmod-quantiles.pdf में वर्णित "पतन" और "आउटपुट" ऑपरेशन में संयुक्त हैं । अनिवार्य रूप से भारित नमूना पूर्ण नमूने में प्रत्येक तत्व x (i) के साथ पूर्ण नमूने में प्रत्येक तत्व x (i) के साथ पूर्ण अनलिमिटेड नमूने का उप-नमूना है।


विषय काफी पुराना है, लेकिन यहाँ भारित मात्राओं के ढेर के ढेर का ढेर है। stackoverflow.com/a/29677616/498892
Alleo

जवाबों:


5

यह एक संभव तरीका है:

मान लें कि आपके पास एक आदेशित नमूना है संबंधित भार ।X1X2XnW1,W2,,Wn

परिभाषित करें so और ।

Sk=(k1)Wk+(N1)i=1k1Wi
S1=0Sn=(N1)i=1NWi

के एक प्रक्षेप के लिए , ऐसे खोजें जैसे कि । आपका अनुमान तब हो सकता हैpkSkSnpSk+1Sn

Xk+(Xk+1Xk)pSnSkSk+1Sk.

मुझे लगता है कि आप पाएंगे कि यदि सभी समान हैं तो यह R-7 को पुन: पेश करता है। अन्य दृष्टिकोण भी हैं, लेकिन मुझे संदेह है कि वे सभी ऑर्डर किए गए वज़न को समान रूप से महत्वपूर्ण नहीं मानते हैं।Wi


कोई समस्या हो सकती है यदि नमूने में दो मान समान हैं, लेकिन अलग-अलग वजन हैं - हालांकि इसके बारे में मेरे पास नहीं है।
हेनरी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.