प्रतिस्थापन के बिना कश्मीर नंबर के योग की उम्मीद


9

दिया हुआ n संख्याएँ, जहाँ प्रत्येक संख्या का मान भिन्न होता है, को निरूपित किया जाता है v1,v2,...,vn, और प्रत्येक संख्या के चयन की संभावना है p1,p2,...,pn, क्रमशः।

अब अगर मैं चयन करता हूं K दी गई संभावनाओं के आधार पर संख्या, जहां Kn, उन लोगों की राशि की उम्मीद क्या है Kसंख्या? ध्यान दें कि चयन प्रतिस्थापन के बिना है, ताकिKसंख्याओं में डुप्लिकेट नंबर शामिल नहीं हो सकते। मैं समझता हूं कि यदि चयन प्रतिस्थापन के साथ है, तो योग की उम्मीदK संख्या बराबर है K×E(V), कहाँ पे

E(V)=v1×p1+v2×p2+...+vn×pn.

इसके अलावा, उन लोगों के विचरण की उम्मीद के बारे में क्या K संख्या?

मैं एक सीएस पीएचडी छात्र हूं जो एक बड़ी डेटा समस्या पर काम कर रहा है, और मेरे पास कोई सांख्यिकी पृष्ठभूमि नहीं है। मुझे उम्मीद है कि कोई मुझे जवाब के रूप में एक सूत्र दे सकता है। हालाँकि, यदि उत्तर बहुत जटिल है, जिसे सूत्र द्वारा वर्णित किया जाना है या गहन संगणना को शामिल करना है, तो एक अनुमानित उत्तर पूरी तरह से स्वीकार्य है।

आप मान सकते हैं nयहाँ काफी बड़ा है, और संभावना बहुत भिन्न हो सकती है। व्यवहार में, उन संभावनाओं के मूल्य एक क्वेरी लॉग से आते हैं, जो एकत्रीकरण प्रश्नों की एक श्रृंखला दर्ज करता है। मुद्दा यह है कि प्रश्नों में शामिल प्रत्येक संख्या की आवृत्ति काफी तिरछी हो सकती है, अर्थात, कुछ को शायद ही कभी उद्धृत किया जाता है, जबकि कुछ को बहुत बार उद्धृत किया जाता है। आप मान सकते हैं कि संभाव्यता वितरण सामान्य वितरण, जिपफ वितरण या कोई अन्य उचित विकल्प है।

मूल्य वितरण किसी भी संभावित वितरण का केवल एक सन्निहित उपसमुच्चय है। दूसरे शब्दों में, यदि आपके पास एक हिस्टोग्राम है जो एक निश्चित वितरण का प्रतिनिधित्व करता है, तो इस समस्या में शामिल सभी संख्याएं एक ही बाल्टी के भीतर सभी संख्याएं हैं।

K के मूल्य के संदर्भ में, आप यह मान सकते हैं कि यह हमेशा बहुतायत तत्वों की संख्या से कम है।


3
प्रतिस्थापन के बिना योग के विचरण की अपेक्षा अलग होगी; यदि कोई प्रतिस्थापन नहीं है, तो आपको एक परिमित जनसंख्या सुधार कारक की आवश्यकता होगी। (इसे सहज रूप से देखने के लिए, ध्यान दें कि यदि K = n का योग का भिन्नता शून्य है, क्योंकि यह हमेशा एक ही संख्या होगी; इसलिए जैसे ही K दृष्टिकोण n के भिन्नता कम होगी।)
zbicyclist

1
यह सवाल जितना मुश्किल लग सकता है, उससे कहीं ज्यादा मुश्किल है। मामले पर विचार करेंn=2 तथा (v1,v2)=(0,1)। प्रतिस्थापन के साथ तैयार किए गए दो मूल्यों की अपेक्षित राशि है2p2जो पाठ्यक्रम के एक मूल्य का दोगुना है; लेकिन स्पष्ट रूप से प्रतिस्थापन के बिना तैयार किए गए दो मूल्यों की अपेक्षित राशि हैv1+v2=12p2 सिवाय कब p1=p2=1/2
व्हिबर

1
@zbicyclist शायद मैं इस समस्या को स्पष्ट रूप से नहीं बताता। मेरे परिदृश्य में, यदि K = N, तो उन K नंबरों का विचरण 0. के बजाय सामान्य जनसंख्या का विचरण होगा
SciPioneer

1
(1) यह मेरे लिए एक स्व-अध्ययन प्रश्न की तरह नहीं दिखता है: यह संभावना में एक वास्तविक लागू समस्या की तरह दिखता है। (२) कितना बड़ा हो सकता हैnहो सकता है? सटीक समाधान अव्यवहारिक लगता है सिवाय इसके जब सभी सबसेट को एनुमरेट किया जा सकता है। (३) यदिn से बहुत अधिक हो सकता है 20 या तो, तेजी से घनीभूतता को छोड़कर, आप इस बारे में क्या कह सकते हैं pi? उदाहरण के लिए, क्या वे भिन्न हो सकते हैं या वे सभी काफी करीब होंगे1/n? यह अनुमानित उत्तरों को खोजने के प्रयासों को सूचित कर सकता है।
व्हिबर

1
संपादन के लिए धन्यवाद। जितना आप हमें बता सकते हैंN, K, को vi, और यह pi, बेहतर। उदाहरण के लिए, यदिKmax(pi)1तब प्रतिस्थापन के साथ नमूने के लिए सूत्र अच्छे अनुमान होने चाहिए (क्योंकि बहुत कम मान, यदि कोई हो, तो एक से अधिक बार चुना जाएगा)। मेरा मानना है कि सबसे कठिन मामलों रहे हैं जहां के मूल्यों की एक विस्तृत श्रृंखला है --so है कि आप बस शून्य से उनमें से ज्यादातर को बदल नहीं सकते और अभी तक के साथ का एक सराहनीय संख्या के लिए --और । pipi>1/KiKN/2
whuber

जवाबों:


2

यह संभवतः एक उत्तर की प्रकृति में है, जबकि सटीक, संभवतः उतना उपयोगी नहीं है। होर्विट्ज़ और थॉम्पसन (1952) ऐसे परिणाम प्रदान करते हैं जो सामान्य रूप से इस स्थिति को कवर करते हैं। ये परिणाम उन दहनशील अभिव्यक्तियों के संदर्भ में दिए गए हैं जिनकी कोई अपेक्षा कर सकता है।

उनके संकेतन के अनुरूप रखने के लिए, और अधिक व्यापक रूप से उपयोग किए जाने वाले संकेतन के साथ बेहतर अनुरूप करने के लिए, मुझे कुछ मात्रा को फिर से परिभाषित करने दें। बता दें कि जनसंख्या में तत्वों की संख्या है और नमूना आकार है।Nn

बता दें कि , , जनसंख्या के तत्वों का प्रतिनिधित्व करते हैं , दिए गए मान , और चयन की । आकार दिए गए नमूने के लिए , नमूने में देखे गए मान ।uii=1,...,NNVii=1,...,Np1,...,pNnv1,...,vn

जो वांछित है वह नमूना का माध्य और विचरण है

i=1nvi.

जैसा कि टिप्पणियों में उल्लेख किया गया है, उस क्रम में खींचे गए एक विशेष नमूने का चयन करने की संभावना जहां प्रारंभिक प्रायिकता ड्राइंग का द्वारा दिया जाता है , दूसरी संभावना ड्राइंग का हटा होने पर सशर्त है आबादी से, और इसके आगे। इसलिए प्रत्येक बाद की इकाई ने अगली इकाई के लिए एक नई संभावना वितरण में परिणाम निकाले (इसलिए, अलग-अलग सूचक पत्रों की पसंद, क्योंकि प्रत्येक एक अलग वितरण का प्रतिनिधित्व करता है।)s={ui,uj,...,ut}

Pr(s)=pi1pj2ptn,
pi1uipipj2ujui

कर रहे हैं आकार नमूने जिनमें संपूर्ण जनसंख्या में से शामिल हैं । ध्यान दें कि यह को ध्यान में रखता हैनमूने के क्रमपरिवर्तन।

S(i)=n!(N1n1)
nuin!

आज्ञा देना आकार का एक विशिष्ट नमूना निरूपित करें जिसमें शामिल है । फिर, तत्व का चयन करने की संभावना द्वारा दिया जाता है जहां योग आकार के समूह के ऊपर है की सभी संभव नमूने आकार जिसमें । (मैंने पेपर को नोटेशन से थोड़ा बदल दिया क्योंकि यह मुझे भ्रमित करने वाला लगा।)sn(i)nuiui

P(ui)=Pr(sn(i)),
S(i)sn(i)nui

इसी तरह, को परिभाषित करें दोनों और युक्त नमूनों की संख्या के रूप में । फिर हम दोनों के रूप में एक नमूने की संभावना को परिभाषित कर सकते हैं जहां योग का आकार के लिए सभी संभव नमूनों की आकार के , जिनमें शामिल है और ।

S(ij)=n!(N2n2)
uiuj
P(uiuj)=Pr(sn(ij)),
S(ij)sn(ij)nuiuj

अपेक्षित मान तब

E(i=1nvi)=i=1NP(ui)Vi.

हालाँकि, विचरण को कागज में स्पष्ट रूप से प्राप्त नहीं किया गया है, इसे वें क्षण अवतरण से प्राप्त किया जा सकता है। और क्रॉस-उत्पाद q

E(i=1nviq)=i=1NP(ui)Viq
E(ijnvivj)=ijP(uiuj)ViVj.

दूसरे शब्दों में, ऐसा लगता है कि इन गणनाओं को करने के लिए सभी संभावित सबसेट के माध्यम से जाने की आवश्यकता होगी। शायद यह छोटे मूल्यों के लिए किया जा सकता है , हालांकि।n

होर्विट्ज़, डीजी और थॉम्पसन, डीजे (1952) एक परिमित ब्रह्मांड से प्रतिस्थापन के बिना नमूने का सामान्यीकरण। जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन 47 (260): 663-685।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.