दिया हुआ संख्याएँ, जहाँ प्रत्येक संख्या का मान भिन्न होता है, को निरूपित किया जाता है , और प्रत्येक संख्या के चयन की संभावना है , क्रमशः।
अब अगर मैं चयन करता हूं दी गई संभावनाओं के आधार पर संख्या, जहां , उन लोगों की राशि की उम्मीद क्या है संख्या? ध्यान दें कि चयन प्रतिस्थापन के बिना है, ताकिसंख्याओं में डुप्लिकेट नंबर शामिल नहीं हो सकते। मैं समझता हूं कि यदि चयन प्रतिस्थापन के साथ है, तो योग की उम्मीद संख्या बराबर है , कहाँ पे
इसके अलावा, उन लोगों के विचरण की उम्मीद के बारे में क्या संख्या?
मैं एक सीएस पीएचडी छात्र हूं जो एक बड़ी डेटा समस्या पर काम कर रहा है, और मेरे पास कोई सांख्यिकी पृष्ठभूमि नहीं है। मुझे उम्मीद है कि कोई मुझे जवाब के रूप में एक सूत्र दे सकता है। हालाँकि, यदि उत्तर बहुत जटिल है, जिसे सूत्र द्वारा वर्णित किया जाना है या गहन संगणना को शामिल करना है, तो एक अनुमानित उत्तर पूरी तरह से स्वीकार्य है।
आप मान सकते हैं यहाँ काफी बड़ा है, और संभावना बहुत भिन्न हो सकती है। व्यवहार में, उन संभावनाओं के मूल्य एक क्वेरी लॉग से आते हैं, जो एकत्रीकरण प्रश्नों की एक श्रृंखला दर्ज करता है। मुद्दा यह है कि प्रश्नों में शामिल प्रत्येक संख्या की आवृत्ति काफी तिरछी हो सकती है, अर्थात, कुछ को शायद ही कभी उद्धृत किया जाता है, जबकि कुछ को बहुत बार उद्धृत किया जाता है। आप मान सकते हैं कि संभाव्यता वितरण सामान्य वितरण, जिपफ वितरण या कोई अन्य उचित विकल्प है।
मूल्य वितरण किसी भी संभावित वितरण का केवल एक सन्निहित उपसमुच्चय है। दूसरे शब्दों में, यदि आपके पास एक हिस्टोग्राम है जो एक निश्चित वितरण का प्रतिनिधित्व करता है, तो इस समस्या में शामिल सभी संख्याएं एक ही बाल्टी के भीतर सभी संख्याएं हैं।
K के मूल्य के संदर्भ में, आप यह मान सकते हैं कि यह हमेशा बहुतायत तत्वों की संख्या से कम है।