क्षणों का उपयोग करके पूर्णांकों की एक धारा के लिए अनुमानित मात्राओं की गणना करें?


20

math.stackexchange से माइग्रेट किया गया

मैं पूर्णांकों की एक लंबी धारा को संसाधित कर रहा हूं और कुछ क्षणों को ट्रैक करने पर विचार कर रहा हूं ताकि बहुत अधिक डेटा संग्रहीत किए बिना धारा के लिए लगभग विभिन्न प्रतिशत की गणना करने में सक्षम हो। कुछ ही क्षणों से प्रतिशतक की गणना करने का सबसे सरल तरीका क्या है। क्या एक बेहतर दृष्टिकोण है जिसमें केवल थोड़ी मात्रा में डेटा संग्रहीत करना शामिल है?


2
क्या आप अपनी स्ट्रीम के वितरण गुणों के बारे में कुछ विशेष जानते हैं? उदाहरण के लिए, क्या वे कहते हैं, सकारात्मक? घिरा? आपके द्वारा प्रदान किया गया कोई भी अन्य विवरण सहायक होगा। क्षणों की गणना और एक स्ट्रीम के लिए स्टोर करना बहुत आसान है। एक धारा से सीधे मात्राओं का अनुमान लगाने के बारे में भी यहां पिछले प्रश्न हैं , जो लगता है कि आप वास्तव में क्या करने की कोशिश कर रहे हैं। आप खोज सकते हैं, और उन के माध्यम से देख सकते हैं।
कार्डिनल

वे प्रसंस्करण समय का प्रतिनिधित्व करते हैं, इसलिए वे सकारात्मक हैं, और जब तक कि किसी प्रकार की तकनीकी समस्या या सिस्टम में अधिभार न हो, तब तक वे बहुत कसकर बंद हो जाते हैं। मैं मात्रात्मक प्रश्नों की तलाश करूँगा; वे काफी अच्छे हो सकते हैं। फिर भी मैं उत्सुक हूं कि एक मनमाने प्रतिशत के साथ जुड़े मूल्य की गणना करने के लिए क्षणों से कैसे जाना है। मुझे पता है कि क्षणों को संग्रहीत करना आसान है, यह है कि उन्हें कैसे उपयोग करना है जो मुझे नहीं पता है।
जॉन्ड्री

जवाबों:


15

आप इसे स्पष्ट रूप से नहीं बताते हैं, लेकिन समस्या के आपके वर्णन से यह संभावना प्रतीत होती है कि आप एक उच्च-पक्षपाती सेट (जैसे कि 50 वें, 90 वें, 95 वें और 99 वें प्रतिशत) के बाद हैं।

अगर ऐसा है, तो मुझे Cormode et al द्वारा "डेटा धाराओं पर बायस्ड क्वांटाइल्स की प्रभावी संगणना" में वर्णित विधि से बहुत सफलता मिली है । यह एक तेज़ एल्गोरिथम है जिसमें थोड़ी मेमोरी की आवश्यकता होती है और इसे लागू करना आसान है।

विधि ग्रीनवल्ड और खन्ना द्वारा पहले के एल्गोरिथ्म पर आधारित है जो नमूना में मानों की रैंक पर ऊपरी और निचले सीमा के साथ इनपुट स्ट्रीम का एक छोटा नमूना बनाए रखता है। इसे कुछ क्षणों के संग्रह की तुलना में अधिक जगह की आवश्यकता होती है, लेकिन वितरण के दिलचस्प पूंछ क्षेत्र का सही वर्णन करने में बहुत बेहतर होगा।


1
हां, यह वास्तव में जाने का तरीका है। वास्तव में उच्च मात्रा के अनुमानों को प्राप्त करना थोड़ा आसान है, खासकर यदि आप फॉर्म के रैंक में त्रुटि को सहन करने के लिए तैयार हैं, जहां कुल आइटमों की संख्या है, और \ epsilon> 0 $ कुछ उपयोगकर्ता है परिभाषित त्रुटि शब्दϵnn
सुरेश वेंकटसुब्रमण्यन

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.