क्या आंकड़ों का एक सेट जमा करना संभव है जो बड़ी संख्या में नमूनों का वर्णन करता है जैसे कि मैं तब एक बॉक्सप्लॉट का उत्पादन कर सकता हूं?


22

मुझे तुरंत स्पष्ट करना चाहिए कि मैं एक प्रैक्टिसिंग सॉफ्टवेयर डेवलपर हूं, न कि एक सांख्यिकीविद्, और यह कि मेरा कॉलेज स्टैटस क्लास बहुत समय पहले…

उस ने कहा, मैं यह जानना चाहूंगा कि क्या वर्णनात्मक आंकड़ों के एक सेट को संचित करने के लिए एक विधि है जो तब एक बॉक्सप्लॉट का उत्पादन करने के लिए इस्तेमाल किया जा सकता है, जो व्यक्तिगत नमूनों का एक गुच्छा संग्रहीत नहीं करता है?

मैं जो करने की कोशिश कर रहा हूं वह एक जटिल बहु-कतार प्रक्रिया के भीतर कतार सेवा समय का एक चित्रमय सारांश है। मैंने अतीत में tnftools नामक एक पैकेज का उपयोग किया है जिसने बड़े नमूनों को जमा करने की अनुमति दी और फिर प्रतिक्रिया समय और आउटलेर के एक अच्छे ग्राफ में पोस्ट-प्रोसेस्ड ... लेकिन tnftools मेरे वर्तमान प्लेटफॉर्म के लिए उपलब्ध नहीं हैं।

आदर्श रूप में मैं "मक्खी पर" वर्णनात्मक आंकड़ों के एक सेट को संचित करने में सक्षम होना चाहूंगा क्योंकि यह प्रक्रिया चलती है, और फिर मांग पर विश्लेषण के लिए डेटा निकालते हैं। लेकिन मैं बस इस प्रक्रिया को नमूने जमा नहीं कर सकता क्योंकि मेमोरी / IO ऐसा करने में शामिल है, जो सिस्टम के प्रदर्शन पर एक अस्वीकार्य प्रभाव होगा।


Kaelin:> क्या आप का मतलब है कि माध्य और चतुर्थक जैसे सारांश आँकड़ों की गणना के लिए 'मक्खी पर' मौजूद है? यदि यह है कि आप क्या चाहते हैं, तो मैं आपको उन्हें विस्तार से कागजात के लिंक दे सकता हूं। आप उन प्लेटफार्मों के बारे में अधिक विवरण भी दे सकते हैं, जिन पर आप कार्य कर रहे हैं, इन तरीकों के कुशल GNU क्रियान्वयन की संभावना R में मौजूद है।
user603

@kwak: हाँ, यह लग रहा है कि मैं क्या देख रहा हूँ। मैं उन लिंक की बहुत सराहना करूंगा। :-) मैं मैक ओएस एक्स पर काम कर रहा हूं ... मैं आर के बाद के प्रसंस्करण डेटा के लिए उपयोग कर सकता हूं, लेकिन सामान्य कारणों से मेरी कंपनी के उत्पाद में जीपीएल कोड को लिंक नहीं कर सकता।
२०:२०

जवाबों:


27

'मक्खी पर' बॉक्सप्लॉट के लिए, आपको 'मक्खी' मिनट / अधिकतम (तुच्छ) के साथ-साथ 'मक्खी' चतुष्कोणीय पर (0.25,0.5 = मंझला और 0.75) की आवश्यकता होगी।

मध्ययुगीन गणना के लिए हाल ही में ऑनलाइन (या 'मक्खी पर') एल्गोरिथ्म की समस्या में बहुत सारे काम चल रहे हैं।

एक हाल ही में विकसित किया गया द्विपदीय है । साइड-किक के रूप में, यह क्विकसेक्ट (जो न तो ऑनलाइन और न ही सिंगल पास है) की तुलना में सबसे खराब स्थिति जटिलता का आनंद लेता है।

आप संबंधित पेपर के साथ-साथ सी और फोरट्रान कोड को यहां ऑनलाइन पा सकते हैं । आपको लेखकों के साथ लाइसेंसिंग विवरण की जांच करनी पड़ सकती है।

आपको क्वार्टराइल के लिए एकल पास एल्गोरिथ्म की भी आवश्यकता होगी, जिसके लिए आप ऊपर के दृष्टिकोण का उपयोग कर सकते हैं और मध्यस्थों के संदर्भ में क्वार्टराइल के निम्नलिखित पुनरावर्ती लक्षण वर्णन कर सकते हैं:

क्यू0.75(एक्स)क्यू0.5(एक्समैं:एक्समैं>क्यू0.5(एक्स))

तथा

क्यू0.25(एक्स)क्यू0.5(एक्समैं:एक्समैं<क्यू0.5(एक्स))

अर्थात २५ (the५) प्रतिशत चतुर्थक उन अवलोकनों के माध्यिका के बहुत करीब होता है जो मध्यिका की तुलना में छोटे (बड़े) होते हैं।

परिशिष्ट:

क्वांटिलों की गणना के लिए पुराने बहु-पास तरीकों का एक मेजबान मौजूद है। एक लोकप्रिय दृष्टिकोण को बनाए रखने / टिप्पणियों बेतरतीब ढंग से धारा से चयनित और रिकर्सिवली गणना quantiles के निर्धारणात्मक आकार जलाशय अद्यतन करने के लिए है (देखें यह इस जलाशय पर समीक्षा)। यह (और संबंधित) दृष्टिकोण ऊपर प्रस्तावित एक द्वारा छोड़े गए हैं।


1
+1 सही; मैं अभी भी हिस्टोग्राम से सन्निकटन बनाने के अंधेरे युग में था।

क्या मैं सही ढंग से समझ सकता हूं कि मध्यस्थों से चतुर्थक की ऐसी पुनरावर्ती परिभाषा को भली-भांति कार्यान्वित करने के लिए दो पास की आवश्यकता होती है? क्या आप सिंगल पास एल्गोरिदम के बारे में जानते हैं?
क्वार्ट्ज

@ क्वेश्चन: नहीं, एक सिंगल पास करेगा: आपके पास दो, सिंगल पास, रनिंग माडियन कंप्यूटेशन हैं।
user603

2

केवल माध्यिका को खोजने के बजाय, एक एल्गोरिथ्म है जो सीधे अनुमानित हिस्टोग्राम को बनाए रखता है: " पी-स्क्वायर एल्गोरिथम क्वांटाइल्स और हिस्टोग्राम के गतिशील गणना के बिना भंडारण अवलोकन"। यह संभवतः बहुत अधिक कुशल होगा जो आप चाहते हैं कि प्रत्येक मात्रात्मक के लिए बार-बार द्वैधता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.