विश्लेषण के लिए सीडीएफ और पीडीएफ आंकड़ों का उपयोग कैसे करें


12

यह बहुत सामान्य प्रश्न हो सकता है लेकिन मुझे आशा है कि मैं यहां मदद पा सकता हूं। मैं अपने विश्वविद्यालय में आरए की नौकरी शुरू कर रहा हूं और मेरा विषय इंटरनेट ट्रैफिक विश्लेषण से संबंधित होगा। मैं विश्लेषण की दुनिया के लिए काफी नया हूं लेकिन मुझे लगता है कि अनुसंधान की दुनिया में मुझे बहुत कुछ करना है।

मैं कुछ कागजात के माध्यम से गया हूँ और उनमें से कई में मुझे लगता है कि वे संभावित घनत्व (पीडीएफ), सीडीएफ, सीसीडीएफ आदि का उपयोग करते हैं ताकि वे प्राप्त परिणामों को बता सकें। उदाहरण के लिए, उपयोगकर्ता सत्र अवधि के पीडीएफ, प्रति दिन बाइट्स के सीडीएफ आदि को मैंने संभाव्यता और सांख्यिकी वर्ग में स्थानांतरित कर दिया है, इसलिए मैं समझता हूं कि वे क्या हैं लेकिन मैं अभी भी उन मामलों में उलझन में हूं जिनमें इस तरह के प्रतिनिधित्व को चुना जाएगा।

इसलिए, अगर वहाँ कोई है जो इस तरह के रेखांकन और विश्लेषण (सामान्य रूप से या किसी अन्य विषय में) करता है, तो क्या आप मुझे बता सकते हैं कि मैं इन स्थितियों में से किसी एक या किस स्थिति का उपयोग करूंगा

जवाबों:


17

यह आंशिक रूप से स्वाद और सम्मेलन की बात है, लेकिन सिद्धांत, अपने उद्देश्यों पर ध्यान देना, और संज्ञानात्मक तंत्रिका विज्ञान के एक smidgen [संदर्भ देखें] कुछ मार्गदर्शन प्रदान कर सकते हैं।

क्योंकि एक पीडीएफ और एक सीएफडी एक ही जानकारी देते हैं, उनके बीच का अंतर इस बात से उत्पन्न होता है कि वे इसे कैसे करते हैं: एक पीडीएफ उन क्षेत्रों के साथ संभाव्यता का प्रतिनिधित्व करता है जबकि एक सीएफडी (ऊर्ध्वाधर) दूरी के साथ संभाव्यता का प्रतिनिधित्व करता है । अध्ययनों से पता चलता है कि लोग दूरी की तुलना में अधिक तेजी से और अधिक सटीक रूप से तुलना करते हैं और वे व्यवस्थित रूप से गलत अनुमान वाले क्षेत्रों की तुलना करते हैं। इस प्रकार, यदि आपका उद्देश्य संभावनाओं को पढ़ने के लिए एक ग्राफिकल टूल प्रदान करना है, तो आपको cdf का उपयोग करने का पक्ष लेना चाहिए।

Pdfs और cdfs भी प्रायिकता घनत्व का प्रतिनिधित्व करते हैं : पूर्व ऊंचाई के माध्यम से ऐसा करता है जबकि बाद में ढलान द्वारा घनत्व का प्रतिनिधित्व करता है । अब तालिकाओं को बदल दिया गया है, क्योंकि लोग ढलान के खराब अनुमानक हैं (जो कोण के स्पर्शरेखा हैं; हम कोण को देखते हैं)। घनत्व मोड, पूंछ की भारीता और अंतराल के बारे में जानकारी देने में अच्छे हैं। ऐसी स्थितियों में और कहीं और जहां संभवतया वितरण के स्थानीय विवरणों पर जोर देने की आवश्यकता है, वहां pdfs का उपयोग करें।

कभी-कभी एक पीडीएफ या सीएफडी उपयोगी सैद्धांतिक जानकारी प्रदान करता है। इसके मूल्य (या इसके उलटे) क्वांटाइल्स, चरम सीमाओं और रैंक आंकड़ों के लिए मानक त्रुटियों के लिए सूत्रों में शामिल हैं। ऐसी स्थितियों में cdf के बजाय एक pdf प्रदर्शित करें। जब एक nonparametric सेटिंग में बहुभिन्नरूपी सहसंबंधों का अध्ययन करते हैं, जैसे कि कोपल्स के साथ , cdf अधिक उपयोगी हो जाता है (शायद क्योंकि यह वह फ़ंक्शन है जो निरंतर संभाव्यता कानून को एक समान में बदल देता है)।

एक पीडीएफ या सीएफडी एक विशेष सांख्यिकीय परीक्षण के साथ अंतरंग रूप से जुड़ा हो सकता है। Kolmogorov-स्मिर्नोव परीक्षण (और एस आंकड़ा) CDF के चारों ओर एक ऊर्ध्वाधर बफर के मामले में एक सरल चित्रमय प्रतिनिधित्व है; यह पीडीएफ के संदर्भ में कोई सरल चित्रमय प्रतिनिधित्व नहीं है (जो मुझे पता है)।

Ccdf (पूरक cdf) का उपयोग विशेष अनुप्रयोगों में किया जाता है जो जीवित रहने और दुर्लभ घटनाओं पर ध्यान केंद्रित करते हैं। इसका उपयोग सम्मेलन द्वारा स्थापित किया जाना है।

संदर्भ

डब्ल्यूएस क्लीवलैंड (1994)। डेटा रेखांकन के तत्व। शिखर सम्मेलन, एनजे, यूएसए: होबार्ट प्रेस। आईएसबीएन 0-9634884-1-4

बीडी डेंट (1999)। कार्टोग्राफी: थीमेटिक मैप डिज़ाइन 5 वां एड। बोस्टन, एमए, यूएसए: डब्ल्यूसीबी मैकग्रा-हिल।

एएम मैकएरेन (2004)। मैप्स कैसे काम करते हैं। न्यूयॉर्क, एनवाई, यूएसए: द गिल्फोर्ड प्रेस। आईएसबीएन 1-57230-040-X


(+1) विशेष रूप से दूरी बनाम क्षेत्रों और ढलान बनाम ऊंचाई की व्याख्या में अंतर्दृष्टि के लिए।
स्टेफेन

8

मैं व्हीबर के उत्तर से सहमत हूं, लेकिन एक अतिरिक्त मामूली बात है:

सीडीएफ में एक साधारण गैर-पैरामीट्रिक अनुमानक है जिसे बनाने के लिए कोई विकल्प नहीं है: अनुभवजन्य वितरण समारोह । एक पीडीएफ का अनुमान लगाना इतना सरल नहीं है । यदि आप हिस्टोग्राम का उपयोग करते हैं तो आपको बिन चौड़ाई और शुरुआती बिन के लिए शुरुआती बिंदु चुनने की आवश्यकता होती है। यदि आप कर्नेल घनत्व अनुमान का उपयोग करते हैं तो आपको कर्नेल आकार और बैंडविड्थ चुनने की आवश्यकता होती है। एक संदिग्ध या निंदक पाठक आश्चर्यचकित हो सकता है यदि आपने वास्तव में इन को पूरी तरह से प्राथमिकता के रूप में चुना है या यदि आपने कुछ भिन्न मूल्यों को आजमाया है और उन लोगों को चुना है जो आपको सबसे अधिक पसंद आए हैं।

हालांकि यह केवल एक मामूली बात है। जो व्हीबर्ड बनाए गए हैं वे अधिक महत्वपूर्ण हैं, इसलिए मैं शायद इसका उपयोग केवल यह चुनने के लिए करूंगा कि जब मैं उन पर विचार करने के बाद भी अनिर्दिष्ट था।


यह अभी भी एक दिलचस्प बिंदु है। इसे लाने के लिए धन्यवाद।
whuber

2

मुझे लगता है कि यह इस बात पर निर्भर करता है कि आप किन आँकड़ों या निष्कर्षों का पता लगाने जा रहे हैं, शोध, अध्ययन या रिपोर्ट। मुझे लगता है कि आप अपने विश्वविद्यालय के विषय के लिए निष्कर्षों का प्रतिनिधित्व करने के लिए इन ग्राफ़ का उपयोग करेंगे, है ना?

उदाहरण के लिए, यदि आप अपनी खोज को यह कहते हुए प्रस्तुत करना चाहते हैं, 'उपयोगकर्ता किसी निश्चित वेबसाइट पर कितने समय तक टिकते हैं', तो इसे सीडीएफ में दिखाना अच्छा हो सकता है क्योंकि यह उस वेबसाइट पर खर्च किए गए संचित समय को दिखाता है, जैसे पेज आदि के माध्यम से। ।

दूसरी ओर, यदि आप केवल विज्ञापन लिंक पर क्लिक करने वाले उपयोगकर्ताओं (जैसे Google ऐडवर्ड्स लिंक) की संभावना दिखाना चाहते हैं, तो आप इसे पीडीएफ रूप में प्रस्तुत करना चाह सकते हैं क्योंकि यह संभवतः एक सामान्य वितरण घंटी वक्र होगा और आप दिखा सकते हैं उस हेपनिंग की संभावना।

आशा है कि यह मदद करता है, जेफ

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.