हिस्टोग्राम और पीडीएफ के बीच अंतर?


18

यदि हम नेत्रहीन रूप से एक सतत डेटा का वितरण देखना चाहते हैं, तो हिस्टोग्राम और पीडीएफ में से किसका उपयोग किया जाना चाहिए?

हिस्टोग्राम और पीडीएफ के बीच क्या अंतर हैं, फॉर्मूला वार नहीं?


क्या आप स्पष्ट कर सकते हैं कि क्या यह प्रश्न डेटा (जिसका वितरण एक हिस्टोग्राम द्वारा प्रतिनिधित्व किया जा सकता है) या सैद्धांतिक निर्माण (जैसे कि एक पीडीएफ, जो एक संभाव्यता वितरण का वर्णन करता है) की चिंता करता है।
व्हिबर

4
लेकिन पीडीएफ कहां से आता है? परिभाषा के अनुसार, एक पीडीएफ एक सैद्धांतिक संभाव्यता वितरण का वर्णन करता है। क्या आप शायद edf (अनुभवजन्य वितरण समारोह) का मतलब है?
whuber

जवाबों:


22

डिर्क बिंदु स्पष्ट करने के लिए:

कहते हैं कि आपका डेटा एक सामान्य वितरण का एक नमूना है। आप निम्नलिखित कथानक का निर्माण कर सकते हैं:

वैकल्पिक शब्द

लाल रेखा आनुभविक घनत्व का अनुमान है, नीली रेखा अंतर्निहित सामान्य वितरण की सैद्धांतिक पीडीएफ है। ध्यान दें कि हिस्टोग्राम घनत्व में व्यक्त किया गया है और यहां आवृत्तियों में नहीं। यह प्लॉटिंग उद्देश्यों के लिए किया जाता है, सामान्य आवृत्तियों में हिस्टोग्राम में उपयोग किया जाता है।

तो अपने प्रश्न का उत्तर देने के लिए: आप अनुभवजन्य वितरण (यानी हिस्टोग्राम) का उपयोग करते हैं यदि आप अपने नमूने का वर्णन करना चाहते हैं, और पीडीएफ यदि आप अंतर्निहित अंतर्निहित वितरण का वर्णन करना चाहते हैं।

R में निम्नलिखित कोड द्वारा प्लॉट तैयार किया जाता है:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)

आवृत्ति और घनत्व के बीच अंतर क्या है?
Lakshay

2
@ लखाई की आवृत्ति मायने रखती है। सभी आवृत्तियों का सार टिप्पणियों की संख्या के बराबर है। पीडीएफ (संभावना घनत्व फ़ंक्शन) के लिए घनत्व कम है, जो एक निश्चित मूल्य होने की संभावना के लिए एक प्रॉक्सी है। पीडीएफ के तहत क्षेत्र 1 तक बैठता है।
जोरिस मेय्स

13

हिस्टोग्राम एक घनत्व का पूर्व-कंप्यूटर आयु अनुमान है। एक घनत्व का अनुमान एक विकल्प है।

इन दिनों हम दोनों का उपयोग करते हैं, और एक समृद्ध साहित्य है जिसके बारे में चूक का उपयोग करना चाहिए।

दूसरी ओर एक पीडीएफ, एक के लिए एक बंद-रूप अभिव्यक्ति है दिए गए वितरण के । यह आपके डेटासेट का अनुमानित घनत्व या हिस्टोग्राम के साथ वर्णन करने से अलग है ।


1
μσ2density

*ab***ab**$\sqrt{2}$2

6

यहां कोई कठिन और तेज़ नियम नहीं है। यदि आप अपनी आबादी का घनत्व जानते हैं, तो एक पीडीएफ बेहतर है। दूसरी ओर, अक्सर हम नमूनों से निपटते हैं और एक हिस्टोग्राम कुछ जानकारी दे सकता है जो अनुमानित घनत्व को कवर करता है। उदाहरण के लिए, एंड्रयू गेलमैन इस बिंदु को बनाता है:

हिस्टोग्राम पर बदलाव

हिस्टोग्राम का एक प्रमुख लाभ यह है कि, कच्चे डेटा के एक भूखंड के रूप में, इसमें स्वयं के त्रुटि मूल्यांकन के बीज होते हैं। या, इसे दूसरे तरीके से रखने के लिए, थोड़ा अंडरस्टेड हिस्टोग्राम की दांतेदारता नेत्रहीन रूप से नमूना परिवर्तनशीलता का संकेत देकर एक उपयोगी सेवा करती है। इसीलिए, यदि आप मेरी किताबों और प्रकाशित लेखों में हिस्टोग्राम देखते हैं, तो मैं हमेशा बहुत सारे डिब्बे का उपयोग करता हूं। मैं भी लगभग कभी उन कर्नेल घनत्व का अनुमान नहीं लगाता जो लोग कभी-कभी एक आयामी वितरण को प्रदर्शित करने के लिए उपयोग करते हैं। मैं नहीं बल्कि हिस्टोग्राम देखना होगा और पता चल जाएगा कि डेटा कहाँ हैं


3
मुझे स्वीकार करना चाहिए कि मैं पूरी तरह से नहीं समझता कि क्यों जेलमैन छोटे बिन की चौड़ाई के साथ हिस्टोग्राम के उपयोग की वकालत करता है; क्यों नहीं धारीदार प्लॉट या कच्चे डेटा का उपयोग सुपरइम्पोज्ड कर्नेल घनत्व अनुमानों के साथ किया जाता है, जो कि बेहतर डेटा के अनुभवजन्य वितरण को व्यक्त करते हैं?
chl

2
@chl: नमूना परिवर्तनशीलता की भावना प्राप्त करने के लिए निश्चित रूप से अन्य अच्छे दृश्य विधियां हैं। लेकिन हिस्टोग्राम v। की संकीर्ण तुलना पर यहाँ चर्चा के तहत पीडीएफ, मुझे लगता है कि उनकी बात अच्छी तरह से बनी है।
आर्स

1
यह एक अच्छा लिंक है, जैसा कि वहाँ चर्चा किए गए कागजात हैं। लेकिन, क्या यह दृष्टिकोण सिमुलेशन के लिए है, जिस स्थिति में हम वास्तव में घनत्व का अनुमान लगाने की कोशिश कर रहे हैं?
डेविड लेबॉउर

1

सापेक्ष आवृत्ति हिस्टोग्राम ( असतत )

  • 'y' अक्ष सामान्यीकृत गणना है
  • 'y' अक्ष उस विशेष बिन / श्रेणी के लिए असतत संभावना है
  • सामान्यीकृत संख्या 1 तक की गणना

घनत्व हिस्टोग्राम ( असतत )

  • 'y' अक्ष घनत्व मान है ('बिन चौड़ाई' द्वारा विभाजित 'सामान्यीकृत गिनती')
  • 1 तक बार क्षेत्र

संभाव्यता घनत्व फ़ंक्शन पीडीएफ ( निरंतर )

  • पीडीएफ हिस्टोग्राम का एक निरंतर संस्करण है क्योंकि हिस्टोग्राम के डिब्बे असतत होते हैं
  • वक्र के तहत कुल क्षेत्र 1 से एकीकृत होता है

ये संदर्भ सहायक थे :) http://stattrek.com/statistics/dfox.aspx?definition=Probability_density_function

उपरोक्त साइट से Continuous_probability_distribution

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.