वर्दी बनाम गैर-वर्दी डिब्बे के साथ हिस्टोग्राम

यह प्रश्न एक समान और एक गैर-समान हिस्टोग्राम के बीच मूल अंतर का वर्णन करता है। और यह प्रश्न एक समान हिस्टोग्राम के डिब्बे की संख्या को चुनने के लिए अंगूठे के नियम पर चर्चा करता है जो कि (कुछ अर्थों में) उस डिग्री को हिस्टोग्राम के वितरण का प्रतिनिधित्व करता है जिसमें से डेटा नमूने खींचे गए थे।

मैं समान बनाम गैर-समान हिस्टोग्राम के बारे में "इष्टतमता" चर्चा का एक ही प्रकार नहीं खोज सकता। मेरे पास दूर-दराज के साथ एक क्लस्टर्ड नॉनपैरेमेट्रिक वितरण है ताकि गैर-वर्दी हिस्टोग्राम सहज रूप से अधिक समझ में आए। लेकिन मैं निम्नलिखित दो प्रश्नों का अधिक सटीक विश्लेषण देखना पसंद करूंगा:

एक समान-बिन हिस्टोग्राम एक समान-बिन बिन से बेहतर कब है?
गैर-वर्दी हिस्टोग्राम के लिए डिब्बे की एक अच्छी संख्या क्या है?

एक गैर-समान हिस्टोग्राम के लिए, मुझे सबसे सरल मामला माना जाता है जहां हम एक अज्ञात वितरण से नमूने लेते हैं , परिणामी मानों को क्रमबद्ध करते हैं, और उन्हें बिन में अलग करते हैं जैसे कि प्रत्येक बिन में $n$ $n$ $k$ $\frac{k}{n}$ $n \equiv c k$ $c$ $\max$ $i$ $\min$ $i+1$

— एलन ट्यूरिंग
स्रोत

उत्तर देने के लिए लगभग पर्याप्त जानकारी नहीं है (2)। गैर-एकरूपता पर क्या शर्तें हैं? क्या आप अपनी पसंद के किसी भी डिब्बे को चुन सकते हैं, या कुछ प्रतिबंध है? आप क्या अनुकूलित करना चाहते हैं? उदाहरण के लिए क्या आप चाहते हैं कि और बीच न्यूनतम औसत एकीकृत त्रुटि हो ? या कुछ और?

f

$f$

\hat{f}

$\hat{f}$

— Glen_b -Reinstate मोनिका

@Glen_b मैं थोड़ा और विस्तार से वर्णन करता हूं कि गैर-वर्दी बिन मामले में मैं जिस तरह का हिस्टोग्राम कर रहा हूं।

— एलन ट्यूरिंग

अपना संपादन जांचें। क्या आपका मतलब "c =" के बजाय "n = cm" था? इसके अलावा एक बाद में टाइपो है।

— Glen_b -Reinstate मोनिका

आप की तरह कुछ संप्रेषित करने के लिए कोशिश कर रहे हैं इस ?

— Glen_b -Reinstate मोनिका

इसके अलावा और सामान्य हिस्टोग्राम के बीच एक समझौता की इस चर्चा को देखें

— Glen_b -Reinstate Monica

एक समान-बिन हिस्टोग्राम एक समान-बिन बिन से बेहतर कब है?

इसके लिए किसी प्रकार की पहचान की आवश्यकता है जिसे हम अनुकूलित करना चाहते हैं; बहुत से लोग औसत एकीकृत माध्य वर्ग त्रुटि का अनुकूलन करने की कोशिश करते हैं, लेकिन कई मामलों में मुझे लगता है कि कुछ हद तक हिस्टोग्राम करने की बात याद आती है; यह अक्सर (मेरी आँख के लिए) 'ओवरस्मैट्स'; हिस्टोग्राम जैसे एक खोजपूर्ण उपकरण के लिए मैं एक अच्छा सौदा अधिक खुरदरापन को सहन कर सकता हूं, क्योंकि खुरदरापन मुझे खुद को उस हद तक समझ देता है जिसे मुझे आंख से "चिकनी" करना चाहिए; मैं कम से कम इस तरह के नियमों से डिब्बे की सामान्य संख्या को दोगुना कर देता हूं, कभी-कभी एक अच्छा सौदा अधिक होता है। मैं इस पर एंड्रयू जेलमैन से सहमत हूं ; वास्तव में अगर मेरी रुचि वास्तव में एक अच्छा AIMSE हो रही थी, तो मुझे शायद वैसे भी हिस्टोग्राम पर विचार नहीं करना चाहिए।

इसलिए हमें एक कसौटी चाहिए।

गैर-समान क्षेत्र हिस्टोग्राम के कुछ विकल्पों पर चर्चा करके मुझे शुरू करें:

कुछ दृष्टिकोण हैं जो कम घनत्व वाले क्षेत्रों में अधिक चौरसाई (कम, व्यापक डिब्बे) करते हैं और संकीर्ण डिब्बे हैं जहां घनत्व अधिक है - जैसे "बराबर-क्षेत्र" या "समान गणना" हिस्टोग्राम। आपका संपादित प्रश्न समान गणना संभावना पर विचार करता है।

histogramआर के दशक में समारोह latticeपैकेज लगभग बराबर-क्षेत्र सलाखों उत्पादन कर सकते हैं:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

समान चौड़ाई और समान क्षेत्र की तुलना

यदि आप चौथी जड़ें लेते हैं, तो बाईं ओर के दाईं ओर बस डुबकी लगाना और भी स्पष्ट है; जब तक आप 15 से 20 बार कई डिब्बे का उपयोग नहीं करते तब तक समान-चौड़ाई वाले डिब्बे इसे नहीं देख सकते, और फिर सही पूंछ भयानक लगती है।

आर-कोड के साथ यहां एक बराबर-गिनती हिस्टोग्राम है , जो ब्रेक को खोजने के लिए नमूना-मात्रा का उपयोग करता है।

उदाहरण के लिए, ऊपर के समान डेटा पर, यहाँ (उम्मीद है) 8 टिप्पणियों के साथ 6 डिब्बे हैं:

बराबर हिस्टोग्राम

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

यह सीवी सवाल करने के लिए अंक डेंबे और Mallows द्वारा एक कागज जो का एक संस्करण है यहां से डाउनलोड करने योग्य जो बराबर-चौड़ाई डिब्बे और समान-क्षेत्र डिब्बे के बीच एक समझौता वर्णन करता है।

यह उन प्रश्नों को भी संबोधित करता है जो आपके पास कुछ हद तक थे।

आप शायद इस समस्या पर विचार कर सकते हैं क्योंकि एक टुकड़े-टुकड़े में स्थिर पॉइसन प्रक्रिया में ब्रेक की पहचान करना। इस तरह काम करना होगा । (कहते हैं) पॉइसन काउंट्स पर (कहते हैं) क्लस्टरिंग / वर्गीकरण प्रकार के एल्गोरिदम को देखने की संबंधित संभावना भी है, जिनमें से कुछ एल्गोरिदम में कई डिब्बे मिलेंगे। क्लस्टरिंग 2 डी हिस्टोग्राम (पर इस्तेमाल किया गया है छवियों क्षेत्रों है कि अपेक्षाकृत समरूप हैं पहचान करने के लिए, प्रभाव में)।

यदि हमारे पास एक समान-गिनती हिस्टोग्राम था, और अनुकूलन करने के लिए कुछ मानदंड तो हम प्रति बिन मायने रखता है और किसी तरह से मानदंड का मूल्यांकन कर सकते हैं। यहां वैंड पेपर का उल्लेख किया गया है [ कागज , या कामकाजी पेपर पीडीएफ ] और इसके कुछ संदर्भ (उदाहरण के लिए हीथर एट अल पेपर) की रूपरेखा "एआईएलएसई का अनुकूलन करने के लिए कर्नेल स्मूथिंग विचारों पर आधारित" बिन चौड़ाई आकलन में प्लग; मोटे तौर पर इस तरह का दृष्टिकोण इस स्थिति के अनुकूल होना चाहिए, हालाँकि मुझे यह करते हुए याद नहीं है।

— Glen_b -Reinstate मोनिका
स्रोत