एक समान-बिन हिस्टोग्राम एक समान-बिन बिन से बेहतर कब है?
इसके लिए किसी प्रकार की पहचान की आवश्यकता है जिसे हम अनुकूलित करना चाहते हैं; बहुत से लोग औसत एकीकृत माध्य वर्ग त्रुटि का अनुकूलन करने की कोशिश करते हैं, लेकिन कई मामलों में मुझे लगता है कि कुछ हद तक हिस्टोग्राम करने की बात याद आती है; यह अक्सर (मेरी आँख के लिए) 'ओवरस्मैट्स'; हिस्टोग्राम जैसे एक खोजपूर्ण उपकरण के लिए मैं एक अच्छा सौदा अधिक खुरदरापन को सहन कर सकता हूं, क्योंकि खुरदरापन मुझे खुद को उस हद तक समझ देता है जिसे मुझे आंख से "चिकनी" करना चाहिए; मैं कम से कम इस तरह के नियमों से डिब्बे की सामान्य संख्या को दोगुना कर देता हूं, कभी-कभी एक अच्छा सौदा अधिक होता है। मैं इस पर एंड्रयू जेलमैन से सहमत हूं ; वास्तव में अगर मेरी रुचि वास्तव में एक अच्छा AIMSE हो रही थी, तो मुझे शायद वैसे भी हिस्टोग्राम पर विचार नहीं करना चाहिए।
इसलिए हमें एक कसौटी चाहिए।
गैर-समान क्षेत्र हिस्टोग्राम के कुछ विकल्पों पर चर्चा करके मुझे शुरू करें:
कुछ दृष्टिकोण हैं जो कम घनत्व वाले क्षेत्रों में अधिक चौरसाई (कम, व्यापक डिब्बे) करते हैं और संकीर्ण डिब्बे हैं जहां घनत्व अधिक है - जैसे "बराबर-क्षेत्र" या "समान गणना" हिस्टोग्राम। आपका संपादित प्रश्न समान गणना संभावना पर विचार करता है।
histogramआर के दशक में समारोह latticeपैकेज लगभग बराबर-क्षेत्र सलाखों उत्पादन कर सकते हैं:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area

यदि आप चौथी जड़ें लेते हैं, तो बाईं ओर के दाईं ओर बस डुबकी लगाना और भी स्पष्ट है; जब तक आप 15 से 20 बार कई डिब्बे का उपयोग नहीं करते तब तक समान-चौड़ाई वाले डिब्बे इसे नहीं देख सकते, और फिर सही पूंछ भयानक लगती है।
आर-कोड के साथ यहां एक बराबर-गिनती हिस्टोग्राम है , जो ब्रेक को खोजने के लिए नमूना-मात्रा का उपयोग करता है।
उदाहरण के लिए, ऊपर के समान डेटा पर, यहाँ (उम्मीद है) 8 टिप्पणियों के साथ 6 डिब्बे हैं:

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
यह सीवी सवाल करने के लिए अंक डेंबे और Mallows द्वारा एक कागज जो का एक संस्करण है यहां से डाउनलोड करने योग्य जो बराबर-चौड़ाई डिब्बे और समान-क्षेत्र डिब्बे के बीच एक समझौता वर्णन करता है।
यह उन प्रश्नों को भी संबोधित करता है जो आपके पास कुछ हद तक थे।
आप शायद इस समस्या पर विचार कर सकते हैं क्योंकि एक टुकड़े-टुकड़े में स्थिर पॉइसन प्रक्रिया में ब्रेक की पहचान करना। इस तरह काम करना होगा । (कहते हैं) पॉइसन काउंट्स पर (कहते हैं) क्लस्टरिंग / वर्गीकरण प्रकार के एल्गोरिदम को देखने की संबंधित संभावना भी है, जिनमें से कुछ एल्गोरिदम में कई डिब्बे मिलेंगे। क्लस्टरिंग 2 डी हिस्टोग्राम (पर इस्तेमाल किया गया है छवियों क्षेत्रों है कि अपेक्षाकृत समरूप हैं पहचान करने के लिए, प्रभाव में)।
-
यदि हमारे पास एक समान-गिनती हिस्टोग्राम था, और अनुकूलन करने के लिए कुछ मानदंड तो हम प्रति बिन मायने रखता है और किसी तरह से मानदंड का मूल्यांकन कर सकते हैं। यहां वैंड पेपर का उल्लेख किया गया है [ कागज , या कामकाजी पेपर पीडीएफ ] और इसके कुछ संदर्भ (उदाहरण के लिए हीथर एट अल पेपर) की रूपरेखा "एआईएलएसई का अनुकूलन करने के लिए कर्नेल स्मूथिंग विचारों पर आधारित" बिन चौड़ाई आकलन में प्लग; मोटे तौर पर इस तरह का दृष्टिकोण इस स्थिति के अनुकूल होना चाहिए, हालाँकि मुझे यह करते हुए याद नहीं है।