एक समान-बिन हिस्टोग्राम एक समान-बिन बिन से बेहतर कब है?
इसके लिए किसी प्रकार की पहचान की आवश्यकता है जिसे हम अनुकूलित करना चाहते हैं; बहुत से लोग औसत एकीकृत माध्य वर्ग त्रुटि का अनुकूलन करने की कोशिश करते हैं, लेकिन कई मामलों में मुझे लगता है कि कुछ हद तक हिस्टोग्राम करने की बात याद आती है; यह अक्सर (मेरी आँख के लिए) 'ओवरस्मैट्स'; हिस्टोग्राम जैसे एक खोजपूर्ण उपकरण के लिए मैं एक अच्छा सौदा अधिक खुरदरापन को सहन कर सकता हूं, क्योंकि खुरदरापन मुझे खुद को उस हद तक समझ देता है जिसे मुझे आंख से "चिकनी" करना चाहिए; मैं कम से कम इस तरह के नियमों से डिब्बे की सामान्य संख्या को दोगुना कर देता हूं, कभी-कभी एक अच्छा सौदा अधिक होता है। मैं इस पर एंड्रयू जेलमैन से सहमत हूं ; वास्तव में अगर मेरी रुचि वास्तव में एक अच्छा AIMSE हो रही थी, तो मुझे शायद वैसे भी हिस्टोग्राम पर विचार नहीं करना चाहिए।
इसलिए हमें एक कसौटी चाहिए।
गैर-समान क्षेत्र हिस्टोग्राम के कुछ विकल्पों पर चर्चा करके मुझे शुरू करें:
कुछ दृष्टिकोण हैं जो कम घनत्व वाले क्षेत्रों में अधिक चौरसाई (कम, व्यापक डिब्बे) करते हैं और संकीर्ण डिब्बे हैं जहां घनत्व अधिक है - जैसे "बराबर-क्षेत्र" या "समान गणना" हिस्टोग्राम। आपका संपादित प्रश्न समान गणना संभावना पर विचार करता है।
histogram
आर के दशक में समारोह lattice
पैकेज लगभग बराबर-क्षेत्र सलाखों उत्पादन कर सकते हैं:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
यदि आप चौथी जड़ें लेते हैं, तो बाईं ओर के दाईं ओर बस डुबकी लगाना और भी स्पष्ट है; जब तक आप 15 से 20 बार कई डिब्बे का उपयोग नहीं करते तब तक समान-चौड़ाई वाले डिब्बे इसे नहीं देख सकते, और फिर सही पूंछ भयानक लगती है।
आर-कोड के साथ यहां एक बराबर-गिनती हिस्टोग्राम है , जो ब्रेक को खोजने के लिए नमूना-मात्रा का उपयोग करता है।
उदाहरण के लिए, ऊपर के समान डेटा पर, यहाँ (उम्मीद है) 8 टिप्पणियों के साथ 6 डिब्बे हैं:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
यह सीवी सवाल करने के लिए अंक डेंबे और Mallows द्वारा एक कागज जो का एक संस्करण है यहां से डाउनलोड करने योग्य जो बराबर-चौड़ाई डिब्बे और समान-क्षेत्र डिब्बे के बीच एक समझौता वर्णन करता है।
यह उन प्रश्नों को भी संबोधित करता है जो आपके पास कुछ हद तक थे।
आप शायद इस समस्या पर विचार कर सकते हैं क्योंकि एक टुकड़े-टुकड़े में स्थिर पॉइसन प्रक्रिया में ब्रेक की पहचान करना। इस तरह काम करना होगा । (कहते हैं) पॉइसन काउंट्स पर (कहते हैं) क्लस्टरिंग / वर्गीकरण प्रकार के एल्गोरिदम को देखने की संबंधित संभावना भी है, जिनमें से कुछ एल्गोरिदम में कई डिब्बे मिलेंगे। क्लस्टरिंग 2 डी हिस्टोग्राम (पर इस्तेमाल किया गया है छवियों क्षेत्रों है कि अपेक्षाकृत समरूप हैं पहचान करने के लिए, प्रभाव में)।
-
यदि हमारे पास एक समान-गिनती हिस्टोग्राम था, और अनुकूलन करने के लिए कुछ मानदंड तो हम प्रति बिन मायने रखता है और किसी तरह से मानदंड का मूल्यांकन कर सकते हैं। यहां वैंड पेपर का उल्लेख किया गया है [ कागज , या कामकाजी पेपर पीडीएफ ] और इसके कुछ संदर्भ (उदाहरण के लिए हीथर एट अल पेपर) की रूपरेखा "एआईएलएसई का अनुकूलन करने के लिए कर्नेल स्मूथिंग विचारों पर आधारित" बिन चौड़ाई आकलन में प्लग; मोटे तौर पर इस तरह का दृष्टिकोण इस स्थिति के अनुकूल होना चाहिए, हालाँकि मुझे यह करते हुए याद नहीं है।