हिस्टोग्राम बिनिंग के लिए डून का सूत्र

मैं हिस्टोग्राम के लिए उपयोग करने के लिए डिब्बे की सबसे अच्छी संख्या का अनुमान लगाने के लिए विभिन्न एल्गोरिदम को लागू कर रहा हूं। मेरे द्वारा कार्यान्वित किए जाने वाले अधिकांश भाग "हिस्टोग्राम" पृष्ठ पर " डिब्बे की संख्या और चौड़ाई " * में वर्णित हैं ।

मैं Doane के सूत्र के साथ एक समस्या पर अड़ा हुआ हूं:

1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.))

nडेटा का आकार कहां है

समस्या तब है जब कर्टोसिस नकारात्मक है और n >> 1क्योंकि तर्क logनकारात्मक हो जाता है।

* (यह पोस्ट किए जाने के बाद से पेज बदल गया है, पेज को इंगित करने के लिए लिंक संपादित किया गया है क्योंकि यह पोस्टिंग के समय था)

histogram binning

— रग्गरो तुर्रा
स्रोत

क्या आप जानते हैं कि अगर वह सूत्र कुर्तोसिस या अतिरिक्त कुर्तोसिस का उपयोग करता है (यानी सामान्य डिस्ट में 4 या 0 है)?

— पीटर Flom

@PeterFlom: मूल पत्र ( amstat.tandfonline.com/doi/pdf/10.1080/00031305.1976.10479172 ) में कर्टोसिस को Skewness के रूप में परिभाषित किया गया है, लेकिन मैं विशेषज्ञ नहीं हूं। मूल पेपर विकिपीडिया के फार्मूले से भी काफी अलग है

— रग्गेरो तुर्रा

इर्र, क्या? कर्टोसिस को तिरछापन के रूप में परिभाषित किया गया है? इससे कोई मतलब नहीं है; वे बहुत अलग हैं। मैं कागज तक नहीं पहुँच सकता, लेकिन ऐसा लगता है कि कुछ गड़बड़ है।

— पीटर Flom

@PeterFlom नॉर्मल डिस्ट्रीब्यूशन में 3 नहीं 4. का

— कुर्तोसिस

@PeterFlom मैं तिरछा बनाम कुर्तोसिस मुद्दे की जांच कर रहा हूं - मेरे जवाब में "2 संपादित करें" देखें।

— Glen_b -Reinstate मोनिका

जब मैं विकिपीडिया पृष्ठ की जांच करता हूं तो इस उत्तर में महत्वपूर्ण परिवर्तन हुए हैं। मैंने बड़े पैमाने पर उत्तरों को छोड़ दिया है क्योंकि वे उनके साथ जोड़े गए थे, इसलिए वर्तमान में यह समझ का एक रूप है; अंतिम भाग वे हैं जहाँ सबसे अच्छी जानकारी है।

संक्षिप्त उत्तर: विकिपीडिया पृष्ठ - और ओपी का सूत्र, जो लगता है कि एक ही है - बस गलत हैं, कम से कम विभिन्न कारणों से। मैं अपनी मूल चर्चा (जो कि ओपी और विकिपीडिया के पास यह सही था) को छोड़ दूंगा क्योंकि वह कुछ मुद्दों की व्याख्या करता है। बेहतर चर्चा बाद में। छोटी सलाह: बस दोने को भूल जाओ। आप तो चाहिए इसका इस्तेमाल, का उपयोग विकिपीडिया क्या कहते हैं अब (मैं इसे ठीक किया गया)।

मेरा मानना है कि सूत्र को अतिरिक्त कुर्तोसिस का उल्लेख करना चाहिए; इसका कारण यह है कि यह सामान्य डेटा के लिए गैर-सामान्य डेटा के लिए खाता बनाने के लिए एक सूत्र को संशोधित करता है ताकि आप अपेक्षा करेंगे कि यह सामान्य पर एक अनमॉडिफाइड पुन: पेश कर सके। यह है कि अगर आप अतिरिक्त कुर्तोसिस का उपयोग करते हैं।

यही कारण है कि करता है, लेकिन, समस्या यह है कि लॉग में अवधि बड़े नमूनों के साथ नकारात्मक जा सकते हैं उठाना (वास्तव में, यह संभव हो सकता है होना करने के लिए है काफी छोटा पर )। मैं इसे नकारात्मक अतिरिक्त कर्टोसिस के साथ उपयोग नहीं करने का सुझाव देता हूं (मैं इसे कभी भी असमानता से परे उपयोग नहीं करूंगा; एक बार जब चीजें मल्टीमॉडल हो जाती हैं, तो आप प्रत्येक मोड पर अतिरिक्त कर्टोसिस विचार लागू करना चाहते हैं , उन पर चिकनी नहीं!), हालांकि हल्के मामलों के साथ। अतिरिक्त कुर्तोसिस सिर्फ 0 से कम) और मामूली नमूना आकार यह एक बड़ा मुद्दा नहीं होगा। $\leq 0$ $n$

मैं यह भी सुझाव देता हूं कि किसी भी मामले में यह बड़े नमूने आकारों में बहुत कम डिब्बे देने जा रहा है, तब भी जब यह इरादा के अनुसार काम करता है।

आप इस पेपर को पा सकते हैं (नियमित सीवीआर रॉब हंडमैन द्वारा ):

http://www.robjhyndman.com/papers/sturges.pdf

कुछ रुचि के। अगर स्टर्गेस का तर्क गलत है, तो डोएन के फॉर्मूले में वही समस्या है ... जैसा कि रोब में स्पष्ट रूप से लिखा गया है।

उस पत्र में (और इस उत्तर में ) वह फ्रीडमैन-डायकोनिस शासन को एक संकेत देता है। कागज में वह मैट वैंड द्वारा बताए गए दृष्टिकोण की ओर भी इशारा करता है (वह काम करने वाले कागज को संदर्भित करता है जो ऑनलाइन नहीं लगता है, लेकिन यदि आपके पास पहुंच है तो बाद का कागज उपलब्ध है):

http://www.jstor.org/discover/10.2307/2684697

[संपादित करें: वास्तव में वर्किंग पेपर का लिंक साइट पेज पर है ]

इस दृष्टिकोण में अंतर्निहित घनत्व का आकलन करने के लिए लगभग अधिकतम इष्टतम (माध्य एकीकृत चौकोर त्रुटि के लिए, MISE) बिन चौड़ाई प्राप्त करने के लिए विशेष रूप से कार्यात्मक का अनुमान लगाना शामिल है। हालांकि ये अच्छी तरह से काम करते हैं और सामान्य रूप से स्टर्ज़ या डाने की तुलना में कई अधिक डिब्बे देते हैं, कभी-कभी मैं अभी भी अभी भी अधिक डिब्बे का उपयोग करना पसंद करता हूं, हालांकि यह आमतौर पर एक बहुत अच्छा पहला प्रयास है।

सच कहूँ तो मुझे नहीं पता कि वांड का दृष्टिकोण (या बहुत कम से कम फ्रेडमैन डियाकोनिस नियम) हर जगह डिफ़ॉल्ट रूप से बहुत अधिक नहीं है।

R, कम से कम डिब्बे की फ्रीडमैन-डायकोनिस गणना की पेशकश करता है:

 nclass.FD(rnorm(100))
[1] 11
 nclass.FD(runif(100))
[1] 6
 nclass.FD(rt(100,1))
[1] 71

देख ?nclass.FD

व्यक्तिगत रूप से, मेरे लिए पहले दो मामलों में बहुत कम डिब्बे हैं; मैं उन दोनों को इस तथ्य के बावजूद दोगुना कर दूंगा कि यह इष्टतम से थोड़ा अधिक शोर हो सकता है। जैसा कि n बड़ा हो जाता है, मुझे लगता है कि यह ज्यादातर मामलों में बहुत अच्छा करता है।

2 संपादित करें:

मैंने कटुता बनाम कर्टोसिस मुद्दे की जांच करने का निर्णय लिया कि @PeterFlom ने सही ढंग से पहेली व्यक्त की।

मैं सिर्फ जुड़े हुए डोनो पेपर वीनू पर एक नज़र रखता था (मैं इसे पहले पढ़ता था .... लेकिन यह लगभग 30 साल पहले था) - यह केवल कर्टोसिस के लिए कोई संदर्भ नहीं बनाता है, केवल तिरछा करने के लिए।

Doane का वास्तविक सूत्र है: $K_e = log_2(1+\frac{g_1}{\sigma_{g_1}})$

जहां जोड़े गए की संख्या है, तीसरा क्षण तिरछा है। [वास्तव में, दून, समय के काफी सामान्य उपयोग के बाद, हस्ताक्षर के लिए का उपयोग करता है (!) ३ पल का तिरछापन (विशेष रूप से अंकन के इस दुरुपयोग का मूल काफी पुराना है और मैं इसे आगे बढ़ाने वाला नहीं हूं। इसे छोड़कर, यह कहना कि यह सौभाग्य से बहुत कम बार दिखाई दे रहा है)]] $K_e$ $g_1$ $\sqrt{b_1}$

अब सामान्य पर, (हालांकि यह अनुमान बहुत खराब है जब तक n 100 से अच्छी तरह से अतीत नहीं है; $\sigma_{g_1} = \sqrt{\frac{6(n-2)}{(n+1)(n+3)}} \approx \sqrt{\frac{6}{n}}$

हालाँकि, ऐसा लगता है कि जिस तरह से किसी ने इसे कर्टोसिस में ढालने की कोशिश की है (जिस समय मैं यह लिखता हूं यह विकिपीडिया कर्टोसिस के संदर्भ में है , उदाहरण के लिए, और मुझे नहीं लगता कि उन्होंने इसे बनाया है) - लेकिन इसका स्पष्ट कारण है यह विश्वास करने के लिए कि सूत्र केवल गलत है (ध्यान दें कि उपयोग की गई मानक त्रुटि यह है कि मैंने जो ऊपर दिया था तिरछी सी के लिए अंतिम सन्निकटन)। मुझे लगता है कि मैंने विकिपीडिया के अलावा कई स्थानों पर कुर्तोसिस का यह उपयोग देखा है, लेकिन डोन के कागज में नहीं होने के अलावा, यह स्कॉट के पेपर में मौजूद नहीं है, न ही हंडमैन पेपर मैं इंगित करता हूं, न ही वांड के कागज में। ऐसा लगता है कि यह कहीं से आया है, लेकिन (मुझे यकीन है कि यह विकिपीडिया के मूल नहीं है), क्योंकि Doane का सन्निकटन $\sigma_{g_1}$ । ऐसा लगता है कि इसे खत्म होने से पहले इसे कई बार खेला गया था; अगर किसी ने इसे ट्रैक किया तो मुझे दिलचस्पी होगी।

यह मुझे ऐसा लगता है कि डोएने के तर्क को खुशी से कर्टोसिस तक बढ़ाया जाना चाहिए , लेकिन सही मानक त्रुटि का उपयोग करना होगा।

हालाँकि, चूंकि ड्येन स्टार्स और स्टर्गेस के तर्क पर निर्भर करता है, इसलिए यह तर्क त्रुटिपूर्ण लगता है कि शायद पूरा उद्यम ही बर्बाद हो गया है। किसी भी स्थिति में मैंने विकिपीडिया पर त्रुटि को ध्यान में रखते हुए हिस्टोग्राम टॉक पेज को संपादित किया है।

---

संपादित करें 3: मैंने विकिपीडिया पृष्ठ को सही किया है (लेकिन मैंने तिरछेपन के पूर्ण मूल्य को लेने की स्वतंत्रता ली है, अन्यथा डोन के मूल सूत्र का उपयोग बाएं-तिरछे वितरण के लिए नहीं किया जा सकता है क्योंकि यह खड़ा था - स्पष्ट रूप से डिब्बे की संख्या के लिए तिरछापन सारहीन है)। कड़ाई से बोलते हुए मुझे सूत्र को उसके मूल (गलत) फॉर्म में प्रस्तुत करना चाहिए था, और फिर समझाया कि इसका कोई मतलब नहीं है, लेकिन मुझे लगता है कि यह कई कारणों से समस्याग्रस्त है - कम से कम यह नहीं कि लोगों को सिर्फ फॉर्मूला की नकल करने और प्रलोभन करने के लिए लुभाया जाएगा स्पष्टीकरण। मेरा मानना है कि यह वास्तव में डोने के मूल इरादे को कवर करता है। किसी भी मामले में यह बकवास पर एक बड़ा सुधार है जो मूल में था। (कृपया, जो कोई भी मूल पेपर एक्सेस कर सकता है, वह इसे देख सकता है और कैसे $\sqrt{b_1}$ परिभाषित किया गया है और यह सुनिश्चित करने के लिए विकिपीडिया पर मेरे बदलावों की जांच करें कि यह उचित है - कम से कम तीन चीजें गलत थीं - कर्टोसिस, मानक त्रुटि, और लॉग का गलत आधार, प्लस डोने की अपनी छोटी सी त्रुटि।)

— Glen_b -Reinstate मोनिका
स्रोत

आपका बहुत बहुत धन्यवाद। वैसे मैं "द अमेरिकन स्टेटिस्टिशियन" पर इस तरह की त्रुटि देखकर आश्चर्यचकित हूं। मैंने कभी नोटेशन नहीं देखा है ।

\sqrt{b_{1}}

$\sqrt{b_1}$

— रग्गरो तुर्रा

उस पैमाने की छोटी त्रुटियां (निरपेक्ष मूल्य की अनुपस्थिति) पत्रिकाओं में यह सब नहीं होता है - बाहर के आँकड़े मैंने कहीं अधिक स्पष्ट (और अधिक प्रबल) लोगों को देखा है। अंकन के रूप में, यह वास्तव में काफी सामान्य है; eg1 , eg2 , eg3 ... मैं दर्जनों को इंगित कर सकता है

— Glen_b -Reinstate मोनिका

दूसरे और चौथे क्षणों के संदर्भ में परिभाषित कर्टोसिस माप कभी नकारात्मक नहीं होता ( देखें ), फिर ए log(1+...)>0।

यह मात्रा kurtosis()R लाइब्रेरी से कमांड में कार्यान्वित की जाती है moments। इसके अलावा, कमांड का उपयोग करके hist()आप निम्नानुसार ब्रेक की संख्या निर्दिष्ट कर सकते हैं

library(moments)

n <- 250
data <- rnorm(n)

# Sturges formula log_2(n) + 1
hist(data,breaks = "Sturges")

# Doane's formula    
Doane <- 1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.))
hist(data,breaks = Doane)

कमांड में प्रयुक्त सूत्र kurtosis()बस है mean((data - mean(data))^4)/mean((data - mean(data))^2)^2।

अब, यदि आप जांच करना चाहते हैं कि `` सबसे अच्छा '' फॉर्मूला क्या है, तो आपको एक मानदंड की आवश्यकता होगी। इस बात पर विचार करें कि यह सांख्यिकीय साहित्य में चर्चा की गई है।

— माइल्स डेविस
स्रोत

मुझे पता नहीं है कि डून के सूत्र में कुर्तोसिस की परिभाषा क्या है

— रग्गरो तुर्रा

विकिपीडिया प्रविष्टि में कर्टोसिस की परिभाषा के लिए एक लिंक है जिसे आपने पोस्ट किया है। संयोग से, यह वही है जो मैंने पोस्ट किया था। इसे दूसरे नमूने के केंद्रीय पल के वर्ग से विभाजित चौथे नमूने के केंद्रीय क्षण के रूप में अनुमानित किया गया है। कृपया, कोड के लिए मेरा संपादन देखें।

— माइल डेविस

फिर से, मुझे नहीं पता कि तुम्हारा सही डोने का फॉर्मूला है, यदि आप उदाहरण के लिए कागज़ देखते हैं तो वह लॉग के बजाय लॉग 2 का उपयोग करता है

— रग्गरो तुर्रा

ठीक है, कि "Doane के सूत्र" तुम्हें तैनात है ¬¬ । वैसे भी, यह के log(n,2)बजाय का उपयोग करके तुच्छ रूप से ठीक किया जा सकता है log(n)। लेकिन, विकिपीडिया प्रविष्टि और अन्य स्रोतों से संकेत मिलता है कि यह होना चाहिए log।

— माइल डेविस