क्या हिस्टोग्राम में अंतराल की संख्या पर एक ऊपरी सीमा है?


10

मैंने किताबों के कई लेख और अंश पढ़े हैं, जो बताते हैं कि डेटा सेट के हिस्टोग्राम के लिए अच्छी संख्या में अंतराल (डिब्बे) कैसे चुनें , लेकिन मैं सोच रहा हूं कि अंकों की संख्या के आधार पर अंतराल की एक कठिन अधिकतम संख्या है या नहीं एक डेटा सेट, या कुछ अन्य मानदंड।

पृष्ठभूमि: कारण मैं पूछ रहा हूँ कि मैं एक शोध पत्र से एक प्रक्रिया के आधार पर सॉफ्टवेयर लिखने की कोशिश कर रहा हूँ। प्रक्रिया में एक कदम डेटा सेट से कई हिस्टोग्राम बनाना है, फिर एक विशेषता फ़ंक्शन (कागज के लेखकों द्वारा परिभाषित) के आधार पर इष्टतम रिज़ॉल्यूशन चुनें। मेरी समस्या यह है कि लेखकों ने परीक्षण करने के लिए अंतराल की संख्या के लिए एक ऊपरी बाध्य का उल्लेख नहीं किया है। (मेरे पास विश्लेषण करने के लिए सैकड़ों डेटासेट हैं, और प्रत्येक में डिब्बे की एक अलग "इष्टतम" संख्या हो सकती है। इसके अलावा, यह महत्वपूर्ण है कि डिब्बे की इष्टतम संख्या का चयन किया जाए, इसलिए मैन्युअल रूप से परिणामों को देखना और एक अच्छा चुनना नहीं होगा। काम।)

क्या डेटा सेट में अंकों की संख्या एक अच्छा दिशानिर्देश होने के लिए, बस अंतराल की अधिकतम संख्या निर्धारित करना होगा, या क्या कुछ अन्य मानदंड हैं जो आमतौर पर आंकड़ों में उपयोग किए जाते हैं?


क्या आपका मतलब समान आकार के डिब्बे (यानी डिब्बे, जिनमें एक ही अंतराल है) है?
एडम रिक्ज़ोव्स्की

मुझे विश्वास है कि उत्तर उस एल्गोरिथ्म पर निर्भर करेगा जिसे आप लागू करने की कोशिश कर रहे हैं। मुझे लगता है कि यदि आप उस शोध पत्र का लिंक उपलब्ध नहीं कराते हैं तो प्रश्न अधूरा है।
एडम रिक्ज़ोस्की 8

अंकों की संख्या निश्चित रूप से एक सैद्धांतिक अधिकतम है, लेकिन यह लगभग हिस्टोग्राम नहीं होगा, यह एक अजीब तरह से स्वरूपित स्ट्रिप प्लॉट या गलीचा प्लॉट होगा।
पीटर Flom

1
वास्तव में, अंकों की संख्या वास्तव में अधिकतम नहीं है, क्षमा करें, मेरे पास पर्याप्त कॉफी नहीं थी! कुछ डिब्बे 0 होंगे। उदाहरण के लिए मान लीजिए (एक हास्यास्पद सरल उदाहरण के लिए) कि आपके 3 अंक हैं: 1.02 2.21 और 5.92। यदि आप वास्तव में अधिकतम संख्या में डिब्बे चाहते हैं, तो यह स्पष्ट रूप से 3 से अधिक है। संभवतः 6: 1-2, 2-3, 3-4, 4-5 और 5-6 (दोहरे द्वैत से बचने के लिए उचित खुले और बंद अंतराल के साथ)
पीटर Flom

1
@ वाउचर: मान किसी वस्तु की रूपरेखा से उसके केन्द्रक की दूरी माप का एक सेट है, जिसे सामान्य कर दिया जाता है [0, 1]। कागज इन दूरियों के द्विभाजन का उपयोग करता है डिब्बे में, परिमाणीकरण त्रुटि के योग को न्यूनतम करके अधिकतम को खोजता है (बिनिंग से) साथ ही साथ हिस्टोग्राम के पीडीएफ। मेरी समझ में सबसे अच्छा करने के लिए। 2जेजे
वेन

जवाबों:


6

वास्तव में कोई कठिन ऊपरी सीमा नहीं है, लेकिन दूसरी ओर, ज्यादातर स्थितियों में, एक बार जब आप अपने स्वयं के बिन में सभी अनूठी टिप्पणियों को प्राप्त करते हैं, तो बारीक डिब्बे केवल अधिक स्थिति बताए बिना अपने पदों को अधिक सटीक रूप से इंगित करने के लिए कार्य करते हैं। उदाहरण के लिए इनकी तुलना करें:

30 डिब्बे के साथ हिस्टोग्राम
100 डिब्बे के साथ हिस्टोग्राम

कुछ विशेष परिस्थितियों को छोड़कर, दूसरे भूखंड में कोई व्यावहारिक लाभ नहीं होने की संभावना है, और पहले में इतना नहीं। यदि आपका डेटा निरंतर है, तो यह संभवत: डिब्बे की एक उपयोगी संख्या से परे है।

इसलिए ज्यादातर स्थितियों में, यह कम से कम एक व्यावहारिक ऊपरी सीमा जैसा लगता है - हर एक अद्वितीय अवलोकन अपने स्वयं के बिन में।

(यदि एक अद्वितीय अवलोकन के अनुसार एक से अधिक डिब्बे में लाभ होता है , तो आपको संभवतः उस तरह की जानकारी प्राप्त करने के लिए एक रग्लॉट या घबराना पट्टीदार होना चाहिए) - कुछ ऐसा है जो इन हिस्टोग्राम के मार्जिन में किया जाता है:

हिटरोग्राम रगप्लॉट जिटर के साथ
स्ट्रिपचर के साथ हिस्टोग्राम

(उन हिस्टोग्राम को इस उत्तर से , अंत के पास ले जाया जाता है )


5

बड़ी संख्या में डिब्बे होने का एक अच्छा मामला है, उदाहरण के लिए हर संभव मूल्य के लिए डिब्बे, जब भी यह संदेह होता है कि हिस्टोग्राम का विस्तार शोर नहीं होगा, बल्कि दिलचस्प या महत्वपूर्ण ठीक संरचना होगी।

यह इस सवाल के लिए सटीक प्रेरणा से सीधे जुड़ा नहीं है, कुछ इष्टतम संख्या के डिब्बे के लिए एक स्वचालित नियम चाहता है, लेकिन यह समग्र रूप से प्रश्न के लिए प्रासंगिक है।

आइए हम तुरंत उदाहरणों के लिए छलांग लगाएं। जनसांख्यिकी में रिपोर्ट किए गए युगों का दौर आम है, विशेष रूप से लेकिन सीमित साक्षरता वाले देशों में ही नहीं। क्या हो सकता है कि बहुत से लोग अपनी सही जन्मतिथि को नहीं जानते हैं, या सामाजिक या व्यक्तिगत कारण हैं या तो समझने या अपनी उम्र को बढ़ाने के लिए। सैन्य इतिहास ऐसे लोगों के उदाहरणों से भरा है जो अपनी उम्र के बारे में झूठ बोलते हैं या तो बचने या सशस्त्र बलों में सेवा प्राप्त करने के लिए। वास्तव में बहुत से पाठक किसी ऐसे व्यक्ति को जानते होंगे, जो अपनी उम्र के बारे में बहुत अधिक सत्य है या नहीं, भले ही वह जनगणना के बारे में झूठ क्यों न बोले। शुद्ध परिणाम भिन्न होता है, लेकिन जैसा कि पहले ही निहित है आमतौर पर गोलाई है, जैसे 0 और 5 में समाप्त होने वाली आयु एक वर्ष कम या अधिक उम्र की तुलना में बहुत अधिक आम है।

अंकों की वरीयता की एक समान घटना काफी भिन्न समस्याओं के लिए भी आम है। कुछ पुराने ढंग के माप के तरीकों के साथ, रिपोर्ट किए गए माप के अंतिम अंक को स्नातक किए गए अंकों के बीच प्रक्षेप द्वारा आंख से देखा जाना चाहिए। पारा थर्मामीटर के साथ मौसम विज्ञान में यह लंबा मानक था। यह पाया गया है कि सामूहिक रूप से कुछ रिपोर्ट किए गए अंक दूसरों की तुलना में अधिक सामान्य हैं और व्यक्तिगत रूप से हममें से कई लोगों के हस्ताक्षर हैं, दूसरों की बजाय कुछ अंकों के पक्ष का एक व्यक्तिगत पैटर्न। यहाँ सामान्य संदर्भ वितरण समान है, अर्थात, जब तक कि माप की "इकाई" की तुलना में संभव माप की सीमा कई गुना अधिक होती है, अंतिम अंक समान आवृत्ति के साथ होने की उम्मीद है। इसलिए, यदि शेड शेड तापमान 50 ( ) की एक सीमा को कवर कर सकता हैC दस अंतिम अंक, डिग्री .0, .1, , .8, .9 के अंश प्रत्येक को प्रायिकता 0.1 के साथ होना चाहिए। अधिक सीमित सीमा तक भी इस सन्निकटन की गुणवत्ता अच्छी होनी चाहिए।

संयोग से, रिपोर्ट किए गए डेटा के अंतिम अंकों को देखना, गढ़े हुए डेटा की जाँच करने का एक सरल और अच्छा तरीका है, जो कि समझना बहुत आसान है और बेनफोर्ड के कानून के लिए अपील के साथ पहले अंकों की फैशनेबल जांच से कम समस्याग्रस्त है।

हिस्टोग्राम के लिए अब तक स्पष्ट होना चाहिए। एक स्पाइक जैसी प्रस्तुति दिखाने के लिए सेवा कर सकती है, या आम तौर पर इस तरह की ठीक संरचना की जांच करने के लिए। स्वाभाविक रूप से, यदि ब्याज की कोई भी चीज नहीं है, तो ग्राफ बहुत काम का हो सकता है।

एक उदाहरण 1960 के लिए घाना की जनगणना से उम्र बढ़ने को दर्शाता है। http://www.stata.com/manuals13/rspikeplill.pdf देखें

में अंतिम अंकों के वितरण की एक अच्छी समीक्षा थी

Preece, DA 1981. डेटा में अंतिम अंकों का वितरण। सांख्यिकीविद 30: 31-60।

शब्दावली पर एक नोट: कुछ लोग एक चर के अनूठे मूल्यों के बारे में लिखते हैं जब वे बेहतर रूप से एक चर के अलग-अलग मूल्यों के बारे में बात कर रहे होंगे। शब्दकोश और उपयोग गाइड अभी भी सलाह देते हैं कि "अद्वितीय" का अर्थ केवल एक बार होता है। इस प्रकार जनसंख्या की अलग-अलग रिपोर्ट वर्ष, 0, 1, 2, आदि में हो सकती है, लेकिन उन लोगों के महान बहुमत एक व्यक्ति के लिए अद्वितीय नहीं होंगे।


4

हिस्टोग्राम में डिब्बे की संख्या के लिए कोई कठिन अधिकतम नहीं है। यदि प्लॉट किए जा रहे चर निरंतर है, तो अनंत संख्या में श्रेणियों के लिए एक तर्क दिया जा सकता है (और हिस्टोग्राम मूल रूप से एक गलीचा साजिश बन जाता है)।

डेटा सेट में अंकों की संख्या एक उपयुक्त ऊपरी बाध्य नहीं है। दो मानों वाले डेटा सेट पर विचार करें: 1 और 1000। दो डिब्बे होना उचित नहीं होगा।

ऊपरी-सीमा निर्धारित करने के दो व्यावहारिक तरीके हैं: ए) डेटा के अंतर्निहित गोलाई का निर्धारण करना। उदाहरण के लिए, यदि डेटा पूर्णांक है, तो यह समझ में आता है कि पूर्णांक-चौड़ाई वाले डिब्बे हैं। बी) अधिकतम दृश्यमान रिज़ॉल्यूशन (उदाहरण के लिए, क्षैतिज आयाम में पिक्सेल की संख्या जो प्लॉटिंग के लिए इस्तेमाल की जा सकती है) को देखते हुए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.