इसके हिस्टोग्राम द्वारा वितरण की पहचान करने में सहायता की आवश्यकता है


13

मेरे पास एक निश्चित सिग्नल के पंजीकृत आयाम मैक्सिमा की नमूना आबादी है। जनसंख्या लगभग 15 मिलियन नमूने हैं। मैंने जनसंख्या का एक हिस्टोग्राम का उत्पादन किया, लेकिन इस तरह के हिस्टोग्राम के साथ वितरण का अनुमान नहीं लगा सकता।

EDIT1: कच्चे नमूने के मूल्यों के साथ फाइल यहाँ है: कच्चा डेटा

क्या कोई निम्नलिखित हिस्टोग्राम के साथ वितरण का अनुमान लगाने में मदद कर सकता है: यहाँ छवि विवरण दर्ज करें


1
ऐसा नहीं है कि यह नाटकीय रूप से मायने रखता है, लेकिन हिस्टोग्राम का उपयोग करते समय यह आमतौर पर वाई-अक्ष पर पूर्ण आवृत्ति के बजाय सापेक्ष आवृत्ति होने में मदद करता है।
पोसडेफ

यह है, ऊर्ध्वाधर अक्ष पर 120000 के बजाय 120000/15000000 = 0.008 प्रदान करना है?
मबैटॉफ 10

@mbaitoff: स्केनेकटैडी के उत्तर के लिए आपकी टिप्पणी से संकेत मिलता है, कि आप वितरण का नाम पाने में कम रुचि रखते हैं, लेकिन यह पता लगाने में कि मूल्यों को इस तरह से कैसे वितरित किया जाता है। क्या ये सही है ?
स्टेफेन

1
m

2
इन आंकड़ों में वास्तविक दिलचस्पी दर्जन या उससे अधिक स्पाइक्स में होती है: डेटा की मात्रा काफी बड़ी है जो वास्तविक हैं , इस अर्थ में कि वे वास्तविक स्थानीय मोड के प्रमाण हैं। ऐसा प्रतीत होता है कि डेटा का एक समृद्ध सेट यहां मौजूद है जिसमें जानकारी की एक बड़ी मात्रा है जिसे अनदेखा किया जाएगा एक साधारण पैरामीट्रिक फॉर्मूला जो उनके वितरण को संक्षेप में प्रस्तुत करने के लिए उपयोग किया जाता है।
whuber

जवाबों:


23

फ़िटडिस्ट्राप्लस का उपयोग करें:

यहां फिटनैस्टरप्लस के लिए CRAN लिंक दिया गया है।

यहां फिटडिस्टप्लस के लिए पुराना विगनेट लिंक दिया गया है।

यदि विगनेट लिंक काम नहीं करता है, तो "डेटा से वितरण को निर्दिष्ट करने के लिए पुस्तकालय फिटडिस्टरप्लस का उपयोग" के लिए एक खोज करें।

पैकेज का उपयोग कैसे करें, यह समझाने का एक अच्छा काम विगनेट करता है। आप देख सकते हैं कि कम समय में विभिन्न वितरण कैसे फिट होते हैं। यह एक कलन / फ्रे डायग्राम भी बनाता है।

#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)

f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)      

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें


(+1): पहले उस पैकेज को नहीं जानते थे।
steffen

1
(+1 (यह नहीं पता था कि इसे कुलेन / फ्रे डायग्राम कहा जाता था। मुझे एक बिंदु पर खुद उसके साथ आना था।
Glen_b -Reinstate Monica

दूसरी छवि plotdistcomamnd के साथ है ? मैं कलन / फ्रे डायग्राम कैसे प्राप्त कर सकता हूं?
जुआनपाब्लो

1
@ जुआनपब्लो - कोशिश करो descdist()। मैंने कुछ कोड और पुराने विगनेट के लिंक को शामिल करने के लिए उपरोक्त पोस्ट को अपडेट किया। मुझे काम करने के लिए उपरोक्त विगनेट लिंक नहीं मिल सका। इसलिए, Google को निम्न करें: "डेटा से वितरण निर्दिष्ट करने के लिए लाइब्रेरी फ़िटडिस्टेरप्लस का उपयोग करें"। यह एक .pdf फ़ाइल है।
बिल_080

3
@juanpablo - बयान f1g <- fitdist(x1, "gamma")मूल डेटा के लिए एक गामा वितरण फिट बैठता है x1और इसे इसमें संग्रहीत करता है f1g। ऊपरी बाएं ग्राफ plot(f1g)मूल डेटा के लिए एक हिस्टोग्राम x1को सलाखों के रूप में दिखाता है , और f1gनिरंतर लाइन के रूप में गामा घनत्व प्लॉट करता है। घनत्व प्लॉट (निरंतर रेखा) हिस्टोग्राम के ऊपर खींचा जाता है कि यह संकेत देता है कि "फिट" कितनी अच्छी तरह से डेटा का प्रतिनिधित्व करता है।
बिल_080

6

जनसंख्या लगभग 15 मिलियन नमूने हैं।

तब आप एक सरल, बंद रूप के किसी विशेष वितरण को अस्वीकार करने में सक्षम होंगे।

यहां तक ​​कि ग्राफ़ के बाईं ओर स्थित छोटे टक्कर से हमें 'स्पष्ट रूप से ऐसा और ऐसा नहीं' कहने के लिए पर्याप्त होने की संभावना है।

दूसरी ओर, यह संभवतः बहुत अच्छी तरह से कई सामान्य वितरणों द्वारा अनुमानित है; स्पष्ट उम्मीदवार लोगनॉर्मल और गामा जैसी चीजें हैं, लेकिन दूसरों की एक मेजबान हैं। यह आप एक्स-वेरिएबल के लॉग को देखते हैं, आप शायद यह तय कर सकते हैं कि लॉगनॉर्मल दृष्टि पर ठीक है (लॉग लेने के बाद, हिस्टोग्राम को सममित दिखना चाहिए)।

यदि लॉग को तिरछा छोड़ दिया जाता है, तो विचार करें कि क्या गामा ठीक है, यदि यह सही तिरछा है, तो विचार करें कि क्या उलटा गामा या (और भी तिरछा) उलटा गॉसियन ठीक है। लेकिन यह अभ्यास एक वितरण खोजने के लिए अधिक है जो कि साथ रहने के लिए पर्याप्त है; इन सुझावों में से कोई भी वास्तव में सभी विशेषताएं नहीं हैं जो वहां मौजूद हैं।

यदि आपके पास किसी विकल्प का समर्थन करने के लिए कोई सिद्धांत है, तो इस सभी चर्चा को टॉस करें और इसका उपयोग करें।


वाह, इस मामले के बारे में किस तरह का अंतर्ज्ञान; अच्छा! :)
onurcanbektas

1

मुझे यकीन नहीं है कि आप इतने बड़े नमूने के आकार के साथ एक विशेष वितरण के लिए एक नमूना को वर्गीकृत क्यों करना चाहते हैं; पारसमनी, इसे दूसरे नमूने से तुलना करते हुए, पैरामीटर्स की भौतिक व्याख्या की तलाश में है?

अधिकांश सांख्यिकीय पैकेज (आर, एसएएस, मिनिटैब) एक ग्राफ पर डेटा को प्लॉट करने की अनुमति देते हैं जो कि एक विशेष वितरण से आने वाली एक सीधी रेखा की उपज देता है। मैंने ऐसे ग्राफ़ देखे हैं जो डेटा के सामान्य होने पर एक सीधी रेखा उत्पन्न करते हैं (लॉग नॉर्मल-एक लॉग ट्रांसफॉर्मेशन के बाद), वेइबुल, और ची-स्क्वेयर तुरंत मेरे पास आते हैं। यह तकनीक आपको आउटलेयर को देखने और डेटा पॉइंट आउटलेयर होने के कारणों को बताने के लिए आपको अवसर प्रदान करेगी। आर में, सामान्य संभावना प्लॉट को क्यूकर्नम कहा जाता है।


Qqplot का सुझाव देने वाला अच्छा विचार। हालाँकि, मुझे लगता है कि तकनीक का आपका स्पष्टीकरण थोड़ा अस्पष्ट / कठिन है। क्या आप कुछ अनुकरणीय आर-कोड प्रदान कर सकते हैं? इससे उत्तर का मूल्य अत्यधिक बढ़ जाएगा।
स्टेफेन

मुझे उम्मीद है कि किसी ने मेरी तरह तस्वीर का सामना किया और अंतर्निहित वितरण की जांच की, क्योंकि मूल्यों का भौतिक आधार है।
मबैटॉफ

मैं नमूना वितरण की भौतिक पृष्ठभूमि की जांच कर रहा हूं - यह कैसे वितरित किया जाता है और क्यों।
मबैतॉफ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.