ऋणात्मक द्विपद वितरण के अंदर मापदंडों को समझना


37

मैं अपने डेटा को विभिन्न मॉडलों में फिट करने की कोशिश कर रहा था और यह पता लगा लिया कि fitdistrलाइब्रेरी MASSके फंक्शन से Rमुझे Negative Binomialसबसे अच्छा फील होता है। अब विकी पेज से, परिभाषा इस प्रकार दी गई है:

नेगबिन (आर, पी) वितरण के k + r बर्नौली (पी) परीक्षणों में कश्मीर विफलताओं और आर सफलताओं की संभावना का वर्णन करता है, अंतिम परीक्षण पर सफलता के साथ।

Rमॉडल फिटिंग करने के लिए उपयोग करने से मुझे दो पैरामीटर मिलते हैं meanऔर dispersion parameter। मुझे समझ नहीं आ रहा है कि इनकी व्याख्या कैसे करूँ क्योंकि मैं विकी पृष्ठ पर इन मापदंडों को नहीं देख सकता। सभी मैं देख सकता हूँ निम्नलिखित सूत्र है:

नकारात्मक द्विपद वितरण सूत्र

जहां kटिप्पणियों और की संख्या है r=0...n। अब मैं इन मापदंडों से कैसे संबंधित करूं R? मदद फ़ाइल बहुत जानकारी प्रदान नहीं करती है।

इसके अलावा, मेरे प्रयोग के बारे में कुछ शब्द कहने के लिए: एक सामाजिक प्रयोग में जो मैं आयोजित कर रहा था, मैं 10 दिनों की अवधि में प्रत्येक उपयोगकर्ता से संपर्क करने वाले लोगों की संख्या गिनने की कोशिश कर रहा था। प्रयोग के लिए जनसंख्या का आकार 100 था।

अब, यदि मॉडल ऋणात्मक द्विपद फिट बैठता है, तो मैं आँख बंद करके कह सकता हूं कि यह उस वितरण का अनुसरण करता है लेकिन मैं वास्तव में इसके पीछे के सहज अर्थ को समझना चाहता हूं। यह कहने का क्या मतलब है कि मेरे परीक्षण विषयों द्वारा संपर्क किए गए लोगों की संख्या एक नकारात्मक द्विपद वितरण के बाद है? किसी कृपया मदद कर सकते हैं यह स्पष्ट?

जवाबों:


42

आपको एनबी पर विकिपीडिया लेख को और नीचे देखना चाहिए , जहां यह "गामा-पॉइसन मिश्रण" कहता है। हालांकि आप जिस परिभाषा का हवाला देते हैं (जिसे मैं "कॉइन-फ्लिपिंग" की परिभाषा कहता हूं क्योंकि मैं आमतौर पर इसे कक्षाओं के लिए परिभाषित करता हूं "मान लीजिए कि आप एक सिक्का फ्लिप करना चाहते हैं जब तक कि आपkसिर ") व्युत्पन्न करने के लिए आसान है और एक परिचयात्मक संभावना या गणितीय सांख्यिकी संदर्भ में अधिक समझ में आता है, गामा-पॉइसन मिश्रण (मेरे अनुभव में) लागू संदर्भों में वितरण के बारे में सोचने का एक अधिक आम तौर पर उपयोगी तरीका है। (विशेष रूप से) यह परिभाषा फैलाव / आकार पैरामीटर के गैर-पूर्णांक मानों की अनुमति देती है।) इस संदर्भ में, आपका फैलाव पैरामीटर एक काल्पनिक गामा वितरण के वितरण का वर्णन करता है जो आपके डेटा को रेखांकित करता है और उनके आंतरिक स्तर पर संपर्क में व्यक्तियों के बीच अप्रतिबंधित भिन्नता का वर्णन करता है। यह गामा के आकार पैरामीटर है, और यह इस के बारे में सोच को पता है में सहायक हो सकता है कि आकार के साथ एक गामा वितरण की भिन्नता का गुणांक पैरामीटर है , के रूप मेंθ1/θθ बड़ा हो जाता है अव्यक्त परिवर्तनशीलता गायब हो जाती है और वितरण पोइसन के पास पहुंच जाता है।


7
हम्म। मुझे आश्चर्य है कि नीचे क्यों?
बेन बोल्कर

उस विकी पेज में अब वैकल्पिक योगों ( en.wikipedia.org/wiki/… ) के अनुभाग में NB (माध्य, फैलाव) सूत्रीकरण का भी वर्णन किया गया है ।
mt1022

10

जैसा कि मैंने आपको अपनी पिछली पोस्ट में बताया था, मैं डेटा को गिनने के लिए डिस्ट्रीब्यूशन फिट करने के लिए अपने सिर के आसपास काम कर रहा हूं। यहाँ मैंने जो सीखा है, उनमें से है:

जब विचरण माध्य से अधिक होता है, तो अतिविश्लेषण स्पष्ट होता है और इस प्रकार नकारात्मक द्विपद वितरण उचित होता है। यदि विचरण और माध्य समान हैं, तो पॉइसन वितरण का सुझाव दिया जाता है, और जब विचरण माध्य से कम होता है, तो यह द्विपद वितरण की सिफारिश की जाती है।

जिस डेटा पर आप काम कर रहे हैं, उसके साथ आप निशुल्क रूप से उपलब्ध पुस्तक के आर। सेक्शन 4.5.1.3 (पृष्ठ 165) में "बायोलॉजिकल" पैरामीटर के "इकोलॉजिकल" पैरामीटर का उपयोग कर रहे हैं, विशेष रूप से इस संदर्भ में बोलता है आर का, कोई कम नहीं!) और, मुझे आशा है, आपके कुछ प्रश्नों को संबोधित कर सकता है:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

यदि आप यह निष्कर्ष निकालने के लिए आते हैं कि आपका डेटा शून्य-ट्रेंकेटेड है (अर्थात, 0 अवलोकनों की संभावना 0 है), तो आप आरडीएएम पैकेज में एनबीडी के शून्य- ट्रेंकेटेड स्वाद की जांच करना चाह सकते हैं ।

यहाँ इसके आवेदन का एक उदाहरण है:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

मुझे आशा है कि यह मददगार है।


पुस्तक में पृष्ठ १६५।
स्मालचेयर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.