नकारात्मक द्विपद वितरण का निरंतर सामान्यीकरण


24

नकारात्मक द्विपद (NB) वितरण को गैर-नकारात्मक पूर्णांक पर परिभाषित किया गया है और इसमें प्रायिकता मास फ़ंक्शनक्या यह एक ही सूत्र द्वारा परिभाषित गैर-नकारात्मक वास्तविक पर निरंतर वितरण पर विचार करने के लिए समझ में आता है ( k_ in \ mathbb N_0 द्वारा x \ द्वारा \ mathbb R _ {\ ge 0} )? द्विपद गुणांक को (k + 1) \ cdot \ ldots \ cdot (k + r-1) के उत्पाद के रूप में फिर से लिखा जा सकता है , जो किसी भी वास्तविक k के लिए अच्छी तरह से परिभाषित है । तो हमारे पास एक पीडीएफ f (x; r; p) \ propto \ prod_ {i = 1} ^ {r-1} (x + i) \ cdot p ^ {x} (1-p) ^ {r} । आम तौर पर, हम गोमय कार्यों के साथ द्विपद गुणांक को प्रतिस्थापित कर सकते हैं, आर के गैर-पूर्णांक मानों के लिए अनुमति देते हैं :

f(k;r,p)=(k+r1k)pk(1p)r.
kN0xR0(k+1)(k+r1)k
f(x;r,p)i=1r1(x+i)px(1p)r.
r
f(x;r,p)Γ(x+r)Γ(x+1)Γ(r)px(1p)r.

क्या यह एक मान्य वितरण है? इसका कोई नाम है? क्या इसका कोई उपयोग है? यह शायद कुछ यौगिक या मिश्रण है? क्या माध्य और विचरण (और पीडीएफ में आनुपातिकता स्थिर) के लिए बंद सूत्र हैं?

(मैं वर्तमान में एक कागज का अध्ययन कर रहा हूं जो एनबी मिश्रण मॉडल (निश्चित r=2 ) का उपयोग करता है और इसे ईएम के माध्यम से फिट बैठता है। हालांकि, डेटा कुछ सामान्य होने के बाद पूर्णांक होते हैं, अर्थात पूर्णांक नहीं। फिर भी, लेखक गणना करने के लिए मानक एनबी फार्मूला लागू करते हैं। संभावना है और बहुत ही उचित परिणाम मिलता है, इसलिए सब कुछ ठीक काम करने लगता है। मुझे यह बहुत हैरान करने वाला लगा। ध्यान दें कि यह सवाल एनबी जीएलएम के बारे में नहीं है ।)


1
क्या स्केल पैरामीटर के साथ गामा का मिश्रण नहीं होगा logp ? यदि आप बहुपद Πi=1r1(x+i) तो आपको बस i=2raixi1 , फिर p ^ x से गुणा करें pxके रूप में एक ही exp{xlogp} , जहां a_i बहुपद में x ^ {i-1}ai का गुणांक है और निश्चित रूप से \ log p <0 है, इसलिए ऐसा लगता है कि यह एक में बदल जाएगा गामा वितरण का भारित औसत, अर्थात, एक मिश्रण। xi1logp<0
जूलमैन

... उपरोक्त योग में i = 1 होना चाहिए i=1, वास्तव में।
जूलमैन

2
चूंकि केवल मापदंडों पर निर्भर करता है, यह एक स्थिर है जिसे आनुपातिकता में अवशोषित किया जा सकता है। इसके अलावा, भी निरंतर है अनदेखा किया जाए। लेखन for , आप लिए आनुपातिक घनत्व के बारे में पूछ रहे हैंयही कारण है कि पहचान करता है पैमाने कारक और के रूप में एक आकार पैरामीटर के रूप में। के लिए अभिन्न यह स्पष्ट रूप से गामा वितरण का एक मिश्रण है। यह पूर्णांक के लिए को प्रतिबंधित करने के लिए कोई मतलब नहीं है , यद्यपि।( एक्स + आर - 1(1p)r1/Γ(आर)पीकश्मीर=-कश्मीरρρ=-लॉग(पी)0(एक्स,आर,ρ)=Γ(x+आर)(x+r1x)=Γ(x+r)/(Γ(r)Γ(x+1))1/Γ(r)pk=ekρρ=log(p)0ρ r
f(x;r,ρ)=Γ(x+r)Γ(x+1)eρx.
ρr rr
whuber

1
@ शुभकर्ता अधिकार। मैं वास्तव में एक वितरण का उपयोग कर रहा हूं जो सकारात्मक मूल्यों पर निरंतर है और शून्य पर एक बिंदु द्रव्यमान है। मेरा मानना ​​है कि यह सही तरीका है। लेकिन मुझे एनबी के निरंतर सामान्यीकरण का उपयोग करने का सुझाव दिया गया है जिसमें शून्य पर शून्य शून्य संभावना होगी और इसलिए सटीक शून्य से निपटने की अनुमति दी जाएगी। इसलिए मेरा सवाल है।
अमीबा का कहना है कि

2
मुझे लगता है कि सुझाव में कुछ भ्रम की स्थिति हो सकती है: यह एक conflate प्रतीत होता संभावना एक संभावना के साथ (जो क्या एक बिंदु द्रव्यमान है या एक नायब वितरण शून्य पर है) घनत्व (जो क्या का मूल्य होगा)। एक गैर-घनत्व घनत्व आपको सटीक शून्य से निपटने की अनुमति नहीं देता है, क्योंकि यह अभी भी शून्य संभावना की भविष्यवाणी करता है कि का कोई भी मूल्य उत्पन्न होगा! 0f(0,θ)0
व्हिबर

जवाबों:


21

यह एक दिलचस्प सवाल है। मेरा शोध समूह हमारे सार्वजनिक रूप से उपलब्ध जैव सूचना विज्ञान सॉफ़्टवेयर में कुछ वर्षों के लिए आपके द्वारा संदर्भित वितरण का उपयोग कर रहा है। जहां तक ​​मुझे पता है, वितरण का कोई नाम नहीं है और उस पर कोई साहित्य नहीं है। जबकि चन्द्र एट अल (2012) द्वारा अक्षल द्वारा उद्धृत पेपर निकट से संबंधित है, उनके द्वारा माना गया वितरण लिए पूर्णांक मान तक सीमित है और वे पीडीएफ के लिए एक स्पष्ट अभिव्यक्ति नहीं देते हैं।r

आपको कुछ पृष्ठभूमि देने के लिए, एनबी वितरण जीनोमिक अनुसंधान में आरएनए-सीक और संबंधित प्रौद्योगिकियों से उत्पन्न होने वाले जीन अभिव्यक्ति डेटा के लिए बहुत अधिक उपयोग किया जाता है। गणना डेटा उठता है क्योंकि डीएनए या आरएनए अनुक्रम की संख्या एक जैविक नमूने से निकाली गई है जिसे प्रत्येक जीन को मैप किया जा सकता है। आमतौर पर प्रत्येक जैविक नमूने से दसियों लाख रीड होते हैं जो लगभग 25,000 जीनों में मैप किए जाते हैं। वैकल्पिक रूप से किसी के डीएनए नमूने हो सकते हैं जिसमें से जीनोमिक खिड़कियों तक मैप किए जाते हैं। हम और अन्य लोगों ने एक दृष्टिकोण को लोकप्रिय बना दिया है जिसके तहत NB जीन को प्रत्येक जीन के अनुक्रम रीड के लिए फिट किया जाता है, और आनुभविक फैलाव अनुमानकों को फैलाने के लिए अनुभवजन्य बेयस विधियों का उपयोग किया जाता है (फैलावϕ=1/r)। इस दृष्टिकोण को जीनोमिक साहित्य में दसियों हजार जर्नल लेखों में उद्धृत किया गया है, जिससे आप यह जान सकते हैं कि इसका कितना उपयोग किया जाता है।

मेरा समूह एज आरआर सोफ़वेयर पैकेज रखता है। कुछ साल पहले हमने पूरे पैकेज को संशोधित किया था ताकि यह एनबी पीएमएफ के निरंतर संस्करण का उपयोग करते हुए आंशिक अंशों के साथ काम करे। हमने बस एनबी पीएमएफ में सभी द्विपद गुणांक को गामा कार्यों के अनुपात में बदल दिया और इसे एक (मिश्रित) निरंतर पीडीएफ के रूप में उपयोग किया। इसके लिए अभिप्राय यह था कि अनुक्रम रीड काउंट्स कभी-कभी तकनीकी प्रभावों के लिए सही करने के लिए प्रतिलेख या जीनोम और / या (2) काउंट के सामान्यीकरण के लिए (1) अस्पष्ट मैपिंग की वजह से भिन्न हो सकते हैं। इसलिए, काउंट्स कभी-कभी देखे गए काउंट्स के बजाय अपेक्षित काउंट्स या अनुमानित काउंट्स होते हैं। और निश्चित रूप से पढ़ने की संख्या सकारात्मक संभावना के साथ बिल्कुल शून्य हो सकती है। हमारा दृष्टिकोण यह सुनिश्चित करता है कि हमारे सॉफ्टवेयर से निष्कर्ष परिणाम निरंतर मायने रखता है, असतत एनबी परिणामों के साथ मेल खाता है जब अनुमानित गणना पूर्णांक होती है।

जहां तक ​​मुझे पता है, पीडीएफ में सामान्यीकरण के लिए कोई बंद फॉर्म नहीं है, न ही माध्य या विचरण के लिए बंद फॉर्म हैं। जब कोई मानता है कि अभिन्न (फ्रांसेन-रॉबिन्सन स्थिरांक) के लिए कोई बंद रूप नहीं है, तो यह स्पष्ट है कि निरंतर के अभिन्न के लिए नहीं हो सकता एनबी पीडीएफ या तो। हालाँकि यह मुझे प्रतीत होता है कि NB के लिए पारंपरिक माध्य और विचरण सूत्र निरंतर NB के लिए अच्छे सन्निकटन होने चाहिए। इसके अलावा सामान्य करने वाला स्थिरांक धीरे-धीरे मापदंडों के साथ अलग-अलग होना चाहिए और इसलिए अधिकतम संभावना गणनाओं में नगण्य प्रभाव होने के कारण इसे अनदेखा किया जा सकता है।

01Γ(x)dz

एक संख्यात्मक एकीकरण द्वारा इन परिकल्पनाओं की पुष्टि की जा सकती है। एनबी वितरण जैव सूचना विज्ञान में पॉइज़न वितरण के गामा मिश्रण के रूप में उत्पन्न होता है (नीचे विकिपीडिया नकारात्मक द्विपद लेख या मैककार्थी एट अल नीचे देखें)। निरंतर एनबी वितरण केवल पीडीएफ साथ अपने निरंतर एनालॉग के साथ पॉसों वितरण की जगह लेने से उत्पन्न होता है के लिए जहां उदाहरण के लिए मान लीजिए 1. करने के लिए घनत्व जुड़ता है सुनिश्चित करने के लिए एक सामान्य स्थिर है कि । Poisson वितरण ने pmf को गैर-नकारात्मक पूर्णांकों पर उपरोक्त pdf के बराबर किया है और, एक्स0एक(λ)λ=10λ=10एक(10)=1/.९,९९,८७५-1/2

f(x;λ)=a(λ)eλλxΓ(x+1)
x0a(λ)λ=10λ=10, पोइसन माध्य और विचरण 10 के बराबर हैं। संख्यात्मक एकीकरण से पता चलता है कि और निरंतर वितरण का माध्य और विचरण 10 से 4 महत्वपूर्ण आंकड़ों के बराबर है। अतः स्थिरांक स्थिरांक वस्तुतः 1 है और असतत पोइसन वितरण के लिए माध्य और विचरण लगभग समान हैं। यदि हम निरंतरता सुधार को जोड़ते हैं, तो सन्निकटन और भी बेहतर हो जाता है, 0. के बजाय से को एकीकृत करना। निरंतरता सुधार के साथ, सब कुछ सही है (निरंतर को सामान्य करना 1 है और पल असतत पॉइसन से सहमत हैं) लगभग 6 आंकड़े।a(10)=1/0.9998751/2

हमारे किनारे के पैकेज में, हमें इस तथ्य के लिए कोई समायोजन करने की आवश्यकता नहीं है कि शून्य पर द्रव्यमान है, क्योंकि हम हमेशा सशर्त लॉग-लाइबिलिटी के साथ या लॉग-लाइबिलिटी अंतर के साथ काम करते हैं और कोई भी डेल्टा फ़ंक्शन गणना से बाहर रद्द कर देता है। यह मिश्रित संभावना वितरण के साथ glms के लिए विशिष्ट BTW है। वैकल्पिक रूप से, हम वितरण को शून्य पर कोई द्रव्यमान नहीं मान सकते हैं, लेकिन शून्य के बजाय -1/2 से शुरू होने का समर्थन करते हैं। या तो सैद्धांतिक दृष्टिकोण व्यवहार में समान गणना की ओर जाता है।

यद्यपि हम निरंतर NB वितरण का सक्रिय उपयोग करते हैं, हमने स्पष्ट रूप से इस पर कुछ भी प्रकाशित नहीं किया है। नीचे दिए गए लेख एनबी को जीनोमिक डेटा के दृष्टिकोण के बारे में बताते हैं लेकिन स्पष्ट रूप से निरंतर एनबी वितरण पर चर्चा नहीं करते हैं।

सारांश में, मुझे आश्चर्य नहीं है कि आप जिस लेख का अध्ययन कर रहे हैं, वह एनबी पीडीएफ के एक निरंतर संस्करण से उचित परिणाम प्राप्त कर रहा है, क्योंकि यह हमारा अनुभव भी है। प्रमुख आवश्यकता यह है कि हमें साधन और रूपांतरों को सही ढंग से मॉडलिंग करना चाहिए और यह ठीक है कि डेटा प्रदान किया जाएगा, चाहे पूर्णांक या नहीं, द्विघात माध्य-विचरण संबंध का वही रूप प्रदर्शित करता है जो एनबी वितरण करता है।

संदर्भ

रॉबिन्सन, एम।, और स्मिथ, जीके (2008)। SAGE डेटा के अनुप्रयोगों के साथ नकारात्मक द्विपद फैलाव का छोटा नमूना अनुमान । बायोस्टैटिस्टिक्स 9, 321-332।

रॉबिन्सन, एमडी, और स्मिथ, जीके (2007)। टैग बहुतायत में अंतर का आकलन करने के लिए सांख्यिकीय परीक्षण । जैव सूचना विज्ञान 23, 2881-2887।

मैकार्थी, डीजे, चेन, वाई, स्मिथ, जीके (2012)। जैविक भिन्नता के संबंध में मल्टीएक्टर आरएनए-सीक्यू प्रयोगों के विभेदक अभिव्यक्ति विश्लेषण । न्यूक्लिक एसिड रिसर्च 40, 4288-4297।

चेन, वाई, लून, एटीएल, और स्मिथ, जीके (2014)। किनारे की मदद से जटिल RNA-seq प्रयोगों का विभेदक अभिव्यक्ति विश्लेषण। में: अगली पीढ़ी के अनुक्रम डेटा के सांख्यिकीय विश्लेषण, सोमनाथ दत्ता और डैनियल एस नेटलटन (एड), स्प्रिंगर, न्यूयॉर्क, पृष्ठ 51--74। प्रीप्रिंट

लून, एटीएल, चेन, वाई और स्मिथ, जीके (2016)। यह DE-licious है: धार में अर्ध-संभावना तरीकों का उपयोग करके RNA-seq प्रयोगों के अंतर अभिव्यक्ति विश्लेषण के लिए एक नुस्खा। आणविक जीवविज्ञान 1418, 391-416 में विधियां। प्रीप्रिंट

चेन वाई, लुन एटीएल, और स्मिथ, जीके (2016)। पढ़े जाने वाले जीन से लेकर रास्ते तक: रुब्रेड और एज आरआरआई-अर्ध-संभावना पाइपलाइन का उपयोग करके आरएनए-सीक प्रयोगों के अंतर अभिव्यक्ति विश्लेषण । F1000Research 5, 1438।


यह बेहद मददगार है, @ गोर्डन; इसे लिखने के लिए समय निकालने के लिए बहुत बहुत धन्यवाद। मैं RNA-seq डेटा के साथ भी काम कर रहा हूं, इसलिए इस परिप्रेक्ष्य से एक उत्तर विशेष रूप से मूल्यवान है (मैंने अब प्रश्न में [जैव सूचना विज्ञान] टैग जोड़ा है)। आपका काम अंतर अभिव्यक्ति के बारे में है, जबकि मेरा वर्तमान काम क्लस्टरिंग के बारे में है (मैं जिस पेपर को पढ़ रहा था वह हैरिस एट अल। सीए 1 इंटिरियरनन्स ; बायोरेक्सिव )। वैसे भी, मैं आपसे कुछ छोटे-छोटे प्रश्न / स्पष्टीकरण माँगता हूँ। [cont।]
अमीबा का कहना है कि मोनिका

(१) आपने कहा कि निरंतर एनबी निरंतर पॉसों का एक गामा मिश्रण है। क्या आप इसे इस पर थोड़ा विस्तार कर सकते हैं, शायद इसे थोड़ा और स्पष्ट रूप से दिखा सकते हैं? मुझे लगता है कि यह सामान्य दर्शकों के लिए उपयोगी होगा। इससे संबंधित, मेरे प्रश्न के तहत टिप्पणियों में दो लोगों ने लिखा कि निरंतर एनबी को स्केल पैरामीटर साथ गामा का मिश्रण होना चाहिए , लेकिन केवल पूर्णांक । क्या दोनों के विचार सही हैं? (२) आपने कहा कि जीएलएम के लिए शून्य पर डेल्टा कार्य कोई मायने नहीं रखता। इसी समय, जीएलएम पर शून्य-विस्तारित वितरण के साथ बड़ा साहित्य है। यह एक साथ कैसे फिट होता है? आरlog(p)r
अमीबा का कहना है कि

(३) अपने व्यावहारिक कार्य में, क्या आप सहित सभी मापदंडों का अनुमान लगाने के लिए ML का उपयोग करते हैं , या क्या आप को पहले से कुछ विशिष्ट मानों में तय करते हैं (शायद सभी जीनों के लिए समान मूल्य साझा किया गया है?) और फिर इसे स्थिर रखें। मुझे लगता है कि यह बहुत आसान होना चाहिए। (उदाहरण के लिए एनबी खुद घातीय फैलाव परिवार है, लेकिन केवल निश्चित साथ ।)आर आरrrr
अमीबा का कहना है कि मोनिका

1
@amoeba biorxiv रेफरी के लिए धन्यवाद। (1) पोइसन के मिश्रण के रूप में NB की व्युत्पत्ति काफी अच्छी तरह से ज्ञात है, और हमारे कागजों में है जैसे कि मैककार्थी एट अल। निरंतर एनबी की व्युत्पत्ति सिर्फ पॉइसन के लिए निरंतर पॉइज़न को प्रतिस्थापित करके होती है। क्या मुझे इसे अपने उत्तर में जोड़ना चाहिए? इसे लंबा कर देगा। मैं यह नहीं देखता कि निरंतर एनबी को उपयोगी रूप से गामा के मिश्रण के रूप में कैसे दर्शाया जा सकता है। (२) नहीं, शून्य-मुद्रास्फीति एक अलग अतिरिक्त जटिलता है। हम अपने काम में उस जटिलता से बचते हैं।
गॉर्डन स्माइथ

1
@amoeba (3) हम सभी मापदंडों का अनुमान लगाते हैं। त्रुटि दर नियंत्रण को प्राप्त करने के लिए जनसंपर्क फैलाव का अनुमान लगाना महत्वपूर्ण है, और यह विशेष देखभाल के साथ किया जाना चाहिए क्योंकि नमूना आकार अक्सर छोटे होते हैं और डेटा का आयाम बहुत बड़ा होता है। हम एक जटिल प्रक्रिया का उपयोग करते हैं जिसमें जीन के बीच एक भारित-तुलनात्मक अनुभवजन्य बेयस प्रक्रिया के साथ जुड़े प्रत्येक जीन के भीतर समायोजित प्रोफ़ाइल संभावना (सोचें REML) शामिल हैं। फिर जीन एनबीई ग्लम्स को एमएल द्वारा तय किए गए फैलाव के साथ फिट किया जाता है। अंत में, गुणांक का परीक्षण अर्ध-संभावना वाले एफ-परीक्षणों का उपयोग करके किया जाता है।
गॉर्डन स्मिथ

19

इस पेपर को देखें: चंद्रा, निमाई कुमार और दिलीप रॉय। नकारात्मक द्विपद वितरण का एक निरंतर संस्करण। स्टेटिस्टिका 72, नं। 1 (2012): 81

इसे पेपर में उत्तरजीविता फ़ंक्शन के रूप में परिभाषित किया गया है, जो कि विश्वसनीयता विश्लेषण में नकारात्मक द्विपद की शुरुआत के बाद से एक प्राकृतिक दृष्टिकोण है:

क्ष=-λ,λ0,पी+क्ष=1आरएन,आर>0

Sr(x)={qxfor r=1k=0r1(x+k1k)pkqxfor r=2,3,
जहां और ।q=eλ,λ0,p+q=1rN,r>0

धन्यवाद! मैं इस कागज पर एक नज़र डालूंगा। (यह मुझे नहीं पता था कि किसका अपमान किया गया था।)
अमीबा का कहना है कि मोनिका

@amoeba, मैं, downvoting के बारे में चिंता मत करो यह इंटरनेट :)
Aksakal

3
(यह विचित्र है कि इस उत्तर downvoted था ...) +1
whuber

यह संदर्भ होना अच्छा है, लेकिन आदर्श रूप से मैं यहां एक अधिक विस्तृत चर्चा करना चाहूंगा। क्या यह उत्तरजीविता मेरे प्रश्न में पीडीएफ के समान वितरण को परिभाषित कर रही है? (वैसे, मुझे यह थोड़ा अजीब लगता है कि लेखक गैर-पूर्णांक मानों के लिए द्विपद गुणांक का उपयोग करते हैं ।) ऊपर कई टिप्पणियां इंगित करती हैं कि यह गामा वितरण का मिश्रण है (मुझे इसमें कोई चर्चा नहीं दिखती है कागज़); इन गामाओं के पैरामीटर क्या हैं, मिश्रण भार क्या हैं? क्या माध्य के लिए NB सूत्र और निरंतर संस्करण के लिए विचरण करते हैं? x
अमीबा का कहना है कि

@amoeba, पेपर में कुछ पल हैं, वे एनबी के समान नहीं हैं, दुर्भाग्य से
अक्षल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.